咨询热线 400-001-5729

数据分析师会Excel了,还要学Python吗

发布时间:2023-03-11 16:14:44

数据分析师培训班

    到底什么是数据分析师?数据分析师到底是干什么工作的?
    现在看这篇文章的小伙伴大多数应该是数据分析师,相关的从业人员,或者是想入门数据分析行业的人群,大家可能都对数据分析具体是做什么的,或者是一些具体工作内容会有一些疑问。
    这里首先需要声明的一点就是,如今不同的行业和公司,大家对数据分析这个职位的称呼可能不太一样。
    最普遍的就是称数据分析师,有的公司可能会称BI分析师或者大数据分析师,有的可能叫经营分析师,也有可能叫数据科学家之类的。其实不管是公司里关于数据职能它叫什么,但大家本质上做的事情其实都是差不多的,都是围绕数据去展开的一些分析。
    作为数据分析师,具体需要做什么样的一些事情,我个人理解的话可能主要是三个方面。
    01、通过数据发现问题
    第一个方面就是,我们主要通过数据发现问题。这个可能对于大多数分析师来说相对比较容易。常规通过各种数据比较,跟同环比较。如果当某个指标超过某一个界限的时候,我们就认为这个指标背后的业务是有问题的。
    第一点就是通过数据去发现问题,第二个点是要基于发现的问题去分析背后的本质原因是什么。第二点对数据分析师的要求更高一些。
    02、基于问题分析本质原因
    在这个环节我们需要去掌握一些常用的分析方法。
    比如说漏斗分析法,需要根据漏斗分析法去分析说到底哪个环节出现了问题;或者说去通过分组分析,需要知道具体哪些维度,哪些用户群现在的问题比较大;还需要去掌握贡献度的计算方法,需要知道到底哪个环节贡献比较大,每个环节的贡献度分别是多少,或者说不同的人群的贡献度分别是怎样的。到这里的话,其实我们是从数据层面对整个问题进行了归因。还要更进一步发现说数据归因下面的业务本质原因是什么。
    这里给大家举个例子。
    最近发现DAU发生了比较明显的下降。我们通过各种分析方法,最后得出来的数据结论是:因为23岁以下的用户群体发生了比较明显的下降。到这里我们只是发现了数据层面的原因,那么为什么会下降呢?这里就需要去对业务进行了解。
    进一步发现23岁以下的用户主要是学生群体,可能恰好赶上学校陆续开学,从而影响了这段时间的活跃度。因此导致23岁以下用户群体发生了大幅度的下降。
    到这里其实我们才是对整个问题有了最本质的归因。数据层面看到是23岁以下的用户发生了下降,最本质的业务原因是由于这部分学生群体开学了,没有时间来活跃了,这个其实是我们要做的。
    03、基于现有问题给出策略上建议
    这里面之所以用建议,是因为其实作为分析师可能对这个业务是没有决策权的,只是建议权。
    继续回到上一个例子,发现最近DAU下降了,主要是学生群体的下降。那么有什么办法?是否能够让学生群体在上学的时候也能够活跃呢?或者说如果学生群体在上学时候没法活跃,那么有没有什么办法去看一下其他非学生用户群体的渗透率是什么样子。有没有办法让非学生群体的渗透率变高。
    针对这些环节,你还缺哪些能力,就可以根据具体的技能点查漏补缺。
    会用Excel,真的需要再学Python吗?
    很多读者来问我,说我现在已经Excel了,我还有必要去学Python吗?
    其实要注意的是,不管是Excel、Python还是SQL,其实都只是数据分析的一个工具而已。分析的本身和你用什么工具其实是没有关系的。用Excel能做数据分析,用Python也能做,用其他工具也可以。所以大家不要觉得说用Python做数据分析,就比用Excel做数据分析高级,其实不太存在这方面的问题。
    既然这样的话,可能有同学就会问了,既然如此,我是不是只会Excel这一个技能就好了,我就没必要去学Python了。
    大家如果有在网上看去看招聘要求的话,会看到基本上互联网公司招聘都会有一项要求会Python。
    为什么呢?我个人认为主要有两方面的,一、在有些场景下,有些场景下,Excel和Python可能都能做这件事情,但是Python的效率可能会更好一些。第二个原因就是,在特定的场景下,只有Python能做,但是Excel是不能做的。
    基于这两个原因,我们就有必要去学Python。虽然不是100%的工作都是用Python,但万一遇到非Python不可的时候,你也会,这就能让你如虎添翼。
    具体工作场景中,使用Excel和Python的不同
    接下来具体讲讲日常的具体工作内容,再看一下在具体的场景中用Excel和Python有哪些不一样的地方。
    第一点就是数据处理。
    比如说缺失值处理,重复值处理,加减乘除运算等。Python的一个优势就在于大数据处理,Excel的话可能上限就100多万行。
    而且虽然上限是100多万行,但处理大量级数据的话,一般超过20万行,Excel就反应特别慢了。尤其当你在里面嵌套了很多公式时,经常导致Excel无响应就崩溃退出了。而Python就不存在这个问题。如果数据量级很小,Excel和Python是差不多的,有时可能Excel效率可能还会更好。
    这是关于在数据处理方面,因为我们做数据分析的第一件事情,可能就是去对这个数据进行各种各样的一个处理,大家根据自己的情况去选择就好了。
    第二点是报表自动化。
    常见的有日报、周报、月报等。这种报表有一个好处就是格式相对比较固定。只要格式是固定的,我们就可以想想办法去把进行自动化。自动化的话可以用Python写代码,把代码写好了,它运行一次就ok了。在Excel里面的话也是可以的,去写vba,或者用各种公式嵌套。网上就有人专门去比较过,同样的操作,用vba和用Python的效率差异,Python可能要比vba更快一些,也就是效率更高一些。
    Python和vba在写代码的方面,比如要读取一个文件,Python里面可能一行代码就能够读取进来了,在vba里面可能要写好几行代码,而且也不是那么好理解。
    还有一个最重要的点是Python现在很火。
    很火就意味着网上会有很多的资料,如果你遇到什么不太懂的地方,去网上搜一搜大概率是能搜得到的。但是vba整个受众还是相对较小的,如果遇到什么相关问题,可能问身边的人发现也没几个人会用。你去网上搜也得不到太多的资料,我们在学的时候都需要去借助网上资料,网上的资料多少就决定了我们学习的效率。
    第三个方面是图表可视化。
    我们就经常需要去做图,需要做的好看。Excel和python其实都能做出很好看的图表来,只不过Python里面是有很多现成的包,只需要调用一两行代码就能够做出很好看的图表来。Excel里想要做出好看的图表,就要做进行各种设置,这需要耗费很长的时间,这方面效率是不如Python。
    另外遇到一些比较高级的图表。比如说统计里的核密度图或者小提琴图之类的。这些在Python里都有现成的包可用,只需要一行代码就能绘制出小提琴图。在Excel里面,如果想绘制小提琴图基本是不太可能的。
    最后在统计检验或者说统计学方面。
    A/B测试大家应该都有用到过,其本质上核心内容就是假设检验。
    如果是做一些比较基础的假设检验的话,在Excel和Python都是差不多的,比如T测试。Excel里面也是一个公式的问题,在Python里面就一行代码的问题。在这里其实差不多的。
    但如果想要用一些比较复杂的检验,比如说多重检验。你在Python里面也有现成的包,一行代码就出来结果了。在Excel里需要人工的去实现两两比较,最后达到多重检验的结果。
    综合一下,其实从数据处理、报表自动化、图表可视化,统计检验这些是分析师日常工作里用到的几个方面。在不同的场景下,Excel和Python各有不同,有的时候可能Excel的效率会更高一些,有的时候可能两者差不多,有的时候可能Python会更好一点。
    基于以上几点,我们还是有必要去学学Python的。