数据分析入门软件(常用的数据分析工具)
数据分析工具这么多,应该用哪个来做分析?
这是很多人在做数据分析的时候,经常会碰到一个问题。尤其是新人刚入门的时候,看到下面的数据分析工具
excel、sql、spss、python、tableau、powerbi、finebi、r、hadoop、spark……
可能头都大了,以为这些全部都要学。
在数据分析工具的选择上,我的建议是对症下药,因地制宜。
根据数据应用的不同环节来看
其实看上图就已经非常清晰了。每个数据分析工具都有其侧重的功能点,在不同的数据应用场景下,选择合适的工具,能实现效率最大化。
比如在数据获取时,你可以通过sql从数据库中提取数据,也可以通过python爬取数据,但你最起码要能熟练掌握sql;
数据处理时,如果数据量不大,其实excel是最方便快捷的数据处理工具,在大数据量的情况下,sql和python的使用更为常见;在大量不可变数据的批处理作业中,hive则最为合适;
分析建模方面,简单的分析,excel、bi工具已经足够,涉及到建模时,r、spss这类专业的统计分析软件,就更能发挥出优势,毕竟建模的思维和统计学是强相关的,当然,python也是一个不错的选择;
在做可视化时,还是建议各位用专业的可视化工具去做,可视化工具的细分上也有很多,像普通的业务数据分析师和业务人员可以使用常见的bi工具tableau、powerbi、finebi等去做,报表工程师更适合选择专业的报表工具例如finereport,开发人员还可以选择一些开源的可视化工具例如echart
3大常用工具分析
1、excel
在很多人眼里,excel只是一个办公软件,但实际上,大部分人对excel的认知还不到50%。excel可以称得上是最全能的数据分析工具之一,包括表格制作、数据透视表、vba等等功能,保证人们能够按照需求进行分析。
当然也有人认为自己非常精通计算机编程语言,不屑于使用excel这种工具,因为excel不能处理大数据。但换个思维想想,我们在日常中用到的数据是否超过了大数据这个极限呢?而且我们国家中小微型企业占了大部分,excel足够处理绝大多数的数据分析需求。
总结一下,百万级以下的数据处理、分析,excel是个不错的选择,新人要是想学数据分析,excel绝对是首选,而且是必选!
2、python
不可否认的是,python在数据分析领域,确实称得上是一个强大的语言工具。你可以随心所欲地写代码执行你想要的东西。尽管入门的学习难度要高于excel和bi,但是作为数据科学家的必备工具,从职业高度上讲,它肯定是高于excel、bi工具的。
尤其是在统计分析和预测分析等方面,python等编程语言更有着其他工具无可比拟的优势。
新人在初入门时可以先不学python,很多初级岗位甚至用不上python,但如果想在这条路上长远发展,它一定是个逃不开的工具。
3、bi工具
bi也就是商业智能,这类工具就是为数据分析而生的。你会发现bi工具的产品设计,几乎是按照数据分析的流程来设计的。先是数据处理、整理清洗,再到数据建模,最后数据可视化,全程围绕数据指导运营决策的思想。由于功能聚焦,产品操作起来也非常简洁,依靠拖拉拽就能完成大部分的需求,没有编程基础的业务人员也能很快上手。
以finebi为例
可以通过导入数据集或者连接数据库,获取数据
如果需要进行数据处理,点击创建自助数据集,在自助数据集中可以根据业务逻辑进行过滤、分组汇总、新增数据列、多表合并等数据加工操作,从而实现数据处理、分析、建模聚类等功能,用鼠标就可以完成数据加工操作,不用死记硬背函数公式。
数据处理完毕之后,点击保存,进入仪表板创建组件,即可进行数据可视化分析,可视化作为bi工具的重点功能,里面内置了几十种可视化图表模型,非常全面方便。
最后,可以输出下图类似的可视化仪表板,用作分析结果分享、报告都很适合。
以上的对比说明了几个软件的差别,我想总结的是,存在即合理。excelbi编程语言,这些工具在应用上有交叉重叠的地方,也有互补的地方。对于重叠的地方,无论是哪种工具,只要你能利用它解决你遇到的问题,它就是最棒的。
推荐阅读
-
数据统计分析软件有哪些(常用的市场数据分析)
-
数据分析入门软件(常用的数据分析工具)
-
Kaggle心脏病数据集为例学习机器学习的可解释性分析
-
笔试题:海量日志中提取访问次数前100的IP 博客分类: 数据结构与算法J2SE java面试大数据日志分析笔试
-
关于相同数据在RNN cell 和 RNN上运行结果不一致的分析
-
算法的时间复杂度分析 博客分类: 数据结构java算法 算法时间复杂度
-
创新服务 探索不止 创蓝万数为企业提供多层级的用户数据分析 博客分类: wu 数据挖掘工作
-
应用原型的制作与原型制作工具的使用 PowerBuilderSybase软件测试数据挖掘Web
-
Hive分析搜索引擎的数据(搜狗实验室数据) 博客分类: Hive HiveHadoop
-
内核中拥塞窗口初始值对http性能的影响分析 博客分类: kernel Google数据结构Blog算法Cache