如何从统计学角度完成专业的数据分析_统计学方法与数据分析
最近几年大数据可以说是如日中天、你要不懂点数据出门都不好意思跟人打招呼、但人人大数据的时代、真正懂数据的人却是凤毛麟角、基本上都是忽悠、这篇文章是翻译自一篇海外的统计学专业文献、写的深入浅出、值得做运营的人借鉴、像统计学家一样思考——其实你不需要太强的数学功底
在我研究生阶段的统计学学习中、学到的最重要的知识并不是一些具体的统计测试或者取样分析、而是一些不太“正经”的课外知识、这些知识在工作或者仅仅是娱乐的分析问题的时候给我带来了非常重要的帮助
一、细节决定数据分析的成败
很多多数时候、一些细小的信息并不会对数据分析的结果产生重要的影响、有一天在课堂上、我的导师给我们用投影展示了一张图表、那是一张散点图并伴有一条流畅的适配线条、他问我们看到了什么有价值的内容、显然、在开始这里有一个上升的趋势、中间有一定下降
接下来又有一定反弹、但是我忽略了最开始的那个小波动、这就是我们不足的地方、所以这里的关键就是:模式和趋势是重要的、但是那些离群值、缺失点和一些异常也同样重要
二、纵观全局
很多时候、在一个大数据集中抓住独立的数据点或者细节不放也是不合适的、这就像产品经理在功能不完善的时候扣细节、大局观会让你看到数据的整体趋势、它会帮助你分析甚至预测数据的变化、从而在数据中获取价值
三、看待数据要客观
在做数据分析的时候、我们要尽可能客观的看待数据、当然这并不是说在看到一组数据之前一点期待也没有、有没有期待其实不重要、最重要的是不要让自己最初的预判影响了观察的结果、因为如果你一开始就试图寻找一些模式、那你可能会陷入这种模式中而牺牲掉准确的结果、这是做数据运营工作最不应该犯的错误
四、看到数据之外的东西
上下文、上下文、上下文、重要的事情要说三遍、有些数据关系有时可能来自于元数据中、有时可能来自于其他的数据集
你需要更多的了解这个数据是如何被收集的、了解数据背后的故事、包括数据的来源、数据统计的原因、数据是如何产生的、还有数据产生的时间等、只有当你可以获得更多信息的时候、你对于结果就会更有自信、并且、当数据产生的结论和我们日常的逻辑相违背时、我们更需要通过上下文来分析原因、如果不是你的数据计算方法有误、那么这基本是唯一的方法
五、怀疑是数据分析者前进的动力
最后、这是我重要的收获:始终保持怀疑的态度是一个数据分析者前进的最大动力、当你看到一个图中的异常时、你应该好奇它为什么会出现在那里;如果你发现了一些相关关系、你应该思考它是怎么产生的、是否可以推导出一些重要的结论、如果这些发现有意义、那很好、如果没有那就需要继续深入去发现
数字包含着大量的信息、但需要记住的是当人参与到数据当时、错误几乎是不可避免的