欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

如何辨别“伪大数据”产品?

程序员文章站 2022-06-26 14:42:31
科技营销紧跟正在上升的有力潮流来盈利,这是个长期公认的做法。在互联网热潮(.com boom)时期,和互联网一点儿关系没有的公司都在名字里加上了“.com”。环保产品满身绿色。...

科技营销紧跟正在上升的有力潮流来盈利,这是个长期公认的做法。在互联网热潮(.com boom)时期,和互联网一点儿关系没有的公司都在名字里加上了“.com”。环保产品满身绿色。云端产品都和“云”贴边。现在又兴起用大数据来贴金。

这些夸张的手段是否弊大于利呢?也许因为营销中利用了“大数据”这个词,人们能去接触并了解一个不然他们不会去考虑的产品。但这个伎俩几乎骗不了谁,并且会让用伪大数据技术的用户抓狂。

大数据分析平台厂商Platfora引起了Luth Research调查大数据分析市场现状的兴趣。他们的调查问卷直接问回答者他们是否把小数据产品换了个包装说成是大数据产品;55%回答了是。大约一半的回答者称他们不得不把大数据分成小份来分析,并且小数据产品用在大数据上是不太成功的。Luth Research分析结论是:“不好用的大数据分析工具影响士气。对他们用的工具不满意的回答者更倾向于用压力大、令人沮丧、浪费时间这种词来形容他们的大数据分析体验。”

Platfora的创始人兼CEO Ben Werther说,如果一个公司把它本质不是大数据的产品定位成大数据,那就是在自砸招牌。“今年早些时候,我为DataRPM写了些东西,DataRPM有非常好的产品,但自从我认识他们起,我就告诉他们,大数据不是描述他们的产品价值的正确用词。在最近的广告上我看见DataRPM用“大数据公司”来描述他们自己。”

DataRPM通过自然语言,自动创建面板及对数据进行语义建模来解决顶层漏斗形商业智能问题(“为何顶层漏斗形商业智能会引领新潮流”)。没受过训练的用户也可以尝试通过用自然语言问问题在DataRPM上试水。根据问题会生成新的面板。通过增加更多的语言,这个面板可以被细化。这样一来,用户可以找到他们并不知道的数据集。一般公司中,只有30%人接触到商业智能,通过利用DataRPM这样的产品,可以极大地提高这一比例。

但是这个和大数据有啥关系呢?也许勉强可以说DataRPM能从大数据库中进行查询吧。但是通过表单也可以做呀。表单是大数据技术么?一摞纸是大数据技术么?DataRPM为了和大数据贴边的做法反而掩盖了它真正的价值。

Qlik和Tableau和大数据公司都有很多合作并且经常被用来处理大数据,但是他们的市场营销都看重他们的核心价值即辅助数据的探索和发现过程。Looker是这个领域的新秀,他们独特的探索发现方法已经有了一些活跃的初期用户,但是他们非要在产品介绍页面上写上一段他们的产品能“解开大型数据集的迷”。

说到底,大数据到底是啥意思呢?

Luth Research的报告验证了Werther的观点。回答者被问到了有关下面这些能力的问题:指定小时数/天数内的结果;不使用IT技术来添加数据源;迭代分析;获取数据源访问;不需要把数据分成小块;分享结果的简易程度;不使用IT来做分析;数据放在集中式数据库内;处理任何数量级的数据;自动实时的分析;能方便地加入新数据集;可视化的结论;分析不同种类的数据。

超过半数的大数据分析产品用户称他们有上述所有的能力。计划使用大数据产品的用户中有四分之一有上述的能力。注意上面和大数据有严密关联的只有几项而已——大多数不过是更好的商业智能技术罢了。

那么伪大数据技术究竟是什么呢?是并不能把大的数据集广泛让人们使用或不能帮助数据科学家有新突破的技术。就DataRPM来说,他们的技术也许是很不错的,但它并不是大数据技术。

那什么是真的大数据技术呢?是超赞的能够让人更容易地有意义地使用大数据。换句话说,大数据就是说一个东西很好并且能处理大量的数据。想要分辨真假大数据技术的话,当一个零售商向你推销他们的故事的时候,你可以问他这个技术是否能帮你爸妈使用大数据,或者数据科学家是否能用它来做以前做不到的事。如果两样它都可以,那才可以被称作大数据技术。如果不能,但你认为该技术也不错,那就只能管它叫商业智能。