欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

《大数据》作者:做大数据要从小数据做起

程序员文章站 2022-05-18 08:57:02
    数据浪潮汹涌而至,摩尔定律、普适计算、数据挖掘、社交媒体正强烈影响着我们的生活,在“大数据”的现实情景中,个人行为选择的参照系如何?&...

    数据浪潮汹涌而至,摩尔定律、普适计算、数据挖掘、社交媒体正强烈影响着我们的生活,在“大数据”的现实情景中,个人行为选择的参照系如何?“大数据”又为公共管理和商业创新带来何种机遇和挑战?“大数据”如何在中国落地?针对上述命题,上周日,第一财经·悦读会携手广西师范大学出版社·理想国,与嘉宾《大数据》作者涂子沛、贝格数据总裁李常青在复旦大学围绕“看得见的未来”这一命题进行讨论。

   《大数据》讲述了美国半个多世纪信息开放、技术创新的历史。涂子沛认为,摩尔定律和普适计算将生成一个机会更平等、信息更充分的时代。如波普尔所言,一个开放的社会,意味着,人们把决定建立在他们自己的才智和掌控之上。他认为,如果一个社会对好的公共生活缺少想象力,是因为这个社会的公众站在低处,这个低,不是技术上的,而是价值观上的,“如果你不能理解爱与分享是生命中极为重要的东西,那么,你也很难真正理解,信息交流与分享对于一个社会的重要性。”

   而如何定义“大数据”?涂子沛强调,在认识上需要厘清两个概念:首先,谈论“大数据”应回到信息公开和数据开放这两个维度,信息公开是“知情权”意义上的概念,但数据开放不仅仅是知情权的问题;另一方面,“大数据”不应该仅仅理解为存储数据的容量,而是挖掘数据和计算力的问题,数据挖掘是指通过计算器对大量的信息进行分析,从而揭示数据之间的关系、模式和趋势。

   悦读会:数据开放是一个多方博弈的过程,放在中国的语境中,突破口在哪里?同时,博弈需要各个方面的妥协,妥协的界线是什么?

   涂子沛:推动历史前进最重要的条件是开放,但所有的*都有一个天性,希望你知道的信息越少越好,这就需要社会形成一个集体的声音,大家都认识到知情权的问题时,才能够形成监督的压力。当你有了社会责任感,当你只有在别人碰到问题的时候发出自己的声音,利益的天平才可能变化。我在书里引了一句话:“防止公民犯下错误不是*的责任,但是防止*犯下错误是每一个公民的责任”,你需要发出声音。中国社会的冷漠或者不作为,是大家都不发出声音。突破口还是公民意识的成长,大家都有公民意识、权利意识,我们都需要知道,美国社会的公开是个漫长的过程。

   整个社会需要一个表达利益的机制,同时我们需要理性抗争,需要妥协,界线在于非暴力,整个社会的发展需要在一个共赢的状态中,利益的天平不可能永远公正,所有人都发出了声音,有可能照顾不到你的声音,但是你需要持续地去发出自己的声音,利益的天平才可能改变,这是不断调整的过程,历史就是这样发展过来的。

   李常青:现在,中国逐渐开放数据,*逐渐开放数据了,但是需要一些专业的公司把这些数据变成可阅读的,我想数据挖掘这一块,数据开放了,最终还是需要让个人能够解读,这方面可能需要我们做更多的工作。

   悦读会:数据的大量涌现,出现了很多非结构化的数据,在数据的语义挖掘方面,有没有更好的方法?

   李常青:金融数据的品种越来越多,确实存在很多非结构化的数据,很多文本、网上的消息都可以作为数据公司提取数据的来源,我们的挖掘手段统称大数据技术,这个概念提出很早了,但还需要能够真正落地。阿里巴巴就可以拿出一个具体的数据出来,所有贸易交易的数据显示去年一段时间下滑很厉害,这个数据很早就可以预测经济形势,通过数据挖掘形成一个数据报告,其产生的价值会很大。很多数据都是可以进行语义挖掘的,但是一般人无法使用,需要专业的数据公司进行精确化处理。

   涂子沛:视频数据越来越多,现在语义分析的难点在哪里,不仅是数字挖掘,还包括视频挖掘、图像挖掘。比如,某位经济学家现在发表了一个什么观点,那么我们需要把他历次发表过的观点、他出现过的视频很快地进行挖掘,现在这个技术在很多领域都可以使用。再比如,所有在镜头中出现过玫瑰花的电影,你能否一下子把它找出来?这些语义发掘正显示出越来越重要的意义。

   读者:大数据的行业前景如何?哪个行业在我们国家比较有前景?

   涂子沛:中国面临的问题是大数据落地很难,难在哪里?首先一个原因是缺少数据运用的内驱力,比如,电信有那么多数据,但它没有驱动力去分析这些数据。它有很多领域可以赚钱,为什么还要去分析数据?但如果它需要面对充分的市场竞争,需要它对竞争的应对更加精细化,自然就会进行数据挖掘。究竟哪个领域,更容易落地?领域很多,比如气候,气候数据非常大,真正海量数据,还有交通数据,也是非常庞大的数据,每个摄像头产生的数据,经过分析和运用都是财富。虽然大数据目前在中国落地很难,但这是一个未来的趋势。

   李常青:产生大数据的行业条件是,它需要有很多数据的积累,有人认为在中国只有大的互联网公司能做大数据,这个观点我不大认同。但是反过来看,可能会合理很多,说中国做大了的互联网公司都在做大数据,这个我是认同的,因为一方面是因为他们积累了很多用户交易数据,才可能延伸出更多的运用,催生出新的商业机会。就中国来讲,目前发展不错的行业,也能够佐证我这个观点,比如定位系统的行业,一是它数据量大、准确度高,再一个它跟你的生活关联度较高,这类行业的商业机会会好一些。另外一个我所从事的金融数据业,我也很看好,金融行业的数据量很大,各个金融机构产生的数据都是我们分析的对象,同时我们还需要关注外界对他们的评价,各种新闻、各种消息,都是我们的基础数据,这些数据挖掘、运用得好,数据增值空间会很大。所以,数据量大,跟生活关系密切,数据挖掘和数据结构做得比较合理的话,可能都是很好的商业机会。

   读者:我们如何通过改变思维方式来推动大数据在中国落地?

   涂子沛:还是要改变思维惯性,重视数据,在中国做大数据要从小数据做起。大数据对于中国为什么那么重要?我想它对中国社会的特殊意义在于,不仅仅是一个技术浪潮,也是中国社会提高对数据认识的契机,我们需要用数据来说话,成为论证自己的工具。数据的精神归根到底是理性的精神,数据归根到底是对世界的一个客观反映,中国社会缺乏这种精神,阅读和分析数据应该成为一个人的知识结构中很基础的一部分。