欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

李伟钢:里约大数据暑期班巡礼

程序员文章站 2022-12-02 15:02:21
由EMC2巴西研发中心和里约联邦大学(UFRJ)联合举办的大数据暑期班于2月4-7日在里约热内卢的科学园举行。据组织方介绍,本来打算邀请60位人员参加,但前后共有700余人报名,只好请示总部,增加拨款...

由EMC2巴西研发中心和里约联邦大学(UFRJ)联合举办的大数据暑期班于2月4-7日在里约热内卢的科学园举行。据组织方介绍,本来打算邀请60位人员参加,但前后共有700余人报名,只好请示总部,增加拨款,扩招为160名,最后实际录取180名。EMC美国本部领军国际大数据市场,资源有的是,不但免收学费,还为大家提供酒店到会场的交通、茶点和午餐。看得出大数据在巴西也是十分时髦,深受欢迎。前来的学者有巴西*部门和公私营企业技术人员和高校、研究机构师生等。

1.“云”改变现代人生活也将改变世界

图 1是三位同事在咖啡厅的网游激战,在喝咖啡和品茶之前,签下君子协议,谁输谁埋单。当然“幸运者”只需在退出游戏后直接在手机上用信用卡付账。现代人就是这样,利用信息技术带来的便利,不停地制造数据。Universo Digital 的研究结果表明,到2011年,人类共生成1.8 Zettabytes 的信息量,形象一点说吧,这些信息需要有1万亿个16GB的iPad来分装。遗憾的是,少部分的这些数据经过某种处理或分析,而90%的大部分都成为非结构数据白白浪费了。

李伟钢:里约大数据暑期班巡礼

( 1 )

图1 咖啡厅激战,谁输谁埋单。

人们随时把看到的、身边的事情用手机等随身移动设备记录下来,和家人朋友分享。据统计,75%的海量数据由个体网民或移动用户产生:他们在全球每分钟平均发出1.68亿个电邮、给YouTube发6百个录像或在Flickr上放6600个图形文件。但是这些数据流的85%是由大型网络运营商处理和存储的。图2是本次暑期班最年轻的柱柱同学,课间放弃心爱的咖啡小点,忙里偷闲给朋友和妈妈“云发送”他在里约的工作和风景照。

李伟钢:里约大数据暑期班巡礼

( 1 )

图2 柱柱同学在课间忙着“云发送”在里约的照片

2. 电视传媒、大数据与云计算

巴西龙头传媒企业环球电视台(Globo.com)在使用云计算和大数据技术方面,和里约联邦大学合作,用高科技处理大批量的电视节目,提高工作效率,方便签约客户,赢得利润,走到同行前面。

仅以该台各频道电视节目的视频网络重博为例,说明媒体传播业使用大数据和云计算技术的案例。环球台的几个重点节目是新闻联播、体育台和电视连续剧。特别是晚间八点黄金时段的连续剧和周三周日的足球大赛,在本台的网页上的重播,是吸引签约客户的卖点。这些客户甚至在电视播放结束几分钟内就能在环球台网上看到视频。

环球台已经实现了不同网速的视频制作和网上发布技术。有两个解决方案:一是本台的数据中心存放;二是云运营商存放。后者甚至更便宜和方便。现在的问题是,在客户看完此段视频后,环球台还希望给他们推荐相关视频。该商务手段在亚马逊和YouTube都有,图3 显示YouTube在主视频旁边推荐相关视频情况。看来《非诚勿扰》节目满受网民欢迎的,需要声明的是,本文截图均无任何商业目的。

李伟钢:里约大数据暑期班巡礼

( 1 )

图 3 YouTube视频推荐系统示意

如果只是百十个视频和数千位用户,在Excel上算算相关性指数就是了。但环球台视频信息组的技术人员面临的挑战是2百万视频,1千5百万在线用户,和极其有限的时间内,动态列出客户视频点击推荐表。这就涉及到大数据有关的MapReduce技术,正是下文要介绍的。

3.大数据利器Hadoop理念

本次暑期班的重头戏是介绍Apache Hadoop,这是一个开源软件框架, 以Google 的MapReduce 技术为基础,查找有用的索引数据及其它“有价值”的信息,将此结果返回给相关用户。Hadoop支持4000个节点和PB级数据的数据密集型、分布式分析。EMC本部推出了Hadoop衍生产品,这次暑期班的主要目的也是对其软件技术的推广。

主讲Hadoop 的是2005年Yahoo该项目研发小组参与者之一,Milind B.老师,见图4。尽管略带印式英语口音的演讲,但由于Hadoop的精湛技术,引起与会者的热切关注。第二天,还有实习课,大家使用VMWare Player工具,直接体验Hadoop的实际操作。Google能前展性提出如此新颖的理念,而Yahoo能在7-8年前坚定不移地开发Hadoop,进而有效推广至今,真是让人信服。

李伟钢:里约大数据暑期班巡礼

( 0 )

图4 Milind B.老师介绍Hadoop 技术

4.雄心勃勃的EMC巴西研发中心

主办今次大数据暑期班的EMC巴西研发中心设在里约科学园区,依托里约联邦大学。其CEO就是毕业于该大学工程系的优秀生。该中心有60名技术人员,主要从事大数据技术的应用研发。目前的主要工作是和巴西石油公司合作,在石油勘探、运输、提炼和天然气等方面,开发应用大数据和云计算技术。

这次暑期班的活动非常紧促,前后安排的16个精彩演讲均按时实现,与会者收获颇丰。课余时间,草草把基本情况写下来与科学网网友分享,也算是对大家的新春祝福吧。其它技术资料,容日后慢慢消化后,在与博友分享。