一周热点: Twitter的下一代分布式数据库Manhattan
2. 孙元浩:基于Spark引擎的高速内存分析和挖掘工具应用 孙元浩,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技,推出国内首个基于Spark的大数据平台产
2. 孙元浩:基于Spark引擎的高速内存分析和挖掘工具应用
孙元浩,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技,推出国内首个基于Spark的大数据平台产品,在中国成功建立数个Spark成功案例。
孙元浩认为现在把Spark作为M/R执行引擎内嵌在我们的产品中,在两大类应用实践中比较成功,一类是通过PL/SQL进行交互式数据统计和分析,结合可视化工具为用户提供了高速的大数据探索能力。另一类应用是做数据挖掘,因为Spark充分利用内存进行缓存,利用DAG消除不必要的步骤,所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法,所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现,可以从R语言中方便地调用,降低了用户进行数据挖掘的学习成本。
他表示Spark目前在技术上已经不存在大的困难了,我们已经在一些用户的核心业务系统中部署我们自己的Spark版本,而且是7x24小时不间断运行,稳定性已得到验证。我们也把Spark成功地应用到数据仓库中,无需编程几乎全程可视化。如果说目前面临的最大困难,主要是在客户认知上,还需要更多的成功案例和技术推广。
3. Redis大冒险:如何跳出SQL这个坑
随着数据体积的激增,MySQL+memcache已经满足不了大型互联网类应用的需求,许多机构也纷纷选择Redis作为其架构上的补充,然而Redis的使用门槛并不低,比如不支持SQL等,这里为大家分享Redis的使用全攻略。
Redis的一个重要特性就是它并非通常意义上的数据库,虽然称之为数据库是因为它可以为你存储和维护数据,但它并不像关系数据库那样提供任何的SQL方言。不过不用担心,Redis并不是吞噬数据的黑洞,它只是不支持SQL及相关功能,但却提供了稳健的协议用于与之交互。
Redis是基于key-value范式存储数据,不像RDBMS中的字段名称,这里的key是Redis中的重要组成部分,所以我们必须在处理key时多加小心。在下面的讲述中,Redis并没有table的概念,所以像"SELECT username from users WHERE user_id=123;"这种简单任务都只能换种方式实现,为了达到这种目的,在Redis上,一种方式是通过key "user:123:username"来获取结果value。如你所见,key的定义中携带了神秘信息(像user ids)。在Redis中,key的重要性可见一斑。
4. 搭建高可用的MongoDB集群(上):MongoDB的配置与副本集
NOSQL有以下优势:
- 大数据量,可以通过廉价服务器存储大量的数据,轻松摆脱传统mysql单表存储量级限制。
- 高扩展性,Nosql去掉了关系数据库的关系型特性,很容易横向扩展,摆脱了以往老是纵向扩展的诟病。
- 高性能,Nosql通过简单的key-value方式获取数据,非常快速。还有NoSQL的Cache是记录级的,是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多。
- 灵活的数据模型,NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。
- 高可用,NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如mongodb通过mongos、mongo分片就可以快速配置出高可用配置。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中最像关系数据库的。支持类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。所以这个非常方便,我们可以用sql操作MongoDB,从关系型数据库迁移过来,开发人员学习成本会大大减少。如果再对底层的sql
API做一层封装,开发基本可以感觉不到mongodb和关系型数据库的区别。同样MongoDB也是号称自己能够快速搭建一个高可用可扩展的分布式集群。
5. 软硬件协同创新,共建未来数据中心
2014年3月26日,LSI加速技术创新峰会(AIS)首次登陆中国,这也是LSI首次选择在美国之外的地区召开峰会,本次峰会主题为“数据即商机”。参展的产品主要是针对数据中心的存储解决方案,包括针对企业级大型数据中心的12 Gb/s SAS MegaRAID解决方案,针对中小企业的Syncro CS解决方案以及Nytro闪存解决方案,虽然没有新品发布,每种解决方案对传统存储市场来说都是一场变革。
LSI公司CTO办公室高级技术专家Robert Ober则将其进一步细化为数据中心三大硬件创新和六大趋势,三大创新分别为:硬件的智能化、整个数据中心的可靠性以及大数据分析所需的分布式系统架构。六大趋势分别为:
- 数据中心开发时间不断缩短,大幅增加了硬件厂商制定和实施计划的难度。
- 终端客户尤其是大型数据中心客户与硬件厂商直接对接。
- 超大规模数据中心或云数据中心等新参与者加入数据中心市场。
- 开源计划。Open Compute和Open Stack等新型开源项目正在重新改写数据中心架构 。
- 新架构和新算法。
- 市场变化。笔记本在从HDD转向SSD;云端存储对大容量HDD的需求在急剧增长等。
6. Dropbox推独立应用,公司估值已达100亿美元
4月9日云存储服务商Dropbox发布数项新应用,如照片应用Carousel允许用户浏览和共享存储在云服务中的图片。而移动电子邮件Mailbox的亮点是通过将重要附件保存在云服务中来减少垃圾邮件。该公司CEO德鲁?休斯顿(Drew Houston)将公司的新举措称为开启“第二篇章”,旨在发挥Dropbox的现有优势,使用户拥有更多理由忠诚于Dropbox 的云存储服务。
前美国国务卿康多莉扎?赖斯 (Condoleezza Rice)也闪亮加盟Dropbox,成为公司第四位董事会成员。去年,赖斯经营的国际咨询公司RiceHadleyGates一直在为Dropbox的管理提供咨询。休斯顿(Drew Houston)表示,虽然其他企业的存储服务价格更低,但仅Dropbox一家能够实现文件在多个设备之间的同步。谷歌、微软和苹果虽都提供免费服务,但用户只能在专属这些企业的设备或应用中使用。Dropbox扮演着瑞士一般的中立国角色,可允许用户将运行Windows系统的笔记本电脑上的文件,在 iPhone或Android平板中进行无缝更新。
7. 华为章宇:如何学习开源项目及Ceph的浅析
学习各种开源项目,已经成为很多朋友不可回避的工作内容了。笔者本人也是如此。在接触并学习了若干个开源项目之后,笔者试图对自己工作过程中的若干体会加以总结,以期对一些希望借鉴的朋友有所裨益。- 了解项目的基本概念、基本用途、逻辑结构、基本原理、产生背景、应用场景等基本知识。
- 掌握项目的基本安装流程和使用方法。
- 了解代码的组织,找到各个主要逻辑/功能模块与代码文件之间的对应关系,通过代码分析走通几个关键的、有代表性的执行流程。
- 了解该项目所有代码模块、程序文件的作用,走通所有主要执行流程。
- 钻研、领悟该项目的各种设计思想与代码实现细节。
作为OpenStack的人气存储技术之一,Ceph与Swift和GlusterFS一样有着各自的优势:GlusterFS更适合Hadoop类型的服务;Swift适合更多人访问;Ceph的未来更被看好,并已得到许多知名机构的支持,比如CERN和天河2。
Ceph事实上是目前OpenStack生态系统中呼声最高的开源存储解决方案。这一点从笔者在OpenStack 2013 HongKong Summit上的亲身体验可以得到印证。目前,以HP、Dell、Intel等为代表的企业IT领导厂商,和以Mirantis、eNovance、United Stack为代表的若干OpenStack社区新兴厂商,都将Ceph作为重要的乃至于首选的开源存储解决方案,详细内容请点击 原文。
其他云计算热点新闻: Hadoop集群环境下网络架构的设计与优化、 CloudFoundry架构优化:NATS集群化方案、 EMC:大数据时代中对于数据保护的重新定义、 从火种到核心,浅析Hadoop大数据用户的演变、 云计算战争:OpenStack vs. VMware,更多云资讯请继续关注CSDN 云计算频道 。(审校/仲浩)
以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 !