百度组建深度机器学习开源平台 研发“虫洞”项目
5月21日消息,由百度牵头的分布式深度机器学习开源平台日前正式面向公众开放,该平台隶属于名为“深盟”的开源组织,该组织核心开发者来自百度深度学习研究院(IDL),微软亚洲研究院、华盛顿大学、纽约大学、香港科技大学,卡耐基·梅陇大学等知名公司和高校。
据透露,“深盟”目前的重点开发项目被命名为“虫洞”,其将成为所有深盟项目的统一入口。虫洞将自动构建深盟所有项目,为对所有组件提供一致的数据流支持,无论数据是以何种格式存在网络共享磁盘,HDFS,还是Amazon S3。
此外,它还提供统一脚本来编译和运行所有组件,使得用户即可以在方便的本地集群运行任何一个分布式组件,又可以将任务提交到任何一个包括Amazon EC2,Microsfot Azure, Google Compute Engine在内的云计算平台,并提供自动的容灾管理。
截止目前,“深盟”分布式深度机器学习开源平台的已有组件已成功覆盖三类最常用的机器学习算法,包括被广泛用于排序的决策树模型(GBDT),用于点击预测的稀疏线性模型(如Sparse Logistic Regression),以及目前的研究热点深度学习。
未来“深盟”将致力于将实现和测试更多常用的机器学习算法,并通过更好的融合当前各类组件,将提供更为一致性的用户体验。
资料显示,机器学习是人工智能研究领域中的重要方向,而深度学习则是近年机器学习领域的一个重大突破, 作为目前最接近人脑的智能学习方法,深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等,有着广泛的应用前景。
在深度学习的研发上,百度一直在布局,早在2013年,其便组建了百度IDL(深度学习研究院),面向全球延揽一流学术人才,并尝试将深度学习应用于语音识别和图像识别、检索,以及广告CTR预估(Click-Through-Rate Prediction,pCTR)等领域。
2014年,百度又将Andrew Ng招致麾下,Andrew Ng是斯坦福大学人工智能实验室主任,入选过《时代》杂志年度全球最有影响力100人。百度称,到目前为止,已有8项深度学习技术在百度产品上线,在用GPU提升计算效率,处理海量训练数据,语音识别,OCR识别,人脸识别,图像搜索等领域均有突破。
百度称,通过深度机器学习开源平台,世界各地的开发者们可免费获更优质和更容易使用的分布式机器学习算法源码,从而降低开发和部署分布式机器学习系统及相关应用的门槛,包括今日头条、汽车之家等在内的多家公司已通过该开放平台受益。
深盟项目负责人之一、百度深度学习研究院李沐介绍称,此次百度推出的深度机器学习开源平台,和其他开源软件一样没任何使用限制,个人和机构均可*使用。其最大优势在于达工业级应用标准。
李沐指出,目前业内流行的分布式平台例如Spark都基于JAVA语言,开发难度虽然较低,但通常在性能上有所缺陷。而此次“深盟”推出的深度机器学习开源平台,其核心则完全采用C++语言,性能成熟稳定,能满足各种工业界需求。