深度学习,让人类又抓住一根抗击癌症的稻草
【AI世代编者按】美国多个部门正启动“用于癌症的先进计算解决方案联合设计”(JDACS4C)项目,试图利用深度学习技术推动抗癌研究。国外媒体近期刊文,对这一项目进行了介绍。
里克史蒂芬斯(Rick Stevens)表示,到2017年第二季度,“用于癌症的先进计算解决方案联合设计”(JDACS4C)的首批成果将会公布。他负责了JDACS4C三大试点项目之一。这些项目获得了美国能源部的资助,试图利用深度学习技术去从事“抗癌战争”,不仅推动癌症的研究和治疗,还希望发展深度学习能力和基础设施,推进百亿亿次级计算机的应用。
从各个方面来看,美国的抗癌战争和精准医疗计划(PMI)都有着远大目标。以往的抗癌战争项目效果不是很好,但这并不意味着没有取得任何成果。目前的前景看来更好。生物医药科学取得的进展,以及下一代先进计算机成为了强大的赋能设备。深度学习技术的兴起推动了由数据驱动的科学,这也是许多人感到乐观的原因。
JDACS4C的3个试点项目涵盖了从分子学到人口学的研究,也是对“癌症分布式学习环境”(CANDLE)的支持。这些项目的目标是“提供关于可扩展机器学习工具的研究信息;发展深度学习、模拟和分析技术,减少解决问题的时间;为未来计算解决方案的设计提供参考”。最终希望是“有效利用不断增长、逐渐多样化的癌症相关数据,建立预测模型,提供对这种疾病更好的理解,为个人患者的治疗结果提供指南,支持医疗决策,从而建立未来多年癌症研究的新范式”。
这些目标非常远大。不过,JDACS4C的起源有些复杂。这可以归入PMI项目、美国癌症研究所(NCI)的“癌症登月”项目,同时又与美国战略计算项目(NSCI)相适应。史蒂芬斯表示,关于启动JDACS4C的讨论从几年前开始,第一轮资金于今年8月开始投入。
以下是3大试点项目的简介:
1.RAS分子项目。这一项目计划开发新的计算方法,支持当前RAS行动中已开展的研究。最终目标是增强对癌症中RAS基因及相关信号通道的理解,在RAS蛋白膜信号复合体中找到新的治疗目标。
2.临床前筛查。这一项目将基于试验性的生物数据开发“机器学习、大规模数据和预测模型”。思路是创建反馈循环,让实验模型指导计算模型的设计。这些预测模型可能指向癌症中的新目标,协助找到新的治疗方式。
3.人口模型。这一项目计划开发可扩展的框架,有效地归纳、总结、分类癌症病人的医疗记录。这样的引擎在医疗健康的多个方面,包括数据分发、成本控制和科研中,都非常强大。
JDACS4C需要多部门的参与。美国癌症研究所的参与部门包括生物医学信息和信息技术中心、癌症治疗和诊断部、癌症控制和人群科学部,以及弗雷德里克癌症研究国家实验室。美国能源部的4所国家实验室也参加了这一项目,包括阿尔贡国家实验室、橡树岭国家实验室、劳伦斯-利佛莫国家实验室,以及洛斯-阿拉莫斯国家实验室。
史蒂芬斯表示,当项目聚集在一起之后,“我们意识到,每个项目都需要深度学习技术,但有着不同的使用方法。因此这里的思路是,我们需要合作开发软件环境和网络拓扑结构,以及其他所需的一切,从而不会干重复劳动。”研究人员定义了关键指标,以“解决与癌症不同子问题相关的深度学习问题”。
最初的第一步是吸引供应商的参与。史蒂芬斯表示,这并不难,因为所有的HPC(高性能PC)供应商都制定了积极的深度学习发展路线图。大部分厂商都认为,JDACS4C试点项目是个学习和改进的良机。目前,JDACS4C的合作方包括英特尔、Cray、英伟达和IBM等。
史蒂芬斯表示:“所有拥有DGX-1超级计算机,以及英伟达,都优化了针对不同GPU的大部分通用框架。DGX-1就像是一种常见家电,我们开发并运行在DGX-1之上的所有一切都可以很容易地分发。英特尔自身也有庞大的计划,但还没有全部公布。我可以说,我们正在与英特尔所有合适的部门展开合作。”史蒂芬斯本人是阿尔贡国家实验室的研究员,负责了临床前筛查项目。
英特尔近期在深度学习领域的动作频频。英特尔收购了深度学习平台Nervana,而近期还发布了进一步计划。史蒂芬斯表示:“他们正在讨论Knights X的新版本,这一版本针对机器学习进行了优化。在他们的路线图上,Knights Mill是首个这样的版本。”在近期SC16超级计算大会上,英特尔还推出了深度学习推理加速卡,其硬件基于FPGA,而软件则是神经网络加速解决方案。史蒂芬斯表示,与英伟达类似,英特尔应当制定通用设备战略。
与此同时,谷歌、微软和Facebook也在深度学习框架方面进行了大量工作。史蒂芬斯表示:“我们正在评估,哪一框架最适合解决我们的问题,我们正在与供应商合作,从硬件上进行优化。我们也在与利佛莫实验室合作,他们的内部项目包括开发可扩展的人工神经网络框架LBANN。”
JDACS4C的计划是让模型的发展独立于深度学习框架。如果更换框架,JDACS4C也不必对模型进行调整。在深度学习领域,这是非常常见的方法,即设置用于模型表达的脚本层。史蒂芬斯表示:“我们正同时与学术界和英伟达合作,在顶层开发工作流引擎。我们开发了分层架构,这涉及到与深度学习领域各个不同组织的合作。”
“有趣的是,下一代平台的供应商正拥抱架构概念和特性,从而加速机器学习的发展。”他指出,市场压力,以及深度学习相对于传统高性能PC的快速发展正推动供应商向这一方向发展。
目前,JDACS4C试点项目仍处于启动初期,但这一项目受到的期望很高。史蒂芬斯指出,美国癌症研究院和美国能源部正在获得尚不具备的能力。“美国癌症研究院缺乏数学家和计算机科学家,而美国能源部有这样的人才。此外他们也没有高性能计算机。目前,我们能源部能获得实验数据、实验设施和公共数据库。”(编译/陈桦)