从物理学到天文学,科学界正在被人工智能改变
正如「神经网络」一词能让公众展开无尽遐想,粒子物理学家们从上个世纪80年代就开始捣鼓人工智能。由于几乎每项试验都是在复杂粒子检测器的无数高度相似数据中发现微度空间的模式— — 这正是 AI 所擅长的,所以人工智能和机器学习自然而然地适用于粒子物理学领域。「我们花了许多年的时间来让人们相信这一切不是魔术,不是变戏法,也不是黑箱操作。」说这话的是Boaz Klima,伊利诺伊州巴尔迪莫费米国家加速器实验室( Fermilab )首批使用该技术的物理学家之一。
为了解宇宙的奥秘,粒子物理学家们需要粉碎亚原子粒子,同时用巨大的力量炸出新的异常物质(物理学中,异常物质指的是与普通物质不同,具有奇异特性的物质的统称)。比如,在2012年,科学家使用世界上最大的质子对撞机(瑞士的大型强子对撞机( LHC ))发现了传说中的希格斯玻色子。这颗稍纵即逝的粒子正是物理学家们解释其他所有基本粒子如何获得其质量的关键。
然而,这种异常物质很难定性。在 LHC 中,大约每10亿个质子碰撞中才会出现一个希格斯玻色子,而且在十亿分之一皮秒内,它会衰变成其他颗粒,比如一对光子或被称为μ子的四分之一粒子。为了「重建」一个希格斯玻色子,物理学家们必须发现所有更常见的粒子,看其是否能与来自同一种父辈物质一致的方式相配合——在典型的碰撞过程中,大量不相关的粒子群使这项工作变得更加困难。
费米实验室的物理学家 Pushpalatha Bhat 说,神经网络算法优于直接从原始数据中筛选信息。在粒子检测器中——这通常是一个由各种传感器组成的巨大的桶状结构——光子通常在被称为电磁热量计的子系统中产生粒子喷雾。虽然电子和粒子都被称为强子,但它们的簇与光子还是有细微的差异。机器学习算法可以通过探测这类簇的多个变量之间的相关性来辨别差异,同时也可以帮助区分源自任意一对由希格斯衰变后产生光子。「这就好比大海捞针,」Bhat说,「所以从数据中提取最多的信息非常重要。」
机器学习尚未攻克这一领域。物理学家们仍主要靠对隐含物理学的理解来找出与新粒子相关的数据。但 AI 很可能变得愈来愈重要,加州伯克利劳伦斯伯克利国家实验室的计算机科学家 Paolo Calafiura 说。2024年,研究人员计划升级 LHC 以将碰撞率提高10 倍。Calafiura 说,在这一点上,机器学习对于能否跟上数据大潮至关重要。
算法如何分析大众情绪
社交媒体每年数以十亿计的用户以及数以千亿计的推特和帖子为社会科学带来海量数据。心理学家 Martin Seligman 认识到这也为利用人工智能研究大众传播的走向提供了前所未有的机会。在宾夕法尼亚大学正面心理学中心进行的世界福祉项目( World Well-Being Project )中,他与20 多位心理学家,医生和计算机科学家使用机器学习和自然语言处理方法来筛选数据,以检测公众身心健康状况。
这通常是由调查问卷来完成的。但是,社交媒体数据 「不起眼,价格便宜,而且数量级更大」,Seligman 说。 这些数据当然首先需要大量预处理,但 AI 同时也提供了强大的可视化工具。
在最近的一项研究中,Seligman 和他的同事们对 29,000 位参与了抑郁自我评估的脸书用户的日常更新进行了跟踪。 使用其中的 28,000 个用户的数据,机器学习算法发现了更新所用的词汇与抑郁水平之间的联系。然后可以根据其更新内容成功预测其他用户的抑郁情况。
在另一项研究中,小组成员通过分析 1 亿 4890 条推特来预测郡县的心脏病死亡率。与愤怒和负面关系有关的字眼被归为危险诱因。由社交媒体信息推测出来的数据较传统印象中的所谓十大关键诱因,比如吸烟和糖尿病,更接近真实的死亡率。通过社交媒体信息,研究人员还可预测出人格,收入,政治倾向;同时还研究医疗护理,过往经历以及定向模式。通过推特数据,该团队甚至根据幸福指数,抑郁程度,信任度和五种人格特质,创建了一张美国郡县地图。
「语言与心理学的交叉分析注定会有一场革命。」德州大学奥斯丁分校的社会心理学家 James Pennebaker 说,他关注的重点不是内容而是行文风格。比如,通过观察大学申请书中使用的功能词可以预测成绩。冠词和介词代表了辩证思维和更高的分数;代词和副词则代表叙事思维和较低的分数。而据传那部 1782 年的戏剧「将错就错」( Double Falsehood )大部分为莎翁所著,Pennebaker 也找到了相关的佐证:机器学习算法通过诸如对认知复杂度和罕见词等要素将其与莎翁其他作品进行匹配。「现在我们可以对你之前发布和撰写过的所有内容进行分析。」Pennebaker说,结果就是,「越来越多的图片拼凑出一个原本的你。」
梳拢自闭症基因
对于基因学家来说,自闭症是一项恼人的挑战。遗传图谱表明它具有很强的先天性遗传因素。但已知的在自闭症中发挥一定作用的数十种基因的变体只能解释约 20% 的病例的病因。在其他 25,000 种人类基因和相关DNA数据中找到其他的变体或许可以对完整解释自闭症有一定帮助。所以普林斯顿大学计算生物学家 Olga Troyanskaya 和纽约西蒙斯基金会( Simons Foundation in New York City )也拿起了人工智能的武器。纽约基因组中心创始人兼洛克菲勒大学临床医学科学家罗伯特·达内尔解释说:「我们只能做到像生物学家那样,发现类似自闭症这样的疾病到底隐藏着什么秘密。一台机器可以搜索成兆问题的同时一个科学家只能找出 10 个。这完全改变了游戏规则。」
Troyanskaya 收集了上百个数据集,其中包括特殊人体细胞内活跃基因的数据,蛋白质如何相互作用以及转录因子与其他关键基因组特征结合点位于何处的数据。然后她的小组利用机器学习构建了一个基因相互作用图谱,并把少部分已知的能够促成自闭症的高危基因与其他数以千计的基因进行比较,找出其中的相似度。他们在去年的自然神经科学杂志( Nature Neuroscience )上发布了 2500 个可能与自闭症有关的基因。
但是基因学家们近期才意识到,基因并不是孤立的。它们的行为是由数百万附近的非编码基因联合造成的,而且与 DNA 结合蛋白以及其他因素相互作用。识别哪些非编码变体可能影响附近的自闭症基因是比找到病变基因本身更难的问题,特洛伊斯卡亚所在实验室的研究生 Jian Zhou 正在试图用 AI 解决这个问题。
为训练深度学习系统,周将该系统运用于从 Encyclopedia of DNA Elements, Roadmap Epigenomics 收集到的数据。这两个项目列出了成千上万个非编码 DNA 如何影响邻近基因的点位。该系统学习了应该抓住哪些特征,因其预估了未编码 DNA 的潜在活动。
在周和特洛伊斯卡亚在 2015 年 10 月的《自然》杂志上发表了他们的 DeepSEA 研究之后,加州大学艾尔文分校的计算机科学家 Xiaohui Xie 盛赞这是「应用深度学习迈向基因组工程的里程碑」。现在,普林斯顿的团队正通过 DeepSEA 运行自闭症患者的基因组,对非编码基因的影响进行排序。
Xie 也准备将 AI 应用于基因组,而且相较自闭症侧重更广。 他希望通过研究任一基因演变为有害基因的或然性来对基因突变进行分类。但他认识到,在基因组学中,深度学习系统只能在其训练的数据集上表现得很好。他说:「人们怀疑这样的系统是否能可靠地解析基因组。但我认为,越来越多的人会接受深度学习。」
通达天意的机器
今年 4 月,天体物理学家凯文·沙文斯基( Michael Schawinski )在 Twitter 上发了几张模糊的星系图片,并问有没有同仁能帮他区分出这四个星系。同事们说,这些图像看起来很像与银河类似的椭圆螺旋星系。
一些天文学家怀疑这是 Schawinski 的小把戏,直截了当地问,这些是真正的星系还是在计算机上模拟建模出来的?事实上都不是。瑞士苏黎世理工学院的 Schawinski ,计算机科学家席 Ce Zhang ,以及其他合作者,用对物理学一无所知的神经网络造出了这些星系。
Schawinski 只想通过这条 Twitter 来表明神经网络生成的东西有多么逼真。但他更大的目标是创造一些类似电影中的技术,可以神奇地使模糊的监控图像变得清晰。神经网络可以使一张模糊的星图看起来像是用一台高性能望远镜拍摄的,然而实际使用的望远镜或许没那么好。这也能够让天文学家从中观测出更精细的细节,「用于天文观测的钱多达数千万甚至数十亿美元,」Schawinski 说,「借助这项技术我们可以立即获取更多的信息。」
这张星系图片是由生成对抗网络( generative adversarial network )生成的,这是一种机器学习模型,将两个对抗的神经网络相互作用。一个是产生图像的生成器,另一个是试图减少生成图片缺陷的鉴别器 —— 用来提高生成器的功能。Schawinski 团队拍摄了数千个星系的真实图像并人为地降低分辨率, 然后研究人员让生成器更聪明地处理图像,以便能够通过鉴别器的鉴别。 最终,神经网络对星系图片降噪处理可能会优于其他技术。
费米实验室的天文物理学家布莱恩·诺德( Brian Nord )说,Schawinski 的方法是机器学习用于天文学中的特别前卫的例子,但绝不是唯一一个。在 1 月份的美国天文学会会议上,诺德提出了一种机器学习方法来追踪强引力透镜:当遥远星系的图像在传往地球的过程中经历扭曲时空时,形成了天空中罕见的光弧,这些镜头可用于测量宇宙的距离,并发现不可见的超浓缩物质。
强引力透镜在视觉上很独特,难以用简单的数学规则来描述。这使传统的计算机很难抉择,但却容易为人所掌握。Nord 等人意识到,经过数千个镜头训练的神经网络可以获得类似的感知。 在接下来的几个月中,「实际上已经有十几篇论文在使用机器学习来寻找强大的镜头。 大多数匆忙上阵。」Nord 说。
这只是越来越多的天文学认知的一部分。人工智能提供了一种强大的方法在 PB 级数据中查找和分类有趣的对象。 对Schawinski 来说,「我认为这个时代真的会变成一个‘哦,上帝,数据太多了’的时代。」
神经网络学习化学合成之道
有机化学家是一切向后看的专家。像大厨从考虑成品菜的样子开始然后研究具体做菜步骤一样,许多化学家从他们想要造的分子的合成开始,然后考虑如何组装。德国明斯特大学研究生赛格勒(Marwin Segler)说:「你需要合适的食材和菜谱来组合它们。」他和其他人正将人工智能引入他们的分子厨房。
他们寄望 AI 可以助其应对分子生成的关键挑战:从数百个潜在的模块中精挑细选,并连接以数千个化学规则。几十年来,化学家们呕心沥血地攒出具有预装响应能力的计算机,希望能够创建一个能快速计算出最简分子配方的系统。 然而,塞格勒说,化学「非常微妙,二进制很难覆盖所有规则。」
所以塞格勒,明斯特的电脑科学家迈克·普雷斯( Mike Preuss )及其导师马克·沃勒( Mark Waller )都转向了 AI 。他们通过深度神经网络模型替代了生硬快速的化学反应规则进行编程,从数百万的例子中自行学习化学反应的过程。「提供的数据越多越好,」赛格勒说。 随着时间的推移,模型学会了预测合成所需步骤的最佳反应。 最终,它可以从零开始自己制造分子。
三人用 40 个不同的分子测试了机器学习程序,将结果与传统的分子生成程序进行了比较。在今年的一次会议上,他们做了相关发言。常规程序在 2 小时计算窗口中仅有 22.5% 的时间用于提出合成目标分子的解决方案,而 AI 是 95% 。即将前往伦敦制药公司工作的塞格勒希望采用这种方法来改善制药环节。
斯坦福大学的有机化学家保罗·温德( Paul Wender )表示,现在对塞格勒方法下结论还为时尚早。 但是,他认为「可能会产生深远的影响」,不仅仅在构合成已知的分子方面,而是在生成新的分子方面。 塞格勒补充说,有机化学家不会很快被人工智能所取代,因为他们的能力远远不止预测反应如何进行。 但像GPS导航系统一样,人工智能可以领航但它不能自己设计和实现一个完整的化学合成。当然,所有 AI 开发人员都得眼观六路融会贯通。