欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

人工智能在医疗数据荒野上“刀耕火种”

程序员文章站 2023-01-30 17:59:52
任何一家想要在领域掘金的企业,必须要有身为拓荒者心理准备。在这个行业,当然有希望收获满满,但也得先干许多苦活。“有许多数据科学家、方面的专业人员,在进行模型开发的时候,花了一半的时间来做数...

任何一家想要在领域掘金的企业,必须要有身为拓荒者心理准备。在这个行业,当然有希望收获满满,但也得先干许多苦活。

“有许多数据科学家、方面的专业人员,在进行模型开发的时候,花了一半的时间来做数据准备的工作”,亚马逊aws副总裁swami sivasupamanian接受第一财经记者采访时说,这些苦活、累活需要借助专门的平台型工具帮忙完成,比如给数据打注释、给数据做清洗等工作。

是人工智能的核心组成部分,而数据常被认为是人工智能的“燃料”,它是这项技术用于构建模型和改进算法的根基。

数据准备的工作通常包括数据清洗、数据格式统一化、数据合并等方面。非标准化的数据,意味着在数据准备阶段就要耗费大量的时间,延缓了人工智能技术部署速度和使用效率。

swami所说的现象在人工智能落地的各个场景普遍存在,而非某个行业的个例。他的这一观点也得到了国内人工智能企业界的响应。

“他说的还是轻了,我觉得百分之七十或百分之八十的时间用于了(数据准备)这个事情。人工智能的技术已经可用,但大部分时间耗费在了数据上了”,第四范式的副总裁、主任科学家涂威威接受第一财经记者专访说,尽管这一问题普遍存在,但在一些特定行业里问题尤其突出,医疗领域就是如此。

从2018年开始,上海三甲医院瑞金医院与第四范式开始战略合作,使用人工智能技术筛查糖尿病,以期实现病人的尽早发现、尽早治疗。瑞金医院主导这一合作的是中国工程院院士、瑞金医院副院长宁光院士。

“宁光院士还是非常有远见的,他十年前就开始做医院数据的标准化。但无奈在之前那个阶段,信息化水平确实一般,我们合作项目里涉及到几十万病人的数据,相对(其他医院)来说已经是非常好的数据,但我们依然花了很多的精力来做数据的处理”

这些医疗数据已经实现无纸化,均是化的病例,但在这些数据基础上直接部署人工智能仍然困难。举例来说,不同医生对于同一疾病的症状描述差异,都可能意味着需要花时间重新甄别和筛眩

更深层次的原因在于,人工智能出现之前,既往医疗数据对于医生和医院来说价值并不大。

“原来医院搞的信息化质量堪忧,因为在人工智能技术出现之前,数据存下来对医院不能直接产生作用。医生坐诊、看病就够了,这些医疗数据对他们来说没有特别重要的意义”,涂威威表示。

“行业就不必花这么多时间(用于数据清理),因为金融领域的数据质地非常好“,第四范式的技术已经布署在金融、、、医疗等不同行业,涂威威比较下来发现,”相比金融或互联网行业,医疗信息化还处于刀耕火种阶段。”

医疗信息化需要在与数据使用方的合作磨合中逐步改进。目前瑞金医院的数据质量有了极大的提高。涂威威 认为,“慢慢的,数据的问题会越来越少。”

人工智能在数据可用性方面遭遇的问题,中外并无差异。

“数据准备其实是要进行模型开发的必备的阶段”,swami对第一财经记者表示,不管哪个市场,数据底层的问题都是一样的,都要从数据的清洗到etl(extract-transform-load,数据从来源端经过抽娶转换、加载至目的端的过程),然后做好了数据的准备之后,才能够开始模型的建构。

经过数据筛查和清洗这个“苦活”、“累活”的阶段,人工智能就开始发挥比较大的作用了。据涂威威介绍,在一些慢病的筛查阶段,比如发现早期糖尿病,人工智能的准确率已经不亚于经验老道的医生,而人工智能无疑效率更高。

除了在医疗领域落地,人工智能在药物研发方面也有了进步。在这次疫情期间,机构开始使用来进行新冠病毒治疗方案的研发。

总部在深圳的晶泰科技,同时在北京、波士顿设有研发实验室。晶泰科技搭建了云端智能药物研发平台,在这个平台上,晶泰科技使用亚马逊的aws gpu搭建框架,实现大规模的模型训练及参数优化。

在新冠疫情爆发后,晶泰科技对近3000个已通过药监局(fda)审核的上市药物、以及超过1万种成分分子,进行了老药新用的扫描,找到了183个可能对新冠病毒有潜在治疗效果的药物。作为合作方,swami介绍称:在这之后,晶泰科技对药物的活性进行了排序,然后通过更加高精度的计算方法,最终锁定了38个药物。

“在全球,人们正在使用人工智能应对人类所面临的一些重大的挑战。”swami评价说。

亚马逊内部有一种广泛的认知,即人工智能还处于“day one(第一天)”的阶段。“打个比方,就是我们刚醒过来,需要喝杯的阶段。即使在这么早期的阶段,领域就已经出现了非常多的创新了。