人工智能对医生来说,是助手还是对手?
作者:大壮旅
按:今年,人工智能在各个垂直领域的应用备受关注,其中医疗又是一个关键领域。《*》发表的这篇深度长文,从医学和计算机两个领域详细描述了业内人士如何看待人工智能在医疗诊断方面的应用。作者Siddhartha Mukherjee是医学领域专家。本文发布在《*》网站,雷锋网整理编译。
去年11月的一个深夜,一位Bronx的54 岁老妇来到哥伦比亚大学医疗中心,她说自己头痛欲裂,视力已经开始模糊,左手也变得麻木且不听使唤了。医生进行初步检查后决定对老妇的头部进行 CT 扫描。
转眼几个月过去了,今年 1 月份的一个早晨,四位还在培训中的放射科医生挤在医院三楼的一台电脑前。放置这台电脑的房间没有窗户,除了屏幕的光,里面完全是漆黑一片,就像一片深海。四位医生盯着屏幕看时,哥伦比亚大学的神经放射科主任 Angela Lignelli-Dipple 正拿着铅笔和平板电脑站在他们身后。他们可不是在搞什么秘密项目,主任只是在训练这些菜鸟医生如何看懂 CT 扫描而已。
“如果 CT 上大脑的区域变灰,我们很容易就能诊断出病人是否中风了,”主任说道。“要想取得较好的治疗效果,就必须赶在神经细胞大量死亡前诊断出病因。”中风一般因堵塞或出血引起,神经放射学家有大约 45 分钟的窗口期进行诊断,这样医生才能及时采取干预措施,如溶解正在不断膨大的凝块。“如果你们当时身处急诊室,每分钟都是极端宝贵的,因为大脑的某部分正在死亡,时间就是生命。”主任补充道。
时间一分一秒流逝,主任看了看墙上的挂钟,问道:“找到问题出在哪了吗?”
中风通常是不对称发展的,毕竟脑部供血会分左右,继而细化为细小分支。不过,一旦出现凝块或出血,就会影响一个分支,使大脑部分区域出现异常。随着神经细胞因为缺血而逐渐死亡,组织会略微肿胀,在扫描时,解剖结构之间清晰的边界可能会变模糊,最终组织会皱缩,并产生干燥的阴影。但需要注意的是,这块阴影通常在中风后几小时或几天才出现,而这时医生干预的窗口期已经结束了。主任表示:“在这之前进行扫描的话,你只能在 CT 图像上看到一些蛛丝马迹。”而这就是中风的前兆。
好啦, 现在说回文章开头提到的 54 岁老妇,她的 CT 扫描是对头骨的横切面切割额图,看起来就像从底部一劈到顶的甜瓜。坐在电脑前的医生们浏览着图层,把小脑、海马区、岛状皮层、纹状体、胼胝体、脑室等都分得清清楚楚。随后,其中一名快 30 岁的男医生在一张照片上停了下来,他拿铅笔指着大脑右侧边缘区域说道:“这一块有点不对劲,边缘区域看起来有些模糊了。”不过,对笔者来说,从这张像素不怎么清晰的模糊照片怎么能看出有用的信息啊,但那位男医生显然看到了一些不同寻常之处。
“哪里模糊了?”主任问道。“你能说清楚点吗?”
这名医生没着急回答,他停下来在脑中组织了词语,想想到底该怎么解释。随后,他耸耸肩表示:“它确实不太正常,我也不知道有什么毛病,只是看起来比较有趣。”
接下来,主任又拿出了第二张 CT 片,这是第一张拍摄后 20 小时后扫描的。刚刚那位医生指出的部位在这张片子中已经肿胀的像葡萄那么大了,而且颜色也暗了下来。随后主任又拿了一系列的片子让他们看,图中慢慢出现了一个明显的灰色楔形区域。
当那位老妇到达医院时,神经科大夫试图用溶栓类药物帮她疏通动脉,但很遗憾,她来的太晚了。第一次扫描过去几小时后,老妇就失去了意识,医生赶紧将她送去 ICU 病房。两个月后,老妇还是没有好转,她的整个左侧身体(从左臂到左腿)都瘫痪了。
从小黑屋出来后,笔者跟着主任去了她的办公室,我想知道医生是怎么学习的,机器也能学会这些方法吗?
能力不是看书得来的
笔者涉足医学诊断行业并不晚,1997 年就在波士顿开始了临床轮转。为了更好地完成工作,我读了一本有关医学教育的经典读物,这本书将诊断行为明确分为四个阶段:第一,医生需要借助病人病历和最新的体检来搜集有关病人的疾病或身体状况的事实;第二,整理以上信息并总结出一份可能病因的综合列表;第三,通过对病人的询问和初步测试完成所谓的“鉴别诊断”,即排除某种疾病的假设并增强另一种疾病的可能性。这一步,还要对疾病是否常见下定义,并结合病人既往病史对风险和暴露情况进行判断(谨记“不可掉以轻心”的临床思维),这样列表中的可能病因就减少了;最后,医生需要重新通过实验室检查、X 光或 CT 扫描来确认假设。数十年来,这些步骤及实践中出现的变体都如实出现在教科书中,我们也从一代代医学院学生的身上看到了这幅图景:他们从症状中寻找病因。
不过,随着从业经历的丰富,我很快发现,真正的诊断可不像教科书上那么简单。我所在医学院的主任是一个优雅的新英格兰人,他总穿着抛光的便鞋,口音浓重,并以成为专家诊断医师而自豪。在诊断时,他会要求病人表现出某种症状,如咳嗽。随后他会靠在自己的椅子上思考片刻,然后嘴中冒出一串形容词,如“微弱但刺耳”,“底噪有点大”,仿佛是在描述一瓶陈年波尔多红酒。对我来说,这些咳嗽声听起来都一个样,但我会不自觉地应和这位主任,就像一个对品酒一窍不通但还要硬装专家的傻瓜。
这位主任的做法确实有其依据,因为咳嗽分类学家会很快通过声音来缩小可能的病因范围。如医生可能会认为“这声音听起来像一种肺炎”或“充血性心力衰竭的湿疹”,随后通过一系列问题,医生就能判断病人的大致情况,最后借助测试来证明自己的判断,大多数情况下,医院的“老司机”们准确率还是非常高的。
几年前,巴西的研究人员研究了放射科医生的大脑,为的就是理解他们到底如何做出诊断的。这些经验丰富的医师在看 CT 图像时是不是心里有一份“对照表”?或者说他们使用了“模式识别或非分析推理?”
参与这次研究的放射科医生共 25 人,他们被要求评估肺部的 X 光,而核磁共振成像机则会随时跟踪他们的大脑活动。X 光图像在他们面前一晃而过,其中一些包含很常见的单一病理性损伤,如肺炎时出现的棕榈状阴影或积聚在肺内衬层后面发暗且不透明的流体壁。第二组图像中镶嵌了动物的图像来干扰,第三组则加入了字母表的字母轮廓。在测试时,这三组图像会随即展示给参与的 25 位医生,他们必须快速说出图像的属性,而核磁共振机则一刻不停的监视着医生的大脑。测试结果显示,医生做出诊断的平均时间为 1.33 秒,而在分辨三种图像时,大脑亮起的区域相同,即左耳附近的神经元宽三角洲以及颅骨后基上方的蛾形带。
“我们的测试结果能支持这样的假设:医生发现一种特征和已知病变的过程与日常生活中命名事物的过程相似。”研究人员总结道。也就是说,识别病变与为动物命名的过程非常相似,当你认出一头犀牛,你不会再想想其他替代动物,更不会将犀牛与独角兽、犰狳和小象等动物弄混。对你来说,辨认犀牛已经是一种模式,而放射科专家也是如此。他们不需要沉思、回忆以及区分,他们看到的是一个常规现象。对我的主任来说,那些咳嗽声音也像叮当声一样容易辨认。
“纸上谈兵”与“实践出真知”
1945 年时,英国哲学家 Gilbert Ryle 举办了一场影响力巨大的讲座,其主题涉及两大知识。一个孩子知道自行车有两个*,*充气,车通过踩踏脚踏板来获得前进动力。Ryle 将这种知识称之为“书面知识”。不过,学习骑自行车光懂得这些可不够,一个孩子要经历摔倒才能学会平衡,学会通过坑坑洼洼的路面。Ryle 将这种隐性的、体验式的、基于技能的知识称为“实践知识”。
这两种知识看起来是相互依赖的,因为你可以用书面知识来强化实践知识,反之亦然。不过,Ryle 警告大家要抵制所谓“书面知识”可以转化为“实践知识”的想法。光看看自行车说明书孩子不可能学会骑车。Ryle 认为,只有当我们知道如何运用规则时,规则才能真正发挥作用,“规则就像小鸟,必须吃饱了才能生存。”一天下午,笔者 7 岁的女儿正骑着车爬上一个小山丘。她第一次尝试时停在了斜坡最陡峭的部分,然后摔倒了。第二次尝试时她屈身向前倾斜,最初角度很小,随后越来越明显;而当坡度减小时,她会向后增加重量。但是,我可没教过她骑自行车爬上那座小丘的规则。我想,当我的孙女学习骑自行车翻过这座小丘时,家长也不会教她这些规则。我们会传授一些与宇宙有关的规则,但是会将剩下的留给大脑来解决。
旁听了 Lignelli-Dipple 的教程后,我与 Steffen Haider 交谈了一番,他是个通过 CT 扫描就能发现早期中风的年轻人。他是怎么发现病变的?靠的是“书面知识”还是“实践知识”呢?
Steffen Haider 表示自己先要学习规则,在书中他得知中风往往发生在一边,组织在 CT 中会轻微“变灰”,且常常伴有略微肿胀,造成解剖边界模糊。“在某些部位,大脑的供血特别脆弱。”他说道。要想认出这些病变,他必须在大脑的一侧寻找那些另一侧没有出现的迹象。
笔者提醒他忽视了图像中很多不对称的情况。这个 CT 扫描与大多数情况一样,在脑部左侧存在其他灰色的波纹,但右侧却没有,它们可能是妇女中风前大脑中的异常运动或潜在变化。他是如何把重点缩小到这片区域的?他停了下来,沉思了一会,随后说道:“我也不知道,有一部分是存在于潜意识里的。”
“对于一个放射学家来说,这是在学习和成长中自然习得的。”Lignelli-Dipple 说道。于是笔者开始思考,机器是否也能用同样的方式进行“学习和成长”。
Thrun 的理想世界
2015 年 1 月,计算机科学家 Sebastian Thrun 开始迷上了医学诊断这个课题。Thrun 在德国长大,他身材消瘦,剃了光头,看起来就像漫画里的人物。Thrun 以前是斯坦福大学教授,领导该校的人工智能实验室,后来他离职创建 Google X,领导会自学的机器人和自动驾驶汽车的研发。但是,他发现自己对有着学习能力的医疗设备有很大的兴趣。Thrun 的母亲因乳腺癌离世,当时她才 49 岁。“大多数癌症病人一开始没有症状。”Thrun 说道。“我母亲就是这样,但当她去看医生时,一切都晚了。因此,我一直想找到一个能尽早发现癌症的方法,毕竟那时我们还能将病人从死亡线上拉回来。机器学习算法在这里能起到作用吗?”
学界关于自动诊断的早期研究往往与教科书上的显性知识紧密相关。以心电图为例,过去的二十年来,电脑解读的通常是这些系统的特征,执行这些工作的程序也比较直接,特征波形与多种情况相关,如心房颤动或血管阻塞。此外,还有识别这些特征波形并输入到应用中的规则。当机器识别到这些特征波形时,它会把这种心跳标记为“心房颤动”。
乳腺癌的检查与心电图类似,眼下“计算机辅助检查”的方式已经不再新鲜。在检查中,模式识别软件会标记那些疑似出现病变的区域,随后医生需要对这些可疑区域进行复查以确定诊断结果是否正确。不过,如今的诊断软件大多数利用的还是基于规则的系统,它们没有自行学习的能力。因此,一个看过 3000 张 X 光片的机器人其实水平跟只看过 4 张的差不多。2007 年的研究进一步证明了这种检测方法的局限性。人们通常认为机器介入后,准确率会明显提高,但事实上机器产生的影响很复杂。在计算机辅助诊断组中,活体检查的准确率上升,但肿瘤学家最希望检测到的小型侵入性乳腺癌准确率却有所降低(后续检测中甚至出现了“假阳性”问题)。
Thrun 相信,他能将第一代诊断设备上基于规则的算法替换为基于学习的算法,这样一来设备就抛弃了“书面知识”,学会了“实践知识”。Thrun 的学习算法还加入了现在最为火热的“神经网络”技术,因为该技术的灵感源于大脑运作的模型,所以它能完成这一学习过程。在大脑中,神经突出会通过反复激活而遭到增强或削弱;这些数字系统旨在通过数学手段实现类似的目的,调整连接的“权重”向预期输出靠拢。更强大的系统会与神经元层级相似,每个系统会分别处理输入的数据并将结果传送给下一层,而这就是我们所说的“深度学习”。
Thrun 首先拿皮肤癌开刀,特别是美国人非常容易罹患的角化细胞癌和黑色素瘤(非诚勿扰 2 里孙红雷得的,最恐怖的皮肤癌)。机器经过学习,能在图片上分清皮肤癌和那些良性皮肤病(如痘痘、皮疹等)吗?“如果皮肤科医生能做到,那么机器肯定也能搞定,而且可能会做得更好。”
通常情况下,关于黑色素瘤的教学会从基于规则的系统开始,就像皮肤病医生入门一样。学习过程中会有一系列便于记忆的符号,如 ABCD。这些符号有其特殊含义,如黑色素瘤通常是不对称的(Asymmetrical),它们的边界(Borders)参差不齐,颜色(Color)呈斑块状,而直径(Diameter)则超过 6 毫米。不过,Thrun 查了医书和网络上的标本后却发现,一些黑色素瘤的的标本并不适用于这些固定的规则。
Thrun 找了斯坦福的两名学生帮他搞研究。学生们的首个任务就是创建一个“教学集”:这是一个庞大的图片库,机器可以通过对图片库的学习识别出恶性肿瘤。在网上搜索一番后,Esteva 和 Kuprel 找到了 18 个已经成型的皮肤损伤图片库,其中包含了近 13 万张有关痤疮、皮疹、虫咬、过敏反应和皮肤癌等疾病的图片,皮肤病专家将它们分为近 2000 种疾玻值得注意的是,这些图片库中有一个包含 2000 个病变的集合已经由病理学家切片检查过了,因而它们几乎可以算是已经确诊的了。
随后,Esteva 和 Kuprel 开始了对系统的训练,他们并没有依据规则对其进行编程,也没有教系统“ABCD”的顺口溜。相反,这套系统只是不断将图像和医生做出的诊断分类加入神经网络中。
Thrun 将这个神经网络的工作内容描述为:“如果用一个老旧的程序去识别狗狗,软件工程师可能会写一千行下定义的语句,比如如果它有耳朵,一个鼻子,并有头发,且不是一只老鼠等。事实上,这并不是孩子学会辨识狗狗的方法。孩子会先通过观察狗狗和大人的描述来学习相关的识别知识。如果她把狼当成了狗,家人会及时进行纠正,这时孩子就会改变最初的认识。机器学习算法就像小孩子,它能从已经标注好准确信息的训练集中汲取信息,随后再从中汲取狗的特征,接着它会自行用成千上万的图片进行对比测试并最终学会识别狗狗的方法,整个过程与孩子识别狗狗完全一样。”通过这个过程,系统学会了“实践知识”。
2015 年 6 月,Thrun 的团队开始通过“验证集”来测试机器从图像中都学到了什么。这次测试*包含了 1.4 万张经过皮肤病专家诊断的图片(并不一定经过活检),机器的任务就是将这些图像分成 3 组:良性病变、恶性病变和非癌生长。结果显示,该系统的准确率达到了 72%。两位得到认证的皮肤病医生也一同做了测试,但他们的准确率却只有 66%。
随后,Thrun 师徒三人将研究扩展到了 25 位皮肤病学家,而这一次他们使用了一个黄金标准——约 2000 张经由活检证实的图像“测试集”,结果显示,医生们完全不是机器的对手,机器没有错过任何一个黑色素瘤。此外它还更加精确,不会将某个肿瘤错诊断为黑色素瘤。
“在论文中,其实还有个关于网络的关键问题没有重点强调。”Thrun 说道。在第一次涉足该领域时,Thrun 的团队用的还是个“很傻很天真”的神经网络,不过他们发现如果用的神经网络已经会识别一些不相关特征(比如狗和猫),它就会学的更快也更好,也许我们的大脑也遵循类似的原理。回想高中那些令人无语的枯燥训练,如多项式因式分解、动词变化和元素周期表,反而让人记忆更加敏捷。
在训练机器时,Thrun 的团队需要对图片进行处理。Thrun 希望有一天人们能通过智能机图片上传获得精确的诊断,不过这就意味着该系统必须适用于多种角度和照明条件。Thrun 也有担心,因为“在一些图片中,黑色素瘤的部位被用黄色记号笔标注了,因此他们必须将这些部位裁剪掉,否则 Thrun 的团队可能就是在教计算机如何识别图中的黄色标记。”
其实这难题古已有之:一个世纪前,德国公众就被聪明的 Hans 深深吸引了,这匹马靠的不是日行千里,而是可以做加减运算并用敲蹄子的方法给出答案。进行一番研究后人们发现,Hans 并不是什么聪明马,它只是能感受自家主人的表情和动作。当 Hans 回答正确,主人的表情和动作都会放松下来。因此,Hans 的神经网络并没有学会计算方法,它只是学会了阅读人类的肢体语言。“这就是神经网络的奇怪之处。”Thrun 说道。“你根本不知道它们用了什么数据,它们自己搞了个黑箱,内部的工作非常神秘。”
“黑箱”问题是深度学习的专属,这套系统并不是由医学知识和诊疗规定引导的,相反它会有效的进行自我教育,通过大量内部调整(类似于加强和减弱大脑中的突触连接),学会区分普通的痣和黑色素瘤。那么它到底如何确定某个病变部位是黑色素瘤呢?我们也没有答案,深度学习也无法解释原因,一切的内部调整和处理方式都在我们的监视之外秘密发生着。当然,这样类似的“黑箱”在我们大脑中也存在。当你控制自行车慢慢转向时,身体会自动向相反方向倾斜,笔者的女儿也知道这个技巧,但她做出这些动作时自己根本就不知道。黑色素瘤诊断机器必须从图片中看出所以然来,不过如果它不能将技巧告诉人类,会有什么影响吗?它就像微笑的知识之神,遇见这样的机器,你就能得以一窥动物感知人类心灵的某种方式:无所不知但却无法理解。
Thrun 设想的世界是这样的:在这里人类时刻处在诊断机器的监控下,我们的手机能通过语音模式的转变发现老年痴呆症的先兆,而方向盘则能通过手部的迟钝和抖动来确定人是否有可能患上帕金森症。在洗澡时,浴缸则会通过无害的超声波或磁共振来执行扫描工作,并以此来判断女性卵巢中是否有需要检查的部位。大数据会注视、记录并时刻对你的身体状况进行评估,我们将在不同算法的眼皮底下生活。一旦进入了 Thrun 设想的世界,就进了满是诊断镜的大厅,这里的检测项目一个接着一个。
这样的愿景确实让人心生向往,不过这样的医学“全景*”能通过无死角甚至细小到细胞的扫描来提前探知癌症的出现吗?它能为癌症检测带来什么突破吗?听起来好像一如反掌,但这里却有个大坑:许多癌症都属于自限性疾病,我们会与它们一起死去,而不是被它们害死。一旦这种诊断引擎诞生,医生可能会突然多出数百万不必要的活检任务。在医学上,早期诊断可以挽救或延长生命。但有时,你会陷入恐惧之中,根本无法享受最后的时光,因此人对诊断结果的接受程度根本无法精确拿捏。
当被问到这种系统对人体诊断的影响时,Thrun 表示:“我对放大人类能力方面感兴趣。机械化的农业确实消除了一些传统的农业形态,但它却提高了我们的农业生产力。事情都有好有坏,不过新型态的农业确实能养活更多人了。”工业革命就增强了人类肌肉的力量,当我们用手机时,人类语言的力量也得到了放大。毕竟用肉嗓子喊,纽约的人可听不到加州的声音。”Thrun 和笔者当时就身处两地。“你手中的这个小方块让人的声音能快速传递 3000 英里,它替代人类声音了吗?当然没有,它只是人类声音的放大器。未来,认知革命将让计算机将以同样的方式增强人类的思维能力。就像机器使人类肌肉增强了一千倍一样,机器也将令人类的大脑变聪明一千倍。”Thrun 坚持认为深度学习设备不会取代皮肤病医生和放射科医生,它们会成为专家们的力量倍增器,为他们提供专业知识和必要的辅助。
Hinton:医院不用培养放射科医生了
Geoffrey Hinton 是来自多伦多大学的计算机科学家,他对学习机器在临床医学中的作用看的也很重。Hinton 是著名数学家 George Boole 的玄孙,后者发现的布尔代数是数字计算的关键基石,有时人们甚至称他为深度学习之父。Boole 在 19 世纪 70 年代中叶开始研究相关课题,他的许多学生都成了该领域的超级大牛。
“我觉得如果你是个放射科医生,那其实你就像动画里的 Wile E. Coyote(歪心狼)。”Hinton 说道。“你已经冲的太快飞下了悬崖,但自己都不知道往下看看,下面已经没路了。”专用于乳腺和心脏造影的深度学习系统已经完成了商业化开发。“毫无疑问,五年之内深度学习的诊断能力就会超过放射科医生。当然,也可能需要花十年,我此前就曾亮明这一观点,但许多人不愿接受。”
当年 Hinton 的观点很直率,他在医院表示:“医院无需继续训练放射科医生了。”笔者拿这个问题询问 Angela Lignelli Dipple 时她表示,放射科医师可不是仅仅在做“是或不是”的分类工作。除了定位导致中风的栓塞,他们还在关注其它地方的小出血,这些小出血可能会令溶栓药物的使用造成灾难性的后果。他们在寻找一种意料之外的、或许依然处于无症状状态的肿瘤。
现在,Hinton 确实有资格说这话。“放射科医生的职责将从完成感知任务变成解决认知任务。”他对医学未来的预测是基于一个简单的原则,即“如果你掌握某种旧式分类问题的大量数据,那么就考虑去解决它吧,而深度学习就能完成这个任务。到时会有数以千计的深度学习应用程序出现。”他想用深度学习算法来分析 X 光片,CT 扫描和核磁共振等医学数据。不过这只是近期规划,未来“深度学习算法将做出病理学诊断。”它们能看懂 Pap 涂片,也能听懂心跳或预测精神病患者复发的可能性。
随后,笔者还与 Hinton 探讨了黑箱问题。虽然计算机科学家也在努力找答案,但 Hinton 明确表示那些试图打开黑箱,或找出深度学习系统到底如何学习技能的努力都是微不足道的,谁要是说自己解决了黑箱问题,一定是在骗人。
不过,这个问题可以伴随我们一起成长。Hinton 表示:“想象在某场比赛中,一名棒球运动员与一名物理学家比赛来猜球会在哪落地。棒球运动员在训练和比赛中一次又一次的练习抛球,他可能不了解任何方程式,但是他知道球到底会有多高、能达到多大的速度以及它会落在哪里。当然,物理学家也可以通过方程式来判断同一件事物。虽然方式方法不同,但两者能得到同样的答案。”
虽然前途光明,但在此前的乳腺 X 射线检测中,计算机辅助系统的表现却非常令人失望。因此,任何新系统都必须通过严格的临床测试完成评估。不过,Hinton 也强调,新的智能系统是为了从其错误中吸取教训,从而随着时间的推移而不断改进。“我们需要搭建一个能搜集每个错误诊断的系统,并将其反馈到机器学习系统中。到时我们就能询问机器,这里你遗失了什么?能改进下自己的诊断结果吗?放射科医生现在还享受不到这样的系统。如果你遗漏了某件事,导致 5 年后你的一个病人患上了癌症,这时没有系统的例行程序来告诉你如何纠正自己,但你可以在系统中建立这种机制来教计算机完成这一任务。”
眼下,一些野心最大的机器学习诊断算法在试图整合自然语言处理技术(好让计算机能读懂病例)和从教科书、期刊和医学数据库获得的医疗方面的百科知识,著名的 IBM 和 DeepMind 都是其中的佼佼者。笔者见过多个系统的演示,但它们的许多功能,特别是与深度学习有关的,都还在开发中。
Hinton 对未来的深度学习诊断充满热情,这份热情的来源有一部分就是他自己的经验。在 Hinton 开发此类算法时,他的夫人被发现得了晚期胰腺癌。祸不单行,Hinton 的儿子也被查出得了恶性黑色素瘤,但随后活检结果显示该病变是一个基底细胞癌,并没有想象那么严重。“在这方面我们还有很多要学。”Hinton 说道。“尽早尽快的诊断非常重要,为什么不让机器帮我们一把呢?”
手艺出神入化的 Bordone
早春三月一个寒冷的早晨,笔者拜访了位于曼哈顿第一大街 50 号的哥伦比亚大学皮肤诊所。诊所的主治医师 Lindsey Bordone 当天共有 49 个病人预约,才早上十点,他的候诊室就已经人满为患。一位 60 岁左右留大胡子的男子坐在角落,用羊毛围巾把脖子上的疹子挡了起来,而另一对心神不宁的夫妇则在看着自己手中的《时代周刊》。
Bordone 眼看病人快速涌来,在一个由荧光灯照明的里屋内,一个护士坐在计算机前对病人的病情做了简单总结:“55岁,无既往病史,但其皮肤上却有可疑点。”随后,Bordone 进入化验室,她的金发甚至因为跑的太快而飘了起来。
随后,Bordone 又看了一个 30 多岁的男病人,他脸上起了红色的疹子。在检查过程中,这个病人的皮肤甚至开始从鼻子上掉了下来。Bordone 让他躺在灯下并细细观察他的皮肤,最后又拿起了手持皮肤镜对病人进行检查。
“你头发里有头皮屑吗?”Bordone 问道。病人有点懵,他回答称“当然有。”
“这是面部皮屑,”Bordone 告诉他。“你遇到的情况有些糟糕,但问题是它现在为什么会出现并且情况变得越来越糟了呢?你在头发上使用过什么新产品吗?或者你家人会给你一些比较大的家庭压力吗?”
“压力肯定有的。”病人说道。最近他丢了工作,需要处理一些经济上的问题。
“以后你着手写日记把。”Bordone 建议道。“通过日记我们能找到你的病情是否与生活压力有关。”隔壁房间是一个年轻的律师助理,他的头皮上起了一片发痒的疙瘩。Bordone 摸他的疙瘩时他赶紧避开了。“只是脂溢性皮炎而已。”她迅速完成了这个检查。
另一个房间的女病人则换上了病号服,她过去被医生诊断为黑色素瘤,因此非常注意自我保护,以防恶化。Bordone 详细的扫了一遍她的皮肤,每个可能的部位都看了看,整个过程花了 20 分钟。结果相当喜人,只有一些痣和角化病,并没有黑色素瘤或者癌。
“看起来一起都很好。”她高兴的说道,女病人心里的担子也终于落下了。
整个过程就像凯撒大帝的名言,只不过人物换成了 Bordone:她来、她看、她诊断。与 Hinton 这样的“草原狼”不同,她更像是疯狂的寻路者,试图用接二连三赶来的病例来跟上时代的步伐。Bordone 在屋里写笔记时,笔者询问了她对 Thrun 未来诊断愿景的想法:就像一张 iPhone 拍的照片通过 email 发给外部网络,召集了一群专家来评价。
像 Bordone 这样的全职皮肤科医生,一生中会看到约 20 万个病例。斯坦福的机器算法却在 3 个月内获取了近 13 万的病例。与其相比,每位新晋的皮肤科医师都需要从零开始,但是 Thrun 的算法却一直都处于获取病例、成长和学习的过程中。
Bordone 耸耸肩表示:“如果它能提高我诊断的准确度,我很欢迎机器的到来。我的病人可以直接将患处的照片发给我,这样我能帮到的病人就更多了。”
Bordone 的回复听起来合情合理,让我想起了 Thrun 的所谓“增强”理论。不过,机器学得越来越多,人的知识量是不是会越来越少呢?这种担心父母就有,孩子经常用手机中的拼写检查功能,是不是慢慢的忘记字母拼写呢?这种现象被称为“自动化偏见”。当汽车有了一定的自动驾驶能力后,司机就容易开小差,这样的情况在医疗行业也会出现。
当然,Bordone 可能是新时代的 John Henry(美国民间传说中的黑人英雄,对抗蒸汽机),但无法忽视的是,她的心确实在自己的工作上,检查每块皮肤时她都是那么认真。如果机器来帮忙,Bordone 还能维持自己的优良作风吗?
除了检查认真,Bordone 与病人间还有其他互动模式。举例来说,病人离开诊室时心情看起来都不错,Bordone 认真抚摸和检查过他们的皮肤,且愿意与他们友好交谈。因此即使话语中会出现类似“痣”和“角化病”这样的名词,人们心中也会稍感欣慰。
除了丰富的人文关怀,Bordone 在诊断技术上也出神入化,她能在短时间内认出患者皮肤病的类型。巴西研究人员认为,当 Bordone 识别出某一模式时,你几乎可以看到她大脑后下方的神经元角锥状物所迸发出的火花。不过送走病人并不意味着 Bordone 工作的结束,她还会花大量时间来研究病人出现病变的原因。是因为压力吗?还是洗发水有毒?难道是因为对游泳池中的氯过敏?为什么在这个季节患上皮肤病?
笔者认识到,原来临床实践中的最有力的因素,不是了解它或是知道如何去掌握案例的事实情况,或是识别出医生们所构建的模式,而是那存在于知识第三个领域中的“了解原因”。
机器是否会让医生丢掉初心?
对问题的解释可浅可深。举例来说,你手指上出了一个红色的水泡可能是因为你碰到了一块热铁,也可能是因为烧伤激发了前列腺素和细胞因子的一个炎症级联反应,但其中的调控过程依然让人摸不着头脑。因此,知道为什么、提问为什么,是我们通向各种解释的关键渠道,而解释正逐渐成为掌控医学进步的核心。Hinton 还曾谈到棒球运动员和物理学家,他认为医师、人工智能或普通人都能成为棒球运动员,但习得球技后恐怕大家都说不出到底如何打好棒球。医学研究者也能成为物理学家,就像棒球场上也能出理论家,但他们有知道“为什么”的渴望。这是一个方便的职责分工,但是否也意味着损失?
“深度学习系统可不会自我解释。”Hinton 直截了当的说道。既然是黑箱,就意味着原因无法调查。Hinton 表示:“深度学习系统越强大,就会变的越不透明。由于掌握了更多病因,诊断将变得越发准确,但为什么这些特征会从数以百万计的其它特征中被提取出来,仍然是一个无法回答的问题。”算法能解决一个病症,但它却无法创建病症。
在笔者从事的肿瘤学领域,那些技术高超的大牛们通常也是喜爱钻研之人。事实上,在过去几十年间,有 梦想的医生曾经努力想成为上面所提到的棒球运动员和物理学家:他们试图用敏锐的诊断来理解疾病的病理生理学。为什么皮肤病变后的不对称边缘意味着黑色素瘤的出现?为什么有些黑色素瘤会自然消退?为什么黑色素瘤的案例中会出现皮肤变白的情况?有趣的是,医生们在临床上观察到的情况,最终都与如今临床使用的特效免疫药的发明息息相关。这就意味着,临床是许多疾病治疗药物的起点。如果越来越多的临床实践被黑箱所取代,我们是否会逐渐退化,变成只把能做的做得更好的人,但对于重新审视我们所应该做的事情或跳出黑箱进行思考时却变得无能为力?
关于人类自动化的未来,笔者还与哥伦比亚大学皮肤病专家 David Bickers 进行过深入的交谈。Bickers 表示:“相信我,我已经试着理解了 Thrun 论文的相关知识。虽然不理解其背后的数学思维,但他提到的算法确实能改变皮肤病学的实践。皮肤病专家会因此失业吗?我看难,不过我认为学界应该多思考怎样将这种技术引入医疗实践。我们该怎么为这样的协助付费?如果机器诊断错误,谁该负这个法律责任呢?如果依靠这样的算法,是否会削弱我们的实践,或者作为诊断专家的自身形象?最终,我们训练的是否会成为技术人员而不再是医生?”
谈了一段时间后,Bickers 看了看时间,称病人在等他,所以要先走了。“我这一辈子只从事了诊断学家和科学家两个职业。我了解病人对我的依赖,我也知道医学知识来源于诊断。”Bickers 说道。
英语中“诊断”一词,其实是来源于希腊语中的“知道如何区分”,机器学习算法在疾病的区分上确实会越来越强,从全局来看它也会超越那些专注于解决任务的单一算法。在医学领域中,也许只有获得整体理解的能力,才能拿到终极回报。
Via. NewYorker,雷锋网编译