健康界|| 深度,AI不能“取代”医生给我们看病,这并不是因为AI不够强大( 四 )


从某种程度上讲 , 编程和数据成为医学领域最重要的能力之一 。 然而 , 计算机领域和医学领域的学科逻辑和评价标准 , 却存在一些分歧 。 特拉雅诺娃说 , “现在太多人醉心于技术细节的提升 , 你去参加一个学术会议 , 到处都是跟你吹嘘自己的技术表现有多好 , 算法性能有多棒 , 然后在核心期刊上发了多少论文——这是他们领域的‘语言’ 。 但最后能达到什么效果呢?”说到这里 , 特拉雅诺娃摇了摇头 。
“现有的大部分算法 , 包括诊断和预测等 , 都不是在传统的医学范式下研究出来的 , 不能直接体现医学所需要的指标 , 即使一些已经投入应用了 , 但可靠度、可应用程度等 , 都需要进一步验证 。 ”
宾夕法尼亚大学医学院血液和肿瘤专家拉维·帕里克(RaviParikh)在电话里对我说 。 “他在《科学》期刊上发表的评论文章谈及了这个问题:当下的许多医疗人工智能相关的研究 , 都以计算能力、反应速度、概率分布曲线等作为指标 , 比如一个算法能够把判断某种征兆的速度提高百分之几之类 。 但是 , 这到底在临床上意味着什么?这对病人的治疗效果有多大增益?速度提高了 , 但误诊率呢?病人接受了这个诊断 , 是否病程变短、返诊率下降?这些所谓“落脚点”(endpoint)才是医学关心的指标 , 也是监管机构是否给某个技术放行的依据 。
一言以蔽之 , 人工智能想要治病救人 , 必须要接受医学标准的审视 。 特拉雅诺娃深知其中的不易 , 前文提到的3D造影技术即将投入大规模临床实验 , 最终的评判标准并不是技术、性能 , 而是手术的成功率 。 “接受了手术的病人 , 究竟有多少不用返工重来?返诊率是多少?”能够让临床医生彻底掌握这个技术 , 把除颤手术目前接近40%的返诊率大幅降低 , 才是这个技术成功的标志 。
健康界|| 深度,AI不能“取代”医生给我们看病,这并不是因为AI不够强大
文章图片
作者和特拉雅诺娃合影
希维尔德森也表示 , 算法必须要“翻译”成为医学实验的成果方才能称之为医疗 , 定量的测试和评估是一切的基础 。 而在临床实验中 , 需要照顾的不仅仅是数据 , 还有病人 。 “要验证现有技术的可用性、可靠性和效果 , 目前通用的方式是回溯性分析研究 , 这样才能在不影响病人的治疗水平的前提下得到好的结果 , 并且也需要伦理委员会的批准 。 ”
而且 , 我们必须诚实面对算法的局限 。 所有的药物都有副作用和适用人群 , 同样 , 做人工智能的人也必须从“用算法去解决普适性问题”的思维中跳出 , 重视应用情景、数据来源和数据质量等等 , 学会医学语言的谨慎 。 监管也必须面对一些关键挑战——例如 , 如何保证数据的多样性 , 如何打开人工智能和机器学习的“黑箱” , 确定一个算法的具体原理与医学证据之间的联系 。 “目前可以做的是建立完善的事后审计机制(auditingsystem) , 追踪算法和数据之间的关系 , 以及可能出现的数据偏差 。 ”帕里克说 , “但最后 , 一定还是落在临床的表现上 , 保证效用和可重复性 。 ”
AI和医生的关系也许不是替代 , 而是互补
我在希维尔德森的实验室里看到了一个比乒乓球略小的3D打印模型 , 质感柔韧 , 中间的裂痕用细密的针脚缝了起来 。 “这是一个有着先天心脏缺陷婴儿的心脏的一部分 。 ”希维尔德森对我解释道 , “我们用当前的造影技术 , 结合人工智能技术为心脏建模 , 然后打印出来供进行手术的医生练手 。 ”
健康界|| 深度,AI不能“取代”医生给我们看病,这并不是因为AI不够强大
文章图片
图:心脏模型
看着这个小小的模型 , 我仿佛能看到主刀医生和助手们围在屏幕前讨论手术方案 , 仔细观察和打量模型 , 思考着从哪里入手——这才是人机的完美配合 , 也是当下的医疗技术带来的最实际的进步 。 “在诊断和治疗中 , 一个医生的训练、经验和观察依然是最重要的 。 即使是最好的技术 , 也只能是增强医生的知识和能力 , 而不是替代 。 ”希维尔德森说 。


推荐阅读