当AI进入医疗领域——读《超越想象的GPT医疗》

2023-08-07 来源：上海证券报

　　《超越想象的GPT医疗》
　　（美）彼得·李
　　凯丽·戈德伯格
　　伊萨克·科恩著
　　芦义译
　　浙江科学技术出版社
　　2023年5月出版

◎潘楷昕

一直以来，互联网医疗的一项便民宗旨就是通过医疗服务流程再造，提高服务效率和质量，推出了在线挂号问诊、远程医疗、健康管理、移动支付等功能，但本质上改变或解决的依然只是就医的“空间距离”，对于经验、数据、知识、脑力劳动密集的医疗行业而言，技术瓶颈使效率提升遭遇天花板。然而，人类从未停止过在医疗领域的探索，AI（人工智能）等新技术的出现，则为在这个领域的探索插上了新的翅膀。

由微软全球资深副总裁、微软研究院负责人彼得·李和他的两位合作伙伴凯丽·戈德伯格、伊萨克·科恩合著的《超越想象的GPT医疗》中宣称，在AI应用场景下，特别是以GPT-4为代表的大语言模型在医疗领域的诸多应用，延伸出一种结合医生、患者和机器的“三方模式”。这个模式重新审视了我们自己“何以为人”和机器“何以为机”的本质问题，并构想了一种全新的人机相结合的重要医疗范式，不仅可以有效破解“技术瓶颈”，还有望在更大程度上解决就医效率和医疗资源分布不均的难题。

某种深刻变化正在发生

在本书的开篇，彼得·李等几位作者极富远见地描绘了一个虚构场景：面对患者病情突然恶化，医学住院实习生克里斯腾·陈通过和GPT-4实时对话，完成了对患者的救治，得到了心理安慰，并为患者向保险公司申请了授权。生动的描述，让人切实感受到了AI为医疗健康服务带来的想象空间。

作为一位审慎的学者，彼得·李教授在本书中表示，开发类似GPT-4这样的新型AI系统可能是他一生中最重要的技术突破。在与GPT-4的互动过程中，彼得·李等几位作者一直对GPT-4在数学、统计学和计算机编程方面的能力印象深刻。在本书中，他们以一个类似于经典逻辑推理难题的智力游戏作为例子，来说明GPT-4如何惊人地展现出逻辑和常识推理能力。

一个护士需要转移四名病患，分别是爱丽丝、鲍勃、切特和迪。四个目的地分别是物理治疗室、新冠病区、X射线室和牙科门诊。切特的目的地没有健身器材；迪没有感染新冠病毒；爱丽丝的目的地要求工作人员有全副防护装备；迪的目的地名称里没有字母“X”；切特的目的地配备了牙科保健员。那么每个病患的目的地分别是哪里呢？

根据所给线索，GPT-4是这样推理的：1.切特的目的地没有健身器材且有牙科保健员：这暗示切特是去牙科门诊；2.迪没有感染新冠病毒，且她的目的地名称里没有字母“X”：这暗示迪是去物理治疗室；3.爱丽丝的目的地要求工作人员有全副防护装备：这暗示爱丽丝是去新冠病区；4.鲍勃是剩下的唯一一个病患，所以他是去X射线室。从实际结果来看，GPT-4的推理不仅解决了逻辑限制问题，还运用了常识推理。

最关键的是，GPT-4还能与患者进行交流，并且令人惊讶的是，GPT-4常常能以清晰和充满同情心的方式完成这个任务。除了在交流、推理、解决问题和解析医学知识等方面表现出色，GPT-4似乎还能够扩展它对人类经验的认识，包括对人类的文化、情感和社交礼仪重要性的认识。有时，即使我们竭力避免对AI系统进行拟人化，GPT-4实际上似乎也能表现出同理心，成为实现医疗目标的真诚伙伴。

诚如彼得·李等几位作者指出的那样：“有可能我们尚未理解的某种深刻变化正在发生。”具体来说，GPT-4将为医疗行业带来四个方面的积极改变或全新升级：一是帮助医护人员更高效地为更多患者提供实时和精准的诊疗服务；二是为患者提供更丰富、更准确的医学知识、医疗建议和保健指引；三是帮助医疗后台支持体系的相关人员更快地处理医疗健康服务请求或是从各种诊疗数据中提炼洞察和结论；四是帮助研究者推进医学和生物科学的前沿探索，加速医疗领域新技术、新产品从创想到应用的整个过程。

信任，但要核实

彼得·李等几位作者通过对比研究发现，GPT-4并非完美无缺。在展现卓越才能的同时，它也会像人类一样犯错。这个系统有时能轻松解决复杂的数学问题，却在简单算术问题上表现得一塌糊涂。

如何理解这种“二元性”，即它既比我们见过的任何人更聪明，同时又比他们更愚蠢，将是使GPT-4整合至我们生活中的最大挑战之一。为此在应用和推广GPT-4的过程中，有两个局限性不应被忽视：

其一，由于GPT-4并未以类似方式积极学习，它的基础知识可能会过时。例如，如果GPT-4最后一次离线训练时间是在“2023年8月”，那么它将无法学到在那之后产生的任何知识。而在医疗领域，保持信息及时更新往往至关重要。

其二，GPT-4缺乏长期记忆。当你开始与GPT-4进行会话时，它就像一张白纸。而当会话结束时，整个对话实质上就被遗忘了。此外，GPT-4的会话长度有限，大体上它只能容纳一篇长篇文档并就其展开讨论，一旦超过长度，所有对话都将停止，只能重新开始一个全新的会话。

GPT-4的这些局限性会影响其在医疗保健领域的应用。例如，患者的完整病历通常会比会话长度限制更长，因此GPT-4无法阅读所有内容。目前最好的做法是让GPT-4阅读数据的第一部分，对其进行总结，然后开始全新的会话，阅读上一份总结和继续阅读下一部分数据并总结。进一步而言，假如在上一次训练GPT-4后，医学领域出现了全新的医学知识，那么在未阅读相关资料的情况下，它将无法获知这些信息。如果这项新知识需要大量文本来阐述，由于会话长度的局限，它可能无法完整处理这类问题。

由于缺乏长期记忆功能， GPT-4在医疗领域的其他重要应用同样面临巨大挑战。例如，患者风险分级需要处理大量患者的临床病史信息，进而识别出处于紧急医疗危机中的高风险患者群体。由于GPT-4无法实时学习且缺乏长期记忆，借助它完成这项任务几乎是不可能的。

虽说GPT-4具有颠覆性的潜力，并有望改善医学和医疗保健领域。但彼得·李等几位作者不忘提醒人们，由于它同时会带来风险，因此有必要尽快在尽可能广泛的范围内进行测试，并让公众了解其局限性。当我们请GPT-4解决数学、统计或逻辑方面的医疗问题时，非常重要的一点是“信任，但要核实”。这一点尤为关键。

不要被自己的创造物诱惑

关于是否能够信任GPT-4，从而做出与医疗健康相关的决策，这一问题值得人们深思。比如，在医疗行业，药物报销和预授权流程复杂繁琐，但是却很重要。除了判断处方或某项治疗是否合理，以及是否应予以补偿，处理这个问题的关键点更在于这些决策如何以公正透明的方式进行，是医生、保险公司、政府，还是像GPT-4这样的AI来担任决策者？此外，若出现失误，应由谁来负责？

在本书中，彼得·李等几位作者认为，这类议题并非仅仅停留在理论层面。在日常生活中，每一天都会发生对人们生活产生巨大影响的决策，如今它们逐渐依赖于数据驱动和AI辅助的预测算法。然而，越来越多的证据表明，这类基于AI的决策可能导致健康保险理赔中的拒赔案例激增。因此，这样的决策可能对人们及其家庭造成极度不利的影响，通常上诉途径也相当有限，因为处理过程繁琐漫长，与机器争论也成为一项棘手的挑战。

AI系统还经常因体现训练数据的局限性而饱受指责。鉴于GPT-4接受的是互联网数据的训练，所以其神经网络中自然融入了诸多偏见。如此严重的问题促使OpenAI与微软的开发者竭力研究偏见所在，尽量将其影响降至最低。

GPT-4偶尔还会基于“臆测”，对问题给出不适当的回应。此类回应不会被AI主动标注为“臆测”，而且可能看起来很微妙、很接近用户拟想的“真实”，因而用户很难识别。对此，彼得·李等几位作者给出的改进设想是，将“医生-患者-AI助手”的组合，转变为“医生-患者-AI助手-AI验证者”的进阶版本。AI验证者的任务是检查AI助手的结论及医生、患者的表现，无论GPT-4扮演何种角色，始终需要让人类参与审查其生成的所有输出。

必须承认，医疗AI的实际应用，离科幻电影中的高度智能化，甚至彻底改变传统的医疗模式，还有相当长的一段路要走。问题重重，答案寥寥。GPT-4本身并非终点。它代表着一扇通往一个充满新机遇与新风险的新世界的大门。彼得·李等几位作者由此告诫人们：“欣赏AI的奇迹，这是人类智慧和无尽雄心的见证。然而，随着新的力量的降临，我们有可能滥用它。让我们不要被自己的创造物诱惑，也不要让它们的魅力使我们忘却道德指南针”。

6版书评

披沙录