主要内容
谷歌在其关于 AMIE( articulate Medical Intelligence Explorer)的最新研究中,赋予了其诊断 AI 理解视觉医疗信息的能力。想象一下,与 AI 谈论健康问题,它不仅能处理你的话语,还能查看令人担忧的皮疹照片或理解你的心电图打印输出。这正是谷歌的目标。
此前发表在《自然》杂志上的工作让我们已经知道 AMIE 在基于文本的医疗聊天中展现出了前景。但要知道,真正的医学不仅仅是文字。医生严重依赖他们所看到的——皮肤状况、机器读数、实验室报告。正如谷歌团队所指出的,即使是简单的即时通讯平台也“允许静态多模态信息(如图像和文档)丰富讨论”。仅基于文本的 AI 缺失了很大一部分拼图。
研究人员提出的大问题是“LLMs 是否能进行包含这种更复杂类型信息的诊断临床对话”。谷歌通过使用其 Gemini 2.0 Flash 模型作为运算大脑,增强了 AMIE,并结合了所谓的“状态感知推理框架”。通俗地说,这意味着 AI 不仅遵循脚本,还会根据目前所学和仍需弄清楚的内容调整对话。这类似于人类临床医生的工作方式:收集线索,形成关于可能出现问题的想法,然后要求更多具体信息——包括视觉证据——以缩小范围。
谷歌创建了逼真的患者案例,从 PTB - XL 心电图数据库和 SCIN 皮肤病学图像集等来源提取真实的医疗图像和数据,并使用 Gemini 添加合理的背景故事。然后,让 AMIE 在这个设置中与模拟患者“聊天”,并自动检查其在诊断准确性和避免错误(或“幻觉”)等方面的表现。
在模拟临床环境中的测试中,谷歌发现 AMIE 不仅表现出色,甚至经常领先。在解释聊天中共享的多模态数据方面,AI 被评为优于人类初级保健医生,在诊断准确性方面也得分更高,能生成更详细的管理计划,并且在沟通技巧和同理心方面也表现良好,同时能很好地解释视觉信息。