比OpenAI更早一年做到！2023 年医联MedGPT在真实世界临床研究实验已有更惊艳表现

2024年11月20日

AI问诊会比真人医生更准吗？近日，美国斯坦福大学与OpenAI旗下产品ChatGPT4o进行的一轮随机临床试验，再次将大众的视线聚焦在大模型医疗应用领域。

从这次的实验的纸面结果来看，GPT可谓是“强得可怕”。在人类医生单独做出诊断的情况下，准确率为74%；在AI辅助的情况下，准确率上升到 76%。

ChatGPT4o本次的实验表现固然让人感到眼前一亮。不过值得一提的是，在太平洋彼岸，他们的中国同行医联，在一年前就曾做过一份类似的“考卷”。

作为一家专注于严肃医疗的医疗大模型应用公司，早在2023年6月，医联MedGPT就在中国成都举行了全球首次AI医生与真人医生的一致性评测，并进行了全天候实时直播。最终的实验结果显示，AI医生与三甲主治医生在比分结果上的一致性达到了96%。

两次测试都有着很高的实验得分，那么，如果拿医联MedGPT在23年的真人实验与ChatGPT4o在24年的实验进行一次pk，谁会是优胜一方？

一场跨越时间的实验PK

众所周知，在医疗领域，鉴于大语言模型（LLMs）严肃的预期用途，除了政府和机构的强监管之外，还需要开发机构对大模型在临床诊疗中的实用性和可靠性进行真实性实验与评估。因此，我们的“对照PK”，也不妨从实验时间、参加实验真人医生平均工作年限、实验时长、实验病例、测试方法、评价维度数量几个角度来进行比对。

首先，我们从实验及参与人员专业年限角度来进行分析，医联的实验研究始于2023年6月，涉及四川大学华西医院多科室的10位三甲医院的主治医师，7 位主任医师参与，平均工作年限约为 12年，实验共招募100余名真实患者，形成了91份有效病例，样本具有一定的多样性和临床代表性，最终的实验结果显示，AI医生与三甲主治医生在比分结果上的一致性达到了96%。

而ChatGPT4o的实验则是从2024年开始，研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生，其中包括44名内科医生、5名急诊医生和1名家庭医生，工作年限中位数为3年，对105例病历进行实验测试。

对比后不难发现，两项研究均涵盖了不同层级的医生，但医联的研究涉及的科室更广，参与医生的工作经验明显高于ChatGPT4o, 且是前瞻性验证研究。考虑到两次实验的实操时间，从时间维度来看，医联的实验无疑更具有前瞻性。

再从测试方法和评价维度数量来看，ChatGPT4o的实验主要基于结构化反思工具，包括鉴别诊断准确性、支持和反对因素的合理性以及下一步诊断评估步骤等三个方面评分注重诊断。

而医联MedGPT的研究设计维度更为丰富细致，研究设立针对AI医生的问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这七个评价维度进行打分。全面覆盖了临床诊疗的关键环节，实现了从问诊到治疗建议等多方面评估。

最后，我们以实验是否贴近临床场景进行对比。ChatGPT4o的实验中，医生需要在1个小时时间内，完成6个病例的结构化反思表格，本质上还是“做题”模式，并未切入临床实际问诊环境；

而医联MedGPT则是将实验直接搬到医院，在8个小时的实验时间中，患者除了与真人医生和AI医生完成多轮面对面沟通外，还支持为患者开具检查单或诊断，在患者获得检查结果后进行复诊，并由AI医生及真人医生提供临床诊断及治疗方案。通过以上流程，可以更大化的还原真实就医问诊环境。从拟真性和可及性角度来说，MedGPT无疑也更胜一筹。

通过以上的实验对比，不难发现，无论是实验的设计、参与人员的专业度、是否还原真实问诊环节这几个维度，最终的实验结果显示，AI医生与三甲主治医生在比分结果上的一致性达到了96%。MedGPT在23年6月的实验都更胜一筹。通过严谨的临床试验方案及评估体系，有望成为医生的得力助手，为提高医疗服务质量和效率提供有力支持，推动医疗行业向智能化方向发展。

AI医疗，未来已至？

现阶段，医疗行业还存在着资源分配不均，边缘地区患者难以接触到优质医疗资源等痛点，而AI医疗可以有效补充医疗资源，助力全民健康生活水平的提升，有利于补全基层诊疗服务短板，强化公共卫生服务效率，帮助解决优质医疗资源相对匮乏和基层医疗服务能力不足的结构性难题。

AI诊疗产品的想象空间有多大，取决于AI医生诊断的可靠度、可信度、一致性有多高。医联通过多次模拟，验证了MedGPT已经具备了通过问询方式给到患者较高准确率的问诊能力，对于医疗诊断的革新具备突破性的价值。

目前，MedGPT已经可以实现常见疾病咨询、紧急处理咨询、AI语音图像识别、慢性病管理咨询、诊后康复咨询等功能。患者不用再依靠搜索引擎获取未经过滤的医学内容，在前往医院就诊前，也可以通过与AI医生的简单咨询得到相对准确的初步判断，大大降低了患者的就医成本和医院的诊疗压力。

未来，医联将继续深耕大语言模型技术，持续提升AI医生在医疗领域的实际应用价值，争取覆盖常见病、急病和危重病的就诊需求，将医生从繁重的初级事务中解脱出来，更多地把精力倾斜到疑难重病的诊疗中。MedGPT将秉持着为医生服务的初心，成为医生诊疗过程中的“智慧AI助手”，为医疗行业的技术发展持续贡献科技力量，力争贯彻让全人类健康寿命延长一年”的使命。

医保压力大商保赔付高？医联MedGPT控费实验平均节省79%提供新解法医联获抗疫互联网医疗健康服务企业殊荣