
新文推荐
香港理工大学团队:DeepSeek-R1在双语复杂眼科推理任务中的表现优于Gemini 2.0 Pro以及OpenAI的o1和o3-mini模型
(点击英文标题可直接浏览、下载论文)
Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi*
香港理工大学眼科视光学院
近日,香港理工大学眼科视光学院何明光, 施丹莉团队在 “Advances in Ophthalmology Practice and Research” 期刊发表了题为“DeepSeek-R1 outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in bilingual complex ophthalmology reasoning” 的研究论文。香港理工大学许普生研究助理为论文第一作者,施丹莉助理教授为论文通讯作者。
01
论文导读
Highlight
近年来,以 OpenAI 的 GPT 系列和 Google 的 Gemini 系列为代表的大语言模型 (LLM),在自然语言理解与推理领域取得了显著突破。其在医学领域,如个性化健康咨询、临床决策支持、手术规划和远程医疗等方面展现出巨大潜力。然而,将这些模型真正融入临床工作流程,仍需经过严格的性能验证与安全性评估。
在眼科学领域,已有研究尝试利用大语言模型整合海量医学文献、临床指南及患者数据,以期辅助医生实现更精准的诊断与决策。遗憾的是,现有模型的表现尚难以满足临床应用的实际需求。
近期,DeepSeek 团队发布了其强大的开源模型——DeepSeek-R1。该模型在多项通用基准测试中展现出与 OpenAI o1相当的实力。那么,它在复杂的眼科专业推理任务中表现如何呢?
本研究收集了130道为中国眼科正高职称考试设计的案例分析多选题,并将其翻译成英文版本,构建中英文双语测试集。系统评估了DeepSeek-R1, Gemini 2.0 Pro, OpenAI的o1和o3-mini在这些复杂眼科案例分析题上的推理表现,并深入剖析了模型的推理逻辑与错误根源。
本研究的主要发现包括:
1. DeepSeek-R1总体准确率最高。在中文题目上,DeepSeek-R1 准确率高达 0.862,显著优于 Gemini 2.0 Pro (0.715, P < 0.001)、OpenAI o1 (0.685, P < 0.001)和o3-mini (0.692, P < 0.001)。在英文题目上,DeepSeek-R1 准确率为 0.808,虽与 Gemini 2.0 Pro (0.746, P = 0.115) 的差异未达到统计学显著水平,但仍显著优于OpenAI o1 (0.723, P = 0.027)和o3-mini (0.577, P < 0.001)。
2. 四个模型展现出相似的推理逻辑。在诊断问题上,推理错误的主要原因为忽视关键阳性病史和关键阳性体征;而在管理问题上,推理错误的主要原因为对医疗数据的解读不当和过度推荐非一线诊疗方案。
02
论文图表
Fig. 1. 研究概述。
Tab 1. DeepSeek-R1与其他三个大语言模型在双眼复杂眼科推理任务的总体准确率。
引用本文
1. Xu P, Wu Y, Jin K, Chen X, He M, Shi D. DeepSeek-R1 outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in bilingual complex ophthalmology reasoning. Adv Ophthalmol Pract Res. 2025;5(3):189-195
03
作者介绍
通讯作者
施丹莉,香港理工大学助理教授(研究),主要研究方向为眼科数字健康、生成式人工智能、多模态人工智能,以及人工智能的临床转化。
研究领域:施教授专注于生成式AI、多模态AI智能体、眼科数字生物标志物和自主诊所研究,在npj Digital Medicine、JAMA Ophthalmology 等顶级期刊发表多篇论文,开发了FFA-GPT、EyeGPT等创新眼科AI系统。
第一作者
许普生,香港理工大学研究助理。
文编 | 许普生
编排 | 丁思敏
审核 | 王凯军