全球范围内,失明和视觉障碍对数以百万计的人群造成了重大疾病负担。然而,眼科医疗资源的不足,限制了眼底疾病的筛查和管理效率,在罕见眼底病诊治中尤为突出。
近年来,基于人工智能(AI)的眼底疾病筛查系统取得了显著进展,但大多数方法仅针对特定常见疾病,在面对新数据或罕见病时存在局限性。然而,建立全面覆盖所有眼底异常的数据集既耗时又具挑战性,导致大多数AI模型的特征表示受限,难以在不同真实世界场景中直接应用。
为了突破这一瓶颈,汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授团队联合新加坡国立大学Cheng Ching-Yu教授团队和新加坡科技研究局付华柱教授团队提出了RetiZero模型,并在《Nature Communications》(影响因子15.7)上发表题为《Enhancing Diagnostic Accuracy in Rare and Common Fundus Diseases with a Knowledge-Rich Vision-Language Model》(利用知识增强的视觉-语言模型提升罕见及常见眼底疾病的诊断准确性)的最新研究成果。文章链接:https://www.nature.com/articles/s41467-025-60577-9
这是该团队继2023年发表于《Nature Communications》(影响因子14.7)、2024年发表于《Medical Image Analysis》(影响因子10.7)、2024年发表于《Cell Reports Medicine》(影响因子11.7)、2025年发表于《npj Digital Medicine》(影响因子15.1)之后的第五篇关于医学人工智能不确定性的高分论文。
研究团队开发了RetiZero,这是一个整合了超过400种眼底疾病和体征知识的视觉-语言模型。RetiZero模型结合了掩码自编码器(MAE)和对比语言-图像预训练(CLIP)架构,并引入了基于不确定性的特征校准方法,以增强图像-文本对齐能力。RetiZero在341,896对眼底图像文本对上进行预训练后,在多种下游任务中表现出色,包括零样本疾病识别、图像到图像检索、临床诊断辅助、少样本微调和内部域及跨域疾病识别。
零样本眼底疾病识别
RetiZero最大的优势是零样本学习能力,这使得RetiZero能够仅通过文本提示识别眼底疾病,而无需使用标记的眼底图像对模型进行重新训练或微调。
在包含15种常见眼底疾病的EYE-15数据集上,RetiZero的Top-1、Top-3和Top-5准确率分别为0.442、0.702和0.840,比FLAIR高出25.5%、15.7%和15.6%。
在更具挑战性的包含52种眼底疾病的EYE-52数据集上,Top-1、Top-3和Top-5准确率分别为0.360、0.626和0.756,显著优于FLAIR(0.092、0.263和0.340)和随机识别(0.029、0.088和0.147)。
眼底疾病图像到图像的检索
在图像到图像的检索任务中,研究团队将每张眼底图像依次作为查询图像,其余图像形成候选池,通过RetiZero的图像编码器,生成特征嵌入,计算查询嵌入与每个候选嵌入之间的相似性分数,从而检索出Top-K匹配图像。
在EYE-15数据集上,RetiZero的Top-1、Top-3和Top-5准确率分别为0.854、0.928和0.950,比RETFound高出9.4%、4.8%和3.2%,比FLAIR高出300.2%、121.1%和74.0%。
在EYE-52数据集上,Top-1、Top-3和Top-5准确率分别为0.726、0.843和0.886,显著优于RETFound和FLAIR。
AI辅助临床诊断
研究团队比较了RetiZero与来自新加坡、中国和美国的19名不同年资的眼科医生的表现,然后研究RetiZero是否能够协助眼科医生进行临床诊断。
RetiZero的零样本Top-3性能与多数眼科医生相当,Top-5性能超过所有眼科医生。
RetiZero辅助诊断后,94.7%的医生的诊断准确率提高,平均准确率从0.552提升到0.628(提升13.8%),其中初级医生提升最多。
内部域及跨域眼底疾病识别
在内部域任务中,RetiZero在三个数据集上的平均AUC分别为0.997、0.980和0.993,显著优于RETFound和FLAIR。
在跨域任务中,RetiZero在三个数据集的内部和外部测试中均取得了最高的AUC,显著优于RETFound和FLAIR。
少样本微调
在少样本微调任务中,研究团队仅使用每种眼底疾病的5张图像对模型进行微调,以评估RetiZero在仅有非常有限的训练数据时的性能。RetiZero在三个数据集上的AUC分别为0.967、0.859和0.942,显著优于RETFound和FLAIR。
研究成果亮点
研究团队构建多源异构的大规模数据集(>400类, >34万对),增加视网膜罕见病数量,结合MAE的细节特征提取能力和CLIP的跨模态对齐机制,使用基于狄利克雷重参数化的不确定性特征校准优化高维嵌入空间中的视觉-语言特征,构建了知识增强的视觉-语言模型RetiZero,不仅在零样本学习和图像检索任务中取得了卓越性能,还在辅助临床诊断方面展现了巨大潜力,尤其是在罕见眼底疾病诊断上。RetiZero的另一个亮点是其对不同数据域的适应能力,无论是在内部域还是跨域的眼底疾病识别任务中,RetiZero均表现出色,即使在只有少量标注数据的情况下,也能通过少量样本的微调实现高准确率。此外,RetiZero在不同种族和国家的数据集上均展现出良好的泛化能力,为全球眼科疾病的筛查和诊断提供了有力支持。
论文由汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授、新加坡国立大学的Cheng Ching-Yu教授以及新加坡科技研究局付华柱研究员作为共同通讯作者,新加坡国立大学的王猛博士、汕头国际眼科中心的林田博士为共同第一作者。
该研究得到了A*STAR中央研究基金、先进制造与工程项目基金、新加坡国家医学研究委员会、中国国家重点研发计划、中国国家自然科学基金、广东省教育厅、汕头市科学技术计划等项目的资助。
通知类别:汕医新闻 撰稿人:国际眼科中心 审核人:组织宣传统战部
粤ICP备10216025号 © 汕头大学医学院 | 地址:汕头市新陵路22号 | 515041 | 汕头大学医学院网络与信息中心开发