logo
更多功能
个人中心

观舌象,识疾病:中国学者开发舌象表型AI平台

2025-10-31 08:00来自翻译狗阅读2

近日,《表型组学(英文)》(Phenomics)在线发表了中国科学院上海营养与健康研究所汪思佳、彭倩倩团队、张国庆团队和北京中医药大学陈建新团队题为“TonguExpert: A Deep Learning-Based Algorithm Platform for Fine-Grained Extraction and Classification of Tongue Phenotypes”的研究论文。

该研究开发了一种基于深度学习的舌象表型自动化分析平台TonguExpert,可实现舌图片中舌体的精准识别、分割以及细粒度的舌象表型提取与分析,并构建了当前最大的公开舌象数据集,为舌诊的客观化研究和临床应用提供了重要工具。

研究背景

舌头的各种表型与人体健康状态息息相关。在中医理论中,舌质、舌苔、舌裂纹、舌齿痕等舌象表型被认为可以反映人体脏腑的气血盛衰变化,现代研究中也发现舌象与多种疾病密切相关。客观、精细地表征舌象,对于理解舌象与疾病的关联具有重要意义。

传统的人工舌诊依赖医师经验判断,存在主观性强、特征描述粗糙等问题,因此,有必要开发客观、定量的舌诊方法。目前已有一些方法实现了舌色、舌裂纹等舌象的自动分类,但还存在一些局限性:首先现有技术的预测结果精度有限,且大多只关注了颜色、形态、纹理等特征中的一种或少数几种,不利于临床舌象的全面定义。其次,多基于小样本数据集或患者人群开发,往往只针对单一表型,限制了模型的泛化能力。此外,当前缺乏公开可用的舌象数据集,这限制了舌象自动化模型的比较和改进。

针对上述问题,本研究基于5992例中国大规模健康人群数据,开发了一套舌表型自动识别和分类框架TonguExpert,该框架融合了多种深度学习算法,实现了全自动、细粒度的舌象表型提取,形成了一套通用的表型库,可推广到独立数据集中新舌象样本的预测。

本研究还开发了一个在线分析平台(https://www.biosino.org/TonguExpert),支持舌象图像的自动分析与表型提取,并提供研究中使用的数据集与表型结果下载,促进舌象研究的标准化与共享。

研究结果

本研究开发了一套舌表型自动识别和分类框架,以舌象图片为输入,可实现从预处理到表型输出的一站式分析。如图1所示,TonguExpert首先识别图片中的舌体区域并从背景中分割出来。舌体区域图像经过反光点去除、苔质分离后,分别提取舌苔、舌质和全舌这三个全局表型的颜色、形状、纹理、以及神经网络特征。

对于舌裂纹、舌齿痕等局部表型,则是先筛选出有裂纹或齿痕的舌体区域图像,再进行舌齿痕目标识别或舌裂纹目标分割,得到目标局部图像后,提取局部的颜色、形状、纹理、以及CNN网络特征。利用上述特征,结合感兴趣的舌象人工标签(如舌苔的白/浅黄/黄)和可解释的机器学习模型,可进一步预测分类舌象特征。

图1 TonguExpert 分析全流程

本研究首先提取了763个表型,包括355个全舌、舌质和舌苔的特征和408个舌裂纹和舌齿痕的特征。考虑到临床医生可能关注特定区域的舌象,研究还额外提供了5个舌区域(舌尖、舌中、舌根、舌两侧)的580个特征用于未来研究。最终,TonguExpert可从一张图片中提取多达1353个表型。这些表型构成了一套精确量化舌象的通用表型库。

为评估这些表型在传统舌象分类任务中的预测性能,本研究以舌色、苔色、舌裂纹及舌齿痕的人工标注标签为对照,构建模型对相应分类进行预测。结果显示,该系统在所有四类舌象的预测中均表现出优异的性能(AUC范围为0.91至0.99),且所提取的特征具备良好的可解释性,支持其在中医舌诊客观化与标准化研究中的应用潜力。

图2 舌色、苔色、舌裂纹和舌齿痕4种舌象的分类预测结果

为了评估这套表型提取框架的泛化能力,研究人员在一个独立的舌腻苔数据集中用TonguExpert提取了表型并预测舌腻苔这一新舌象表型。结果显示该模型在预测非腻苔/腻苔/厚腻苔任务中均表现出了良好的效果(AUC=0.95/0.84/0.91)。这一结果说明TonguExpert构建的表型库具有良好的可迁移性与扩展性,具备作为未来新舌象识别与表征基础的潜力。

图3 舌腻苔的分类预测结果

最后,本研究开发了一个易于使用的在线分析平台(https://www.biosino.org/TonguExpert),支持用户在线上传舌图像并自动完成舌象表型的分析。同时,平台公开了研究所使用的训练集原始图像及表型数据集,便于其他研究者进一步利用与验证。

研究结论

本研究所构建的TonguExpert深度学习分析框架,能够高效、准确地从舌图像中提取舌象特征,并预测多种临床常见的舌象表型。所提取的高精度、细粒度表型特征不仅有助于更全面地刻画现有舌象,也具备支持未来新舌象定义与分类的能力。借助开放共享的数据资源和用户友好的在线平台,TonguExpert有望在舌象的精准化分析、标准化研究及其潜在的生物学机制探索中发挥重要作用。

中国科学院上海营养与健康研究所李婷博士、北京中医药大学博士研究生左玲为该论文的共同第一作者,中国科学院上海营养与健康研究所汪思佳研究员、彭倩倩副研究员、张国庆研究员和北京中医药大学陈建新教授为本文的共同通讯作者。该研究得到了国家重点研发项目和国家自然科学基金等多项基金支持。

Abstract

Tongue analysis holds promise for disease detection and health monitoring, especially in traditional Chinese medicine. However, its subjectivity hinders clinical applications. Deep learning offers a path for automated tongue diagnosis, yet existing methods struggle to capture subtle details, and the lack of large datasets hampers the development of robust and generalizable models. To address these challenges, we introduce TonguExpert (https://www.biosino.org/TonguExpert), a free platform for archiving, analyzing, and extracting phenotypes from tongue images. Our deep learning framework integrates cutting-edge techniques for tongue segmentation and phenotype extraction. TonguExpert analyzes a massive dataset of 5992 tongue images from a Chinese population and extracts 773 phenotypes including five predicted labels and their probabilities, 355 global features (entire tongue, tongue body, and tongue coating) and 408 local features (fissures and tooth marks) in a unified process. Besides, 580 additional features for five tongue subregions are also available for future study. Notably, TonguExpert outperforms manual classification methods, achieving high accuracy (ROC-AUC 0.89-0.99 for color, 0.97 for fissures, 0.88 for tooth marks). Additionally, the model generalizes well to predict new phenotypes (e.g., greasy coating) using external datasets. This allows the model to learn from a broader spectrum of data, potentially improving its overall performance. We also release the largest publicly available dataset of tongue images and phenotypes, which is invaluable for advancing automated analysis and clinical applications of tongue diagnosis. In summary, this research advances automated tongue diagnosis, paving the way for wider clinical adoption and potentially expanding the applications in the future.

充值