一种基于问诊信息表征增强的舌苔图像分析方法及系统技术方案

技术编号：41219686 阅读：6 留言：0更新日期：2024-05-09 23:40

本发明专利技术提供了一种基于问诊信息表征增强的舌苔图像分析方法及系统，属于图像处理技术领域，该方法包括基于中医文本数据集，利用双塔模型训练通用的预训练模型的句子向量表征能力，并分别提取包含粗粒度句子信息以及包含细粒度信息的文本特征向量，形成最终的文本特征向量，以对问诊数据进行特征处理；利用孔卷积算法，提取患者舌苔图像的图像特征向量，以对望诊数据进行特征处理；利用混合分层注意力机制，对最终的文本特征向量以及图像特征向量进行多模态特征融合处理；根据融合处理结果，对患者舌苔图像进行分割，完成对舌苔图像的分析。本发明专利技术解决了常规舌苔图像分析方法忽略含有重要医学语义信息的问诊信息导致图像分割精度不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，尤其涉及一种基于问诊信息表征增强的舌苔图像分析方法及系统。

技术介绍

1、中医疑难杂症识别一直被视为分类任务。统计机器学习模型，如逻辑回归(logistic regression，lr)和极致梯度提升(extreme gradient boosting，xgboost)，在此领域得到广泛应用。基于向量的lr方法通过标准化处理离散型和连续型变量，将其输入模型。而基于树模型的xgboost则直接运用结构化数据进行训练。

2、近期研究中，深度学习引起广泛关注。深度学习以其强大的特征表达能力和卓越的预测性能，成为解决分类任务的研究重点。在这些研究中，患者的舌苔图像，即“望诊”信息，作为主要数据来源，舌诊在中医领域具有关键地位。舌诊通过观察舌质和舌苔的颜色、形状等特征，为患者健康状况的诊断提供重要线索。

3、然而，诊断文本(如“问诊”信息)在实际应用中尚未得到充分利用。例如，问诊数据中包含中医医生对患者整体健康情况的综合评估。为更充分地应用文本数据，通常采用词嵌入方式将其转换为向量。当前主流研究方法常利用预训练模型(如bert)获得基于上下文语义的动态词嵌入。为得到整体句子嵌入，通常使用池化方式处理词嵌入，其中平均池化是一种被广泛采用的方法，因其兼具速度和效能。同时，研究也表明不同领域的bert模型在效果上存在差异，经过医学语料微调的预训练模型在医学领域表现出更为优异的性能。

4、在不同类型的数据融合技术中，许多简单而朴素的方法采用直接拼接方式。然而，这种方法可能带来信息冗余的问

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种基于问诊信息表征增强的舌苔图像分析方法及系统，解决了常规舌苔图像分析方法忽略含有重要医学语义信息的问诊信息导致图像分割精度不足的问题，引入问诊的中医领域特征信息，改进的舌苔图像分析方法，从而提高了对舌苔特征的提取和分析的准确性。

2、为了达到以上目的，本专利技术采用的技术方案为一种基于问诊信息表征增强的舌苔图像分析方法，包括以下步骤：

3、s1、基于中医文本数据集，利用双塔模型训练通用的预训练模型的句子向量表征能力，并分别提取包含粗粒度句子信息的文本特征向量以及包含细粒度信息的文本特征向量，形成最终的文本特征向量，以对问诊数据进行特征处理；

4、s2、利用孔卷积算法，提取患者舌苔图像的图像特征向量，以对望诊数据进行特征处理；

5、s3、利用混合分层注意力机制，对最终的文本特征向量以及图像特征向量进行多模态特征融合处理，得到编码向量；

6、s4、利用编码向量，对患者舌苔图像进行分割，完成对舌苔图像的分析。

7、本专利技术的有益效果是：本专利技术充分利用了中医四诊中的“望诊”和“问诊”信息，通过针对特定领域进行微调的预训练模型，提升了语言表征能力。同时，通过引入双塔模型，进一步强化了语言模型的句子表征能力。针对舌苔图像，本专利技术引入了孔卷积算法，实现了图像的分割和特征提取。随后，通过采用混合分层注意力机制，多模态特征得到了有效融合，从而生成了患者独特的特征向量。此外，基于多任务学习框架，本专利技术能够同时预测多个中医疑难杂症。本专利技术的创新点在于，在中医疑难杂症识别领域，通常仅依赖于“望诊”信息进行对患者舌苔图像进行分析，而忽略了蕴含重要医学语义信息的“问诊”信息。相比之下，本专利技术通过引入多模态的医学语义信息，实现了更全面的特征融合，从而有效提升了能患者舌苔图像分析的精度。通过将“望诊”和“问诊”信息有机地结合，本专利技术克服了传统模型忽视“问诊”信息的局限性。

8、进一步地，所述步骤s1包括以下步骤：

9、s101、基于中医文本数据集，采用微调算法对通用的预训练模型进行微调；

10、s102、利用双塔模型，训练经微调后的预训练模型的句子向量表征能力；

11、s103、根据经训练后的预训练模型，利用平均池化提取诊断文本中包含粗粒度句子信息的文本特征向量；

12、s104、利用实体识别模型提取诊断文本中包含细粒度实体信息的文本特征向量，并将步骤s103提取的文本特征向量和步骤s104提取的文本特征向量进行拼接，形成最终的文本特征向量，以对问诊数据进行特征处理。

13、上述进一步方案的有益效果是：通过微调中医文本数据集，利用双塔模型训练预训练模型，采用平均池化提取包含粗粒度信息的句子向量，再利用实体识别模型提取包含细粒度信息的文本特征向量，从而实现了对问诊数据的综合特征处理。提高模型对中医文本的理解能力，提升句子向量表征的质量，同时在粗粒度和细粒度多维度地提取了信息，为下一步的多模态融合提供了信息语境和特征，以及更丰富的含有丰富中医医学语义信息的文本向量特征。

14、再进一步地，所述步骤s101包括以下步骤：

15、s1011、对中医文本数据集进行清洗和预处理；

16、s1012、利用掩码训练方法，对经预处理后的中医文本数据集进行掩码处理；

17、s1013、利用经掩码处理后的中医文本数据集，冻住通用的预训练模型的预训练层参数，并对下游任务层进行参数更新。

18、上述进一步方案的有益效果是：本专利技术通过基于迁移学习的领域微调的方法巧妙地提升了预训练模型在中医领域的适应性。这样的策略确保了在中医文本数据集处理中，预训练模型能够更好地捕获医学领域特有的语义信息。通过对预训练模型的微调，使其适应中医领域的特点，最终产生的语言表征向量不仅在概念上丰富而准确，更重要的是具备了中医特有的语义背景。

19、再进一步地所述步骤s102包括以下步骤：

20、s1021、将每条中医文本数据集中的每一条句子经不同的随机失活dropout采样作为正样本句子对；

21、s1022、将中医文本数据集中的每条句子，除与经随机失活dropout后的句子作为正样本句子对外，和除原句之外的所有的句子作为负样本句子；

22、s1023、基于负样本句子对和双塔模型，利用对比学习进行相似度计算的模型训练，强化经微调后的预训练模型的句子向量表征能力；

23、所述双塔模型的训练函数的表达式如下：

24、o＝softmax(wt(u,v|u-v|))

25、其中，o表示通过双塔模型计算得到的句子相似度的预测结果，wt表示权重矩阵，u表示一句子的一个向量表征，v表示另一句子的向量表征，|u-v|表示两个句子向量之间的绝对差值。

26、上述进一步方案的有益效果是：本专利技术基于双塔模型的训练方法强化了预训练模型的句子向量表征能力，并使其能够更准确地捕捉语义关系。通过构建正负样本句子对，模型能够本文档来自技高网...

【技术保护点】

1.一种基于问诊信息表征增强的舌苔图像分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S101包括以下步骤：

4.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S102包括以下步骤：

5.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S103包括以下步骤：

6.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S104包括以下步骤：

7.根据权利要求1所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S2包括以下步骤：

8.根据权利要求1所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤S3包括以下步骤：

9.根据权利要求8所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所

10.一种执行如权利要求1-9任一所述的基于问诊信息表征增强的舌苔图像分析方法的舌苔图像分析系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于问诊信息表征增强的舌苔图像分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤s1包括以下步骤：

3.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤s101包括以下步骤：

4.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤s102包括以下步骤：

5.根据权利要求2所述的基于问诊信息表征增强的舌苔图像分析方法，其特征在于，所述步骤s103包括以下步骤：

6.根据权利要...

【专利技术属性】
技术研发人员：陈侣林，
申请(专利权)人：成都大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人