面向医学文本中关键医学信息的精准语义比对方法及系统技术方案

技术编号：41248656 阅读：3 留言：0更新日期：2024-05-09 23:58

本发明专利技术提供一种面向医学文本中关键医学信息的精准语义比对方法及系统，涉及医学自然语言处理技术领域，该方法包括输入两份不同的医学文本，抽提蕴含于医学文本中的医学信息，并对其进行标准化处理，得到医学文本中的结构化、标准化的语义结构单元列表；基于语义结构单元列表，建立语义结构单元相似性区分模型；依次对语义结构单元中的表型概念和属性集合进行比对，基于语义结构单元相似性区分模型，根据表型概念和属性集合的结果综合判断完整语义结构单元的相似类别，得到关键医学信息比对结果。本发明专利技术不仅在技术上有效填补了医学文本关键医学信息比对技术的空白，还将能有效地提高临床专家比对医学文本的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医学自然语言处理，尤其涉及一种面向医学文本中关键医学信息的精准语义比对方法及系统。

技术介绍

1、医学文本的范围包括医学教科书、临床指南、医学文献和电子病历等自然语言文本。医学文本中的关键医学信息指的是蕴含于自然语言文本中的临床医学术语，包括疾病、症状、体征、检查、手术和药物等临床医学概念。医学文本中关键医学信息的精准语义比对问题的定义是：给定两份医学文本，通过自然语言处理算法抽提蕴含于其中的关键医学信息并进行语义比对，最终输出两份医学文本的关键医学信息比对结果，包括完全相同、部分相似和完全不同的临床医学元素。例如，在医学文本a(“患者右下腹剧烈针刺样腹痛…实验室检查：wbc 12.9*109/l…”)和医学文本b(“患者诉左上腹部绞痛…血象：白细胞偏高…”)中，均提及了“腹痛”和“血白细胞计数”(white blood cell，wbc)两个临床医学概念，这两个临床医学概念的比对结果分别是“完全相同”和“部分相似”，如图1所示。医学文本中关键医学信息的精准语义比对技术是医学信息学领域一种非常重要的基础性技术，可广泛应用于相似患者检索、临床辅助诊断决策等智慧医学产品中。

2、目前的文本比对技术主要集中于通用文本领域，对于医学文本中关键医学信息的精准语义比对技术的研究还非常稀少。由于医学文本中蕴含的医学概念在语义上非常复杂，通用文本比对技术在直接应用于医学文本比对问题时，无论在适用性上还是精准性上均存在诸多不足。例如，基于关键词的比对技术主要根据预定义的关键词列表抽提蕴含于文本中的关键词，再输出两份医学文

3、除关键词比对技术外，以textdiff、text compare为代表的文本比对工具是基于字符串的词元构成和编辑距离来进行文本比对，然而这些方案的主要目标在于计算文本之间整体的相似性，并不能实现如图1所示的医学文本中关键医学信息的精准语义比对目标。类似地，还有基于深度学习算法将文本字符串进行矢量化进而进行文本比对的方法，但同样的，该方法可计算文本整体层面上的相似度，但同样无法实现以医学概念为单元的医学文本精准语义比对目标。

4、因此，亟需一种全新的医学文本比对技术方案，用于解决医学文本中关键医学信息的精准语义比对问题。

技术实现思路

1、为此，本专利技术实施例提供了一种面向医学文本中关键医学信息的精准语义比对方法及系统，用于解决现有技术中无法解决医学文本中定性、定量检查类术语的语义比对，以及无法实现以医学概念为单元的医学文本精准语义比对目标的问题。

2、为了解决上述问题，本专利技术实施例提供一种面向医学文本中关键医学信息的精准语义比对方法，该方法包括：

3、步骤s1：输入两份不同的医学文本，抽提蕴含于医学文本中的医学信息，并对其进行标准化处理，得到医学文本中的结构化、标准化的语义结构单元列表；

4、步骤s2：基于语义结构单元列表，建立语义结构单元相似性区分模型；

5、步骤s3：依次对语义结构单元中的表型概念和属性集合进行比对，基于语义结构单元相似性区分模型，根据表型概念和属性集合的结果综合判断完整语义结构单元的相似类别，得到关键医学信息比对结果。

6、优选地，在步骤s1中，输入两份不同的医学文本，抽提蕴含于医学文本中的医学信息，并对其进行标准化处理，得到医学文本中的结构化、标准化的语义结构单元列表的方法，具体包括：

7、步骤s11：输入自然语言形式的医学文本；

8、步骤s12：基于转换器的双向编码表征bert和条件随机场crf，构建bert-crf命名实体识别架构，使用bert-crf命名实体识别架构，识别蕴含于医学文本中的核心医学概念及核心医学概念关联的属性实体；

9、步骤s13：构建并训练预训练语言模型，利用预训练语言模型，对步骤s12中医学文本结构化抽取过程中得到的属性实体进行标准化处理，并将其链接到统一医学语言系统上；

10、步骤s14：输出结构化、标准化的语义结构单元列表。

11、优选地，步骤s12中，使用bert-crf命名实体识别架构，识别蕴含于医学文本中的核心医学概念及核心医学概念关联的属性实体的方法，具体包括：

12、首先根据输入的自然语言形式的医学文本，得到输入序列；

13、然后使用转换器的双向编码表征bert对输入序列进行编码，得到每个词的嵌入表示；

14、接着将得到的每个词的嵌入表示输入到条件随机场crf中，条件随机场crf根据词的上下文信息和标签之间的依赖关系进行标签预测；

15、最后输出蕴含于医学文本中的核心医学概念及核心医学概念关联的属性实体。

16、优选地，所述核心医学概念包括但不限于疾病、症状、体征、检查、手术和药物，核心医学概念关联的属性实体包括但不限于存在情况、严重程度、缓急程度、发作部位。

17、优选地，步骤s13中，构建并训练预训练语言模型，利用预训练语言模型，对步骤s12中医学文本结构化抽取过程中得到的属性实体进行标准化处理，并将其链接到统一医学语言系统上，具体包括：

18、首先利用来自统一医学语言系统的中、英双语对齐的医学术语集合作为语料；

19、然后基于对比学习的方法，训练一个用于将某一医学术语关联到统一医学语言系统标准医学概念的预训练语言模型；

20、最后利用预训练语言模型，对步骤s21中医学文本结构化抽取过程中得到的实体进行标准化处理，将其链接到统一医学语言系统上。

21、优选地，在步骤s2中，基于语义结构单元列表，建立语义结构单元相似性区分模型的方法，具体包括：

22、步骤s21：通过收集、整理和翻译来自统一医学语言系统中的医学同义词知识，构建医学同义词数据集，所述医学同义词数据集包括中英文术语对、层级关系的术语对以及不相似的术语对；

23、步骤s22：基于构建的医学同义词数据集，对预训练语言模型的参数进行重新预训练-微调，从而构建了一个用于判断两个语义结构单元是否相似的语义结构单元相似性区分模型。

24、优选地，在步骤s3中，依次对语义结构单元中的表型概念和属性集合进行比对，基于语义结构单元相似性区分模型，根据表型概念和属性集合的结果综合判断完整语义结构单元的相本文档来自技高网...

【技术保护点】

1.一种面向医学文本中关键医学信息的精准语义比对方法，其特征在于，包括：

2.根据权利要求1所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，在步骤S1中，输入两份不同的医学文本，抽提蕴含于医学文本中的医学信息，并对其进行标准化处理，得到医学文本中的结构化、标准化的语义结构单元列表的方法，具体包括：

3.根据权利要求2所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，步骤S12中，使用BERT-CRF命名实体识别架构，识别蕴含于医学文本中的核心医学概念及核心医学概念关联的属性实体的方法，具体包括：

4.根据权利要求3所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，所述核心医学概念包括但不限于疾病、症状、体征、检查、手术和药物，核心医学概念关联的属性实体包括但不限于存在情况、严重程度、缓急程度、发作部位。

5.根据权利要求2所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，步骤S13中，构建并训练预训练语言模型，利用预训练语言模型，对步骤S12中医学文本结构化抽取过程中得到的属

6.根据权利要求1所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，在步骤S2中，基于语义结构单元列表，建立语义结构单元相似性区分模型的方法，具体包括：

7.根据权利要求1所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，在步骤S3中，依次对语义结构单元中的表型概念和属性集合进行比对，基于语义结构单元相似性区分模型，根据表型概念和属性集合的结果综合判断完整语义结构单元的相似类别，得到关键医学信息比对结果的方法，具体包括：

8.一种面向医学文本中关键医学信息的精准语义比对系统，其特征在于，所述系统用于实现权利要求1至7任意一项所述的面向医学文本中关键医学信息的精准语义比对方法，具体包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求1至7任意一项所述的面向医学文本中关键医学信息的精准语义比对方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行权利要求1至7任意一项所述的面向医学文本中关键医学信息的精准语义比对方法。

...

【技术特征摘要】

1.一种面向医学文本中关键医学信息的精准语义比对方法，其特征在于，包括：

2.根据权利要求1所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，在步骤s1中，输入两份不同的医学文本，抽提蕴含于医学文本中的医学信息，并对其进行标准化处理，得到医学文本中的结构化、标准化的语义结构单元列表的方法，具体包括：

3.根据权利要求2所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，步骤s12中，使用bert-crf命名实体识别架构，识别蕴含于医学文本中的核心医学概念及核心医学概念关联的属性实体的方法，具体包括：

5.根据权利要求2所述的面向医学文本中关键医学信息的精准语义比对方法，其特征在于，步骤s13中，构建并训练预训练语言模型，利用预训练语言模型，对步骤s12中医学文本结构化抽取过程中得到的属性实体进行标准化处理，并将其链接到统一医学语言系统上，具体包括：

6.根据权利要求1所述的面向医学...

【专利技术属性】
技术研发人员：邓立宗，蒋太交，陈禄明，程瑶，杨涛，
申请(专利权)人：苏州系统医学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人