一种面向中文冠心病诊断报告的命名实体消歧方法技术

技术编号:36359539 阅读:56 留言:0更新日期:2023-01-14 18:16
本发明专利技术属于医疗信息数据处理技术领域,公开了一种面向中文冠心病诊断报告的命名实体消歧方法,包括三个阶段:候选实体生成阶段:根据冠心病诊断报告中文命名实体数据集,由生成模块生成候选实体集;候选实体排序阶段:将冠心病诊断报告中文命名实体数据集和生成的候选实体集进行拼接,由排序筛选模块对候选实体集进行筛选,得到新的候选实体集,并保存在候选实体存储模块中;一致性校验阶段:候选实体存储模块中保存的两个相邻实体提及的新的候选实体集,通过注意力模块和类树构建模块,得到段落文本所有每个实体提及的最终目标候选实体,提高整个段落文本的消歧准确率。提高整个段落文本的消歧准确率。提高整个段落文本的消歧准确率。

【技术实现步骤摘要】
一种面向中文冠心病诊断报告的命名实体消歧方法


[0001]本专利技术属于医疗信息数据处理
,公开了一种面向中文冠心病诊断报告的命名实体消歧方法。

技术介绍

[0002]近年来,随着人工智能技术的发展,信息数据处理
进入到了一个新的时代,尤其在自然语言处理方面,各种模型和方法的出现,使得各行各业都有了新的突破。医疗领域同样受到人工智能的影响,冠心病作为一种慢性病,多见于中老年人,基于医疗诊断报告,利用自然语言处理技术,构建出的冠心病诊断报告知识图谱能够有利于分析和总结冠心病人的相关信息,提高医院冠心病治疗水平。实体消歧作为自然语言处理技术中的一种处理任务,是构建知识图谱不可或缺的一环,在医疗诊断报告中,基于命名实体识别后的实体提及名称,在不同的语段中有着不同的含义,并且很多疾病、病因和症状实体具有多个别名,将实体提及名称进行消歧,找到实体提及名称在语段中的正确含义和标准名称,显得尤为重要。
[0003]目前,所提出的实体消歧技术中大多采用双编码器的结构,将实体提及和候选实体分别编码,然后计算两者之间的语义相似度,来进行排序选择。这种方法需要计算大量的候选实体与实体提及之间的余弦相似度,缺乏对上下文特征信息的关注,导致准确度不高。而在中文医疗文本消歧方面,也缺少对医疗术语中英文简体名称的消歧方法。

技术实现思路

[0004]针对上述所提出的问题,本专利技术提出了一种面向中文冠心病诊断报告的命名实体消歧方法,基于冠心病诊断报告中文命名实体数据集,包括三个阶段:候选实体生成阶段、候选实体排序阶段和一致性校验阶段。其中候选实体生成阶段根据冠心病诊断报告中文命名实体数据集,由生成模块生成相关候选实体集;候选实体排序阶段将冠心病诊断报告中文命名实体数据集和候选实体生成阶段生成的候选实体集进行拼接,由排序筛选模块对候选实体集进行筛选,得到新的候选实体集,并保存在候选实体存储模块中;一致性校验阶段根据候选实体存储模块中保存的两个相邻实体提及的候选实体集,通过注意力模块和类树构建模块,得到段落文本所有每个实体提及的最终目标候选实体,提高整个段落文本的消歧准确率。
[0005]所述基于冠心病诊断报告中文命名实体数据集,由段落文本构成,并将段落文本拆分成句子文本,每条句子文本需包括:待消歧句子实体提及m、待消歧实体上文信息cx_o、待消歧实体下文信息cx_u、待消歧实体提及类型ty,数据集中句子内容为:{m,cx_o,cx_u,ty}。
[0006]待消歧实体提及类型可分为6类,分别为:疾病、病因、症状、人体结构、观测操作和药品。
[0007]本专利技术中:候选实体生成阶段包括冠心病诊断报告中文命名实体数据集中句子内
容、实体别名表、候选实体知识库和中文GPT2预训练模型,具体包括如下步骤:步骤1

1:数据集中句子内容先通过所述实体别名表,根据待消歧句子实体提及m和待消歧实体提及类型ty从所述实体别名表中找到待消歧句子实体提及m对应的别名名称集{ma1,ma2

},将实体提及的别名名称添加到数据集中,则数据集中的句子内容为:{m,ma1,ma2,cx_o,cx_u,ty};步骤1

2:数据集中的句子内容根据中文GPT2预训练模型输入数据ST格式调整为:<s>输出待消歧句子实体提及m的候选实体[E]m[E]ma1[E]ma2[E]cx_o[E]m[E]cx_u[E]ty[SEP],其中<s>为输入数据的起始标识符,[SEP]为终止标识符,字符串“输出待消歧句子实体提及m的候选实体”用来微调生成任务,训练中文GPT2预训练模型输出候选实体,[E]为分割字段标识符;步骤1

3:在训练中文GPT2预训练模型之前,将所述候选实体知识库内容嵌入到所述中文GPT2预训练模型中,根据输入数据ST进行输入编码,训练中文GPT2预训练模型从嵌入矩阵中查找汉字对应的嵌入向量,根据<s>起始标识符和各汉字在ST中的位置,得到各汉字的位置编码向量:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中:St表示输入数据ST中的汉字,token表示定义的嵌入矩阵表,定义了各汉字对应的嵌入向量,X表示嵌入向量,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中:pos表示当前字在句子中的位置,i表示向量中每个值的index,model表示模型自定义参数,偶数位置,使用正弦编码,奇数位置,使用余弦编码,PE表示位置编码向量;步骤1

4:各汉字的嵌入向量X和位置编码向量PE相加后构成表示向量:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)将表示向量输入到所述中文GPT2预训练模型中的Decoder模块中,所述Decoder模块根据自注意力机制为每个汉字都赋予一个相关度得分,经过向量表征求和,得到各字词之间的关联概率:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)P表示各字词关联概率,为模型内置向量,自定义数值,向量维数,与表示向量保持一致,softmax()为归一化概率函数;步骤1

5:经过步骤1

4微调后的中文GPT2预训练模块,能够根据ST中的待消歧句子实体提及m和对应的别名名称,结合待消歧实体下文信息cx_u和待消歧实体提及类型ty信息,与候选实体知识库中的候选实体信息之间,计算相似值,设置相似值阈值,选择大于相似值阈值的候选实体:
(6)E表示所有候选实体集,ei表示候选实体,sorce()表示计算候选实体与ST之间的相似值函数,p:自定义的相似值阈值。
[0008]本专利技术中:所述候选实体排序阶段由中文Longformer层、Linear Layer层、Start softmax层、End softmax层、联合概率层、阈值选择层和候选实体存储模块构成,中文Longformer层改进了transformer中的注意力机制更利于处理长文本数据,更好的学习到各字词之间的关联信息。Linear Layer层是一种全连接网络层,能够整合中文Longformer层提取的关联信息,Start softmax层计算各候选实体的起始位置概率,End softmax层计算各候选实体的终止位置概率,联合概率层依据加权值联合计算各候选实体的起始位置概率与终止位置概率,得到最终各候选实体的概率值,阈值选择层,预先定义概率阈值,选出联合概率大于概率阈值的候选实体,候选实体存储模块存储阈值选择层选择出的候选实体。
[0009]具体包括如下步骤:步骤2

1:将候选实体生成阶段生成的候选实体集与冠心病诊断报告中文命名实体数据集中的句子内容进行拼接,新的句子内容为{m,ma1,ma2,cx_o,cx_u,ty,e1,e2

},新的句子内容中的别名名称ma本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文冠心病诊断报告的命名实体消歧方法,其特征在于:所述命名实体消歧方法包括如下三个步骤:步骤1:候选实体生成阶段:根据冠心病诊断报告中文命名实体数据集,由生成模块生成候选实体集;步骤2:候选实体排序阶段:将冠心病诊断报告中文命名实体数据集和步骤1中生成的候选实体集进行拼接,由排序筛选模块对候选实体集进行筛选,得到新的候选实体集,并保存在候选实体存储模块中;步骤3:一致性校验阶段:候选实体存储模块中保存的两个相邻实体提及的新的候选实体集,通过注意力模块和类树构建模块,得到段落文本所有每个实体提及的最终目标候选实体,提高整个段落文本的消歧准确率。2.根据权利要求1所述一种面向中文冠心病诊断报告的命名实体消歧方法,其特征在于:所述冠心病诊断报告中文命名实体数据集由段落文本构成,并将段落文本拆分成句子文本,每条句子文本需包括:待消歧句子实体提及m、待消歧实体上文信息cx_o、待消歧实体下文信息cx_u、待消歧实体提及类型ty,冠心病诊断报告中文命名实体数据集中句子内容为:{m,cx_o,cx_u,ty}。3.根据权利要求2所述一种面向中文冠心病诊断报告的命名实体消歧方法,其特征在于:步骤1中所述候选实体生成阶段包括冠心病诊断报告中文命名实体数据集中句子内容、实体别名表、候选实体知识库和中文GPT2预训练模型,具体包括如下步骤:步骤1

1:数据集中句子内容先通过所述实体别名表,根据待消歧句子实体提及m和待消歧实体提及类型ty从所述实体别名表中找到待消歧句子实体提及m对应的别名名称集{ma1,ma2

},将实体提及的别名名称添加到冠心病诊断报告中文命名实体数据集中,则冠心病诊断报告中文命名实体数据集中的句子内容为:{m,ma1,ma2,cx_o,cx_u,ty};步骤1

2:冠心病诊断报告中文命名实体数据集中的句子内容根据中文GPT2预训练模型输入数据ST格式调整为:<s>输出待消歧句子实体提及m的候选实体[E]m[E]ma1[E]ma2[E]cx_o[E]m[E]cx_u[E]ty[SEP],其中<s>为输入数据的起始标识符,[SEP]为终止标识符,字符串“输出待消歧句子实体提及m的候选实体”用来微调生成任务,训练中文GPT2预训练模型输出候选实体,[E]为分割字段标识符;步骤1

3:在训练中文GPT2预训练模型之前,将所述候选实体知识库内容嵌入到所述中文GPT2预训练模型中,根据输入数据ST进行输入编码,训练中文GPT2预训练模型从嵌入矩阵中查找汉字对应的嵌入向量,根据<s>起始标识符和各汉字在ST中的位置,得到各汉字的位置编码向量:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中:St表示输入数据ST中的汉字,token表示定义的嵌入矩阵表,定义了各汉字对应的嵌入向量,X表示嵌入向量,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中:pos表示当前字在句子中的位置,i表示向量中每个值的index,model表示模型自定义参数,偶数位置,使用正弦编码,奇数位置,使用余弦编码,PE表示位置编码向量;步骤1

4:各汉字的嵌入向量X和位置编码向量PE相加后构成表示向量:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)将表示向量输入到所述中文GPT2预训练模型中的Decoder模块中,所述Decoder模块根据自注意力机制为每个汉字都赋予一个相关度得分,经过向量表征求和,得到各字词之间的关联概率:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)P表示各字词关联概率,为模型内置向量、自定义数值、向量维数,与表示向量保持一致,softmax()为归一化概率函数;步骤1

5:经过步骤1

4微调后的中文GPT2预训练模块,能够根据ST中的待消歧句子实体提及m和对应的别名名称,结合待消歧实体下文信息cx_u和待消歧实体提及类型ty信息,与候选实体知识库中的候选实体信息之间,计算相似值,设置相似值阈值,选择大于相似值阈值的候选实体:
ꢀꢀꢀꢀ
(6)E表示所有候选实体集,ei表示候选实体,sorce()表示计算候选实体与ST之间的相似值函数,p表示自定义的相似值阈值。4.根据权利要求3所述一种面向中文冠心病诊断报告的命名实体消歧方法,其特征在于:所述实体别名表为根据医学知识信息制定,包括相同含义的多种名称、英文简称对应的中文名称和名称类型,所述候选实体知识库包含内容为:{ID,标准临床医学名称,实体类型,实体相关信息描述},所述实体相关信息描述长度限制在20个字之内。5.根据权利要求3所述一种面向中文冠心病诊断报告的命名实体消歧方法,其特征在于:所述候选实体排序阶段由中文Longformer层、Linear Layer层、Start softmax层、End softmax层、联合概率层、阈值选择层和候选实体存储模块构成,具体包括如下步骤:步骤2

1:将候选实体生成阶段生成的候选实体集与冠心病诊断报告中文命名实体数据集中的句子内容进行拼接,新的句子内容为{m,ma1,ma2,cx_o,cx_u,ty,e1,e2

},新的句子内容中的别名名称ma1、ma2与候选实体中的e1、e2的名称对应,当新的句子内容输入到所述中文Longformer层中时,需要根据所述中文Longformer层要求将输入数据格式修改为:[CLS]cx_o<t>m</t>cx_u[SEP][E](ma1|m)e1[SEP][E](ma2|m)e2[SEP],其中[CLS]为起始标识符,<t></t>为实体提及标识符,(ma1|m)表示若别名名称ma与候选实体e对应则选择mae1为一个候选字段me,若没有别名名称ma与候选实体e对应,则将待消歧句子实体提及m与候选实体组成一个候选字段me;步骤2

2:中文 Longformer层将待消歧句子实体提及m和各候选字段me设置为全局注意力,其他字段设置为局部注意力,提高对候选字段的筛选能力;
步骤2

3:输入数据经过中文Longformer层处理后,将得到各字词之间...

【专利技术属性】
技术研发人员:郭永安王园梦钱琪杰王宇翱孙洪波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1