一种管道式高鲁棒性医学知识图谱标准化构建方法技术

技术编号:38044958 阅读:9 留言:0更新日期:2023-06-30 11:11
本申请提供一种管道式的高鲁棒性标准化医疗知识图谱构建方法及装置,该方法包括:枚举医学文本中所有候选实体词跨度进行悬浮标记,将所有候选实体词跨度的悬浮标记附加到医学文本后作为一个训练实例,对实体词跨度的悬浮标记进行分组,利用预训练语言模型获取每一组中实体词跨度的语境化表示,根据语境化表示,利用神经网络结构输出实体类型信息;根据语境化表示和实体类型信息编码,得到实体类别信息之间的关系类别,并输出关系信息;利用实体类型信息和关系信息与医学术语标准进行对齐,构建医学知识图谱。构建医学知识图谱。构建医学知识图谱。

【技术实现步骤摘要】
一种管道式高鲁棒性医学知识图谱标准化构建方法


[0001]本申请涉及医学信息知识图谱
,尤其涉及一种管道式高鲁棒性医学知识图谱标准化构建方法。

技术介绍

[0002]临床文本实体抽取是针对医学文本的重要自然语言处理技术,用于提取其中大量的专业知识和丰富的有用信息。相关技术中的临床文本实体抽取方法主要包括基于规则的、基于传统机器学习和深度学习的方法。
[0003]而相关技术中基于规则的医疗实体抽取方法在领域词典足够完善的情况下,当制定的规则能够对目标领域文本的特征精准描述时,基于规则的方法将会有比其他方法更好的表现。但是,制定领域规则模板和维护领域词典耗时耗力,并且对专业知识的要求很高。不同的领域具有不同的规则与词典,导致该方法的可迁移性较差。
[0004]基于传统机器学习的方法需要大量人工标记的数据集对模型参数进行训练,而现有可用的大规模医疗数据集比较稀缺。并且,基于机器学习的方法需要专家手动选择对命名实体识别任务有影响的各种特征,这意味着昂贵的标注成本。
[0005]基于深度学习的医疗命名实体识别模型一般包括输入层、嵌入层、编码层、解码层和输出层。嵌入层的语言模型可从输入的医疗文本中学习到语义、语法知识并将其向量化表示,主要有基于词的表示、基于字的表示以及基于字信息和词信息的混合表示;编码层使用CNN、RNN、Transformer等网络结构对嵌入层传入的信息进行特征提取并编码;解码层利用解码器对编码层的输出结果进行标签预测,最终输出最佳标签序列。
[0006]而相关技术中,即便利用悬浮标记代替固定标记,也只是简单地进行替换,实现高效的批处理计算,但是牺牲了实体提取模型的性能。

技术实现思路

[0007]有鉴于此,本申请的目的在于提出一种管道式高鲁棒性医学知识图谱标准化构建方法及装置。
[0008]基于上述目的,第一方面,本申请提供了一种管道式高鲁棒性医学知识图谱标准化构建方法,该方法包括:
[0009]枚举医学文本中所有候选实体词跨度进行悬浮标记,将所有所述候选实体词跨度的悬浮标记附加到所述医学文本后作为一个训练实例,对所述实体词跨度的悬浮标记进行分组,利用预训练语言模型获取每一组中所述实体词跨度的语境化表示,根据所述语境化表示,利用神经网络结构输出实体类型信息;
[0010]根据所述语境化表示和所述实体类型信息编码,得到所述实体类别信息之间的关系类别,并输出关系信息;
[0011]利用所述实体类型信息和所述关系信息与医学术语标准进行对齐,构建医学知识图谱。
[0012]可选的,所述候选实体词包括:开始词和结束词;
[0013]所述枚举医学文本中所有候选实体词跨度进行悬浮标记,包括:
[0014]以所述医学文本中的每个字分别作为开始词,以所述开始词及开始词之后的字分别作为结束词;
[0015]应用注意力掩码矩阵,对以所述开始词至所述结束词为跨度的候选实体词依次进行悬浮标记;
[0016]其中,每个所述悬浮标记在注意力掩码矩阵中对同跨度内的另一个悬浮标记可见,对其他跨度的悬浮标记不可见。
[0017]可选的,对所述实体词跨度的悬浮标记进行分组,包括:
[0018]对所述依次进行的悬浮标记进行排序;
[0019]将所述悬浮标记划分为大小为K的组,将位置相邻的所述跨度优先划分到同一个组中,其中K为一个组里最大跨度数;
[0020]分别对每个组的所述悬浮标记进行并行处理。
[0021]可选的,根据所述语境化表示和所述实体类型信息编码,得到所述实体类别信息之间的关系类别,并输出关系信息,包括:
[0022]获取利用预训练语言模型得到的每一组中所述实体词跨度的语境化表示向量;
[0023]获取所述实体类别信息编码成固定维度的向量;
[0024]拼接所述语境化表示向量和所述实体类别信息编码成固定维度的向量预测出所述实体类别信息中的主实体与客实体之间所属每个关系的类别。
[0025]可选的,所述拼接所述语境化的表示编码向量和所述实体类别信息编码成固定维度的向量预测出所述实体类别信息中的主实体与客实体之间所属每个关系的类别,包括:
[0026]将拼接的所述语境化表示编码向量和所述实体类别信息编码成固定维度的向量并行通过基于前馈神经网络的FFN

head和FFN

tail,分别得到FFN

head输出向量和FFN

tail输出向量;
[0027]将所述FFN

head输出向量和所述FFN

tail输出向量通过分类网络,预测出所述主实体与所述客实体之间所述每个关系的类别。
[0028]可选的,所述将所述实体类型信息、所述关系信息与医学术语标准进行对齐,包括:
[0029]通过框架匹配,结合元素级匹配和结构级匹配,将字符串相似度s
str
、属性集的相似度s
attr
、关系结构的相似度s
rel
综合计算所述实体类型信息与医学术语标准的相似度;
[0030]响应于所述实体类型信息与医学术语标准的相似度大于阈值,则认为所述实体类型信息中的医学实体与所述医学术语标准为同一医学实体;
[0031]响应于所述实体类型信息医学术语标准的相似度小于和/或等于阈值,则认为所述实体类型信息中的医学实体与所述医学术语标准非同一医学实体,保留原始所述医学文本。
[0032]可选的,所述将所述实体信息及所述关系信息进行对齐之前,还包括:
[0033]采用neo4j存储对所述实体信息及所述关系信息进行存储。
[0034]第二方面,本申请提供一种管道式高鲁棒性医学知识图谱标准化构建装置,包括:
[0035]实体抽取模块,用于对医学文本中的所有候选实体词跨度进行悬浮标记并分组,
提取所述候选实体词跨度中的实体类型信息;
[0036]关系抽取模块,对所述实体类型信息进行关系提取,并预测所述实体类型信息之间所属每个关系的类别,输出关系信息;
[0037]医疗知识图谱构建模块,用于对所述实体类型信息、所述关系信息与医学术语标准进行对齐,构建医学知识图谱。
[0038]存储模块,用于存储所述实体类型信息及所述关系信息进行存储。
[0039]第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的方法。
[0040]第四方面,本申请提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行上述所述的方法。
[0041]从上面所述可以看出,本申请提供的一种管道式高鲁棒性医学知识图谱标准化构建方法及装置,在获取医疗文本场景下,实体信息抽取阶段克服相关技术中难以充分学习上下文语境信息的限本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种管道式高鲁棒性医学知识图谱标准化构建方法,其特征在于,该方法包括:枚举医学文本中所有候选实体词跨度进行悬浮标记,将所有所述候选实体词跨度的悬浮标记附加到所述医学文本后作为一个训练实例,对所述实体词跨度的悬浮标记进行分组,利用预训练语言模型获取每一组中所述实体词跨度的语境化表示,根据所述语境化表示,利用神经网络结构输出实体类型信息;根据所述语境化表示和所述实体类型信息编码,得到所述实体类别信息之间的关系类别,并输出关系信息;利用所述实体类型信息和所述关系信息与医学术语标准进行对齐,构建医学信息知识图谱。2.根据权利要求1所述的方法,其特征在于,所述候选实体词包括:开始词和结束词;所述枚举医学文本中所有候选实体词跨度进行悬浮标记,包括:以所述医学文本中的每个字分别作为所述开始词,以所述开始词及所述开始词之后的字分别作为所述结束词;应用注意力掩码矩阵,以所述开始词至所述结束词为跨度对所有所述候选实体词依次进行悬浮标记;其中,每个所述悬浮标记在注意力掩码矩阵中对同跨度内的另一个悬浮标记可见,对其他跨度的悬浮标记不可见。3.根据权利要求2所述的方法,其特征在于,对所述实体词跨度的悬浮标记进行分组,包括:对所述依次进行的悬浮标记进行排序;将所述悬浮标记划分为大小为K的组,将位置相邻的所述跨度优先划分到同一个组中,其中K为一个组里最大跨度数;分别对每个组的所述悬浮标记进行并行处理。4.根据权利要求1所述的方法,其特征在于,根据所述语境化表示和所述实体类型信息编码,得到所述实体类别信息之间的关系类别,并输出关系信息,包括:获取利用预训练语言模型得到的每一组中所述实体词跨度的语境化表示向量;获取所述实体类别信息编码成固定维度的向量;拼接所述语境化表示向量和所述实体类别信息编码成固定维度的向量预测出所述实体类别信息中的主实体与客实体之间所属每个关系的类别。5.根据权力要求4所述的方法,其特征在于,所述拼接所述语境化的表示编码向量和所述实体类别信息编码成固定维度的向量预测出所述实体类别信息中的主实体与客实体之间所属每个关系的类别,包括:将拼接的所述语境化表示编码向量和所述实体类别信息编码成固定维度的向量并行通过基于前馈神经网络的FFN

head和FFN

【专利技术属性】
技术研发人员:王光宇张将将范龙君张平刘晓鸿
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1