当前位置: 首页 > 专利查询>之江实验室专利>正文

基于异构图神经网络的医疗术语规范化系统及方法技术方案

技术编号:30834117 阅读:24 留言:0更新日期:2021-11-18 12:55
本发明专利技术公开了一种基于异构图神经网络的医疗术语规范化系统及方法,首先对各种类型的医疗术语构建关键的信息单元,实现医疗术语的结构化表示,并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络,在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码,用于进行医疗术语规范化。本发明专利技术能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识,同时容纳各种类型的医疗术语,能够全面学习医疗领域的知识,并且能够方便地将新类型的医疗术语增加到系统中,减少了新类型医疗术语规范化的工作量。减少了新类型医疗术语规范化的工作量。减少了新类型医疗术语规范化的工作量。

【技术实现步骤摘要】
基于异构图神经网络的医疗术语规范化系统及方法


[0001]本专利技术属于中文医学术语标准化及多中心医学信息平台
,尤其涉及一种基于异构图神经网络的医疗术语规范化系统及方法。

技术介绍

[0002]医疗信息化进程中一个重要的研究方向就是将更高性能的机器学习和人工智能技术应用于解决实际的临床问题。人工智能技术的一个优点是可以从海量数据中发现复杂的规律和特征,因此综合利用多家医疗机构的医疗数据进行分析挖掘和模型设计,进而为医疗研究、临床决策工作提供支持成为医疗信息化的必然趋势。而由于不同医疗机构采用的信息标准众多,并且经常会人为地产出半结构化和非结构化的数据,导致整合利用不同来源的医疗数据变得异常困难。医疗术语是组成医疗数据的基础要素,建立完善的医疗术语规范化体系可以将不同来源的医疗数据对齐到统一的标准和结构,进而为临床决策和医疗研究工作提供更大规模和更高质量的数据。医疗术语主要包括临床操作过程中产生的药物、医学检查、疾病等类型的术语。不同类型的医疗术语会包含特定的关键维度的信息,我们将其定义为医疗术语的信息单元。例如,药物术语“5%葡萄糖注射本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于异构图神经网络的医疗术语规范化系统,其特征在于,该系统包括:(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。2.根据权利要求1所述的系统,其特征在于,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。3.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,序列标注模型为BiLSTM

CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。4.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。5.根据权利要求1所述的系统,其特征在于,所述异构图神经网络模块中,用表示医疗术语知识图谱中的所有节点的集合,对于,记为其节点内容,为其内容编码;对于节点内容为数值型的节点,其内容编码为:其中为节点本身的数值;表示单位向量,随机初始化并通过异构图神经网络训练得到;
对于节点内容为计量单位的节点,其节点内容是由基础单位和运算符号组成的序列,设,其中为基础单位或运算符号,为的序列长度,则内容编码为:其中为异构图神经网络训练得到的参数矩阵;为每种基础单位或运算符号的语义向量,随机初始化并通过异构图神经网络训练得到;为向量拼接运算符;对于节点内容为文本型的节点,使用预训练的语言模型计算的语义向量作为的初始化的内容编码,并通过后续的异构图神经网络继续训练内容编码。6.根据权利要求5所述的系统,其特征在于,对于节点内容为文本型的节点,预训练的语言模型采用BERT模型,计算方式为:其中为B...

【专利技术属性】
技术研发人员:李劲松杨宗峰辛然田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1