一种ICU电子病历知识图谱构建方法、系统和存储介质技术方案

技术编号:27774453 阅读:60 留言:0更新日期:2021-03-23 13:06
本发明专利技术公开了一种ICU电子病历知识图谱构建方法、系统及存储介质,包括:创建ICU患者特征数据集;通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据特征数据集反映的已有事实,构建基于事实的知识图谱,并在此基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建;利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者的Top k个相似电子病历。本发明专利技术采用基于事实和推理的方式构建ICU电子病历知识图谱,增加了ICU电子病历知识图谱的完备性。

【技术实现步骤摘要】
一种ICU电子病历知识图谱构建方法、系统和存储介质
本专利技术涉及医学电子病历知识图谱
,具体而言,尤其涉及ICU电子病历知识图谱构建方法、系统和存储介质。
技术介绍
在知识图谱的构建方面,由于ICU电子病历涉及到大量医学领域专业知识,这与其他领域知识表示有所差异,因此往往需要专家根据规则加入先验知识,但人工提取知识工作量大、耗时长,对于大型数据库人工方式难以实现。也有研究通过引入医学领域其他知识库来完善知识图谱,但不同知识库之间存在多样性和异构性,新引入的实体和关系与现有知识库中存在的实体和关系通常匹配度不高,这为多知识库之间的融合带来了挑战。因此,为避免引入新知识库,有研究采用知识图谱推理的方法来完善知识图谱,即通过知识库中已有事实来推断出未知规则,利用推理挖掘出更多隐含知识来完善知识图谱。目前,面向知识图谱的推理方法主要分为两类:基于演绎的知识图谱推理方法,如Datalog、产生式向前推理系统等;基于归纳的知识图谱推理方法,包括基于表示学习的推理(TransE、TransH、TransR模型)、AMIE基于规则推理等。但这些方法存在两个弊端:第一,以上方法产生的规则均为单个实体到单个实体之间的映射关系(如图1a所示),表示实体A与实体B之间关系为r,而无法表示出多对多的实体关系(如图1b所示);第二,AMIE等方法规则的产生依赖于实体与实体之间存在的链式结构r1(A,B)∧r2(B,C)→r3(A,C)(如图1c所示),这类规则的挖掘需要实体之间存在较强的逻辑关系,而对于ICU电子病历知识图谱而言,实体之间的逻辑连接性较弱,因此很难挖掘的出这一类的逻辑推理。
技术实现思路
为了解决上述现有技术中存在的弊端,本专利技术提供了一种基于事实和推理的ICU电子病历知识图谱构建方法和系统,采用基于事实和推理的方式构建ICU电子病历知识图谱,既能够涵盖已知事实的显性信息,又能通过关联规则算法挖掘出来的隐性信息来扩充图谱,以增加ICU电子病历知识图谱的完备性,同时也避免人工引入规则或多知识库融合带来的问题。本专利技术能有效解决ICU数据多样性强、实体之间关联性弱的弊端,通过构建完备的ICU电子病例知识图谱,有效挖掘出患者、疾病、用药情况等实体之间的潜在关系,并提出一种多对多实体关系的知识图谱表示方法,以提供更精准的电子病例相似度计算方法。本专利技术提供了以下技术方案:本专利技术提供了一种ICU电子病历知识图谱构建方法,所述方法包括:创建ICU患者特征数据集;对所述ICU患者特征数据集中的数据预处理;通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。进一步地,创建ICU患者特征数据集,包括:根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。进一步地,对所述ICU患者特征数据集中的数据预处理,包括:采用数据向上提升和记录精简的方式对所述ICU患者特征数据集中的数据预处理。进一步地,所述数据向上提升的提升策略包括:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构,T为大于1的正整数。进一步地,所述记录精简包括:通过引入统计类信息,精简记录数量。进一步地,基于事实和推理的ICU电子病历知识图谱构建包括:基于所述ICU患者特征集中记录的患者信息所反映的已有事实进行知识抽取,得到基于事实的知识图谱,包括:根据所述ICU患者特征集中记录的患者信息所反映的已有事实,构造基于事实的图结构Gfacts=<V,E,w>;其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;所述ICU患者特征集中记录的患者信息为已有事实;基于所述ICU患者特征集中记录的患者信息所反映的已有事实,构建事务数据库,每个患者的特征集合表示一个事务;基于所述事务数据库,利用关联规则挖掘算法生成用于反映所述事务间关联关系的多条关联规则,实现基于推理进行知识抽取过程;引入第i条关联规则Rule(i),i从1开始,并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)';所述第i条关联规则Rule(i)为:其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作RHS(i)包含元素的集合记作confi表示Rule(i)的置信度,取值范围为[0,1];遍历所有符合条件的顶点P,当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即w(L(i)',R(i)')=confi;当前图构成顶点、边与权重的集合分别用V'、E'、w'表示,更新图结构G'=<V',E',w'>;当所有符合条件的顶点P遍历结束时,更新i=i+1,按照上述引入第i条关联规则Rule(i)的方式,遍历下一条关联规则;当所有关联规则遍历结束时,算法终止,返回基于关联规则的图结构Grules=G'=<V',E',w'>。进一步地,所述基于事实和推理的图嵌入方法包括:根据传统随机游走算法生成初始路径序列paths=[path1,path2,...,pathP],P表示所有子路径的数量;根据图结构Grules中顶点node(v)与顶点包含元素列表element_list(v)构成的键值对dict(v)={node(v):element_list(v)},v=1,2,...,|V|,V表示Grules中顶点数量;通过键值对dict(v)映射关系,找到子路径p中每个节点v'的键值对dictp(v')={nodep(v'):element_listp(v')},p=1,2,...,|P|,v'=1,2,...,|N|,N表示子路径pathp的长度;计算子路径p中每个节点v'的元素列表长度len_elmp(v')=len(element_listp(v')),p=1,2,...,|P|,v'=1,2,...,|N|本文档来自技高网
...

【技术保护点】
1.一种ICU电子病历知识图谱构建方法,其特征在于,所述方法包括:/n创建ICU患者特征数据集;/n对所述ICU患者特征数据集中的数据预处理;/n通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;/n利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;/n计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。/n

【技术特征摘要】
1.一种ICU电子病历知识图谱构建方法,其特征在于,所述方法包括:
创建ICU患者特征数据集;
对所述ICU患者特征数据集中的数据预处理;
通过预处理后的ICU患者特征数据集和关联规则挖掘算法分别进行事实和推理的知识抽取,并采用三元组形式表示知识;根据所述ICU患者特征数据集反映的已有事实,构建基于事实的知识图谱,并在所述基于事实的知识图谱的基础上,将多对多实体之间的推理知识映射到图结构中,完成基于事实和推理的ICU电子病历知识图谱构建过程;
利用基于事实和推理的图嵌入方法,生成每个患者特征映射的低维稠密向量;
计算各个患者低维稠密向量之间的相似度矩阵,根据相似度排序返回给定患者排名靠前的k个相似电子病历,k为正整数。


2.根据权利要求1所述的方法,其特征在于,创建ICU患者特征数据集,包括:根据ICU电子病历采集患者信息,提取多维度属性来描述患者特征,每类信息所包含的具体属性用来描述患者的特征,进而创建ICU患者特征数据集。


3.根据权利要求1所述的方法,其特征在于,对所述ICU患者特征数据集中的数据预处理,包括:采用数据向上提升和记录精简的方式对所述ICU患者特征数据集中的数据预处理。


4.根据权利要求3所述的方法,其特征在于,所述数据向上提升的提升策略包括:根据细粒度原始特征顶点之间的相似性逐层合并,得到T级提升树形结构,T为大于1的正整数。


5.根据权利要求3所述的方法,其特征在于,所述记录精简包括:通过引入统计类信息,精简记录数量。


6.根据权利要求1所述的方法,其特征在于,基于事实和推理的ICU电子病历知识图谱构建包括:
基于所述ICU患者特征集中记录的患者信息所反映的已有事实进行知识抽取,得到基于事实的知识图谱,包括:根据所述ICU患者特征集中记录的患者信息所反映的已有事实,构造基于事实的图结构Gfacts=<V,E,w>;其中,V、E分别表示图构成顶点和边的集合,w表示边的权重,顶点node1与顶点node2之间边的权重w<node1,node2>表示由顶点node1游走到node2的概率;当node1→node2是基于事实的描述时,其边的权重w(node1,node2)=1,即顶点node1游走到node2的概率;所述ICU患者特征集中记录的患者信息为已有事实;
基于所述ICU患者特征集中记录的患者信息所反映的已有事实,构建事务数据库,每个患者的特征集合表示一个事务;
基于所述事务数据库,利用关联规则挖掘算法生成用于反映所述事务间关联关系的多条关联规则,实现基于推理进行知识抽取过程;
引入第i条关联规则Rule(i),i从1开始,并构造LHS(i)和RHS(i)的虚拟顶点,分别记作L(i)'和R(i)';所述第i条关联规则Rule(i)为:









其中,LHS(i)和RHS(i)分别表示Rule(i)的先导和后继,LHS(i)包含元素的集合记作RHS(i)包含元素的集合记作confi表示Rule(i)的置信度,取值范围为[0,1];
遍历所有符合条件的顶点P,当Gfacts中存在顶点P的邻接顶点同时包含LHS(i)中所有元素时,新增顶点P指向虚拟顶点L(i)'的有向边,边的权重为w(P,L(i)')=1;新增虚拟顶点L(i)'指向虚拟顶点R(i)'的有向边,边的权重为Rule(i)的置信度,即...

【专利技术属性】
技术研发人员:孙箫宇李雪于丹来关军魏泽林张帅包一平王宇
申请(专利权)人:大连东软教育科技集团有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1