当前位置: 首页 > 专利查询>北京大学专利>正文

一种医学疾病诊断记录中实体消歧的方法技术

技术编号:15822948 阅读:88 留言:0更新日期:2017-07-15 05:04
本发明专利技术公布了一种疾病诊断记录中实体名称消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体名称进行消歧。利用待消歧实体名称和候选实体名称之间的相似度作为局部信息,并将同一条记录中其它待消歧实体对当前待消歧实体的贡献作为全局信息,能提升医学实体名称消歧的准确率;根据疾病诊断记录和标注数据建立异构伴病网络,更直观可信的反映疾病与疾病、疾病与手术之间关系,准确、高效的将实体名称进行标准名称映射,解决诊断信息下医学疾病实体名称存在的歧义问题,满足实际应用需求。

【技术实现步骤摘要】
一种医学疾病诊断记录中实体消歧的方法
本专利技术涉及自然语言文本信息处理及医疗大数据挖掘领域,尤其涉及一种基于医学疾病诊断记录的疾病实体和手术实体消歧的方法。
技术介绍
医学疾病诊断记录包含病人诊断的主要疾病名称、次要诊断疾病名称(即伴随疾病名称)以及诊断疾病的手术等信息。对同一种疾病名称,由于疾病种类的繁多、医生经验差异等,同一疾病名称往往存在多种不同的表达形式,给医学电子病历数据的规范化带来很大挑战。命名实体消歧的任务是对于文本中给定的实体指称(指称指实体在某一文章或领域内的名称),将其和知识库中对应的实体建立映射关系。命名实体消歧旨在解决文本中广泛存在的名称歧义问题,在自然语言处理应用中发挥着重要的作用,可以用于有效解决语义网络、信息检索、信息抽取、自动问答等自然处理任务。实体消歧主要分为两个步骤:(1)候选实体生成;(2)候选实体排序。候选实体生成是利用实体的上下文信息对给定的知识库进行检索,得到候选实体集合,常用方法为利用维基百科生成命名词典进行匹配、对实体进行扩展的匹配和基于搜索引擎(如Google等)的匹配方法;候选实体排序指对生成的候选实体进行排序,常用的方法为监督和本文档来自技高网...
一种医学疾病诊断记录中实体消歧的方法

【技术保护点】
一种疾病诊断记录中实体消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体进行消歧;疾病诊断记录记作R={R

【技术特征摘要】
1.一种疾病诊断记录中实体消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体进行消歧;疾病诊断记录记作R={R1,R2,...RT|Ri,i=1,...T},Ri表示第i条疾病诊断记录,包含主诊断疾病名称、副诊断疾病名称以及手术名称,所述实体包括疾病实体和手术实体;疾病诊断记录中的医学标注数据记作D={D1,D2,...DK|Di,i=1,...K};所述方法以包含多个待消歧的实体mi(和oi)的待消歧记录r={m1,m2,...ml1;o1,o2,...ol2}作为输入,将待消歧记录r中每一个待消歧实体mi(和oi)对应的候选实体集合记为所有待消歧实体的候选实体集合记为针对待消歧记录r={m1,m2,...ml1;o1,o2,...ol2},所述方法包括如下步骤:1)根据医生疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}和医学标注数据D={D1,D2,...DK|Di,i=1,...K},构造异构伴病网络G=(V,E),异构伴病网络节点包括疾病节点和手术节点,其中疾病包括主诊断疾病和副诊断疾病,主诊断疾病对应手术;包括如下过程:11)将疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}中的第i条疾病诊断记录Ri表示为Ri={m1,m2,...ml1;o1,o2,...ol2},其中m1表示主诊断疾病名称;mi,i=2,...l1表示副诊断疾病名称;oi,i=1,...l2表示手术名称;每一条疾病诊断记录Ri中的每一个非标准实体记为mi(或oi)12)由标注数据D构建映射词典,找到每一个非标准实体mi(或oi)对应的标准实体,记为nmi(或noi);建立映射(mi,nmi)(或(oi,noi));13)将每一条疾病诊断记录Ri中的每个非标准疾病实体对应的标准实体作为伴病网络中的节点,每两个非标准疾病实体mi1、mi2对应的标准实体N(mi1)、N(mi2),i1≠i2之间存在一条边E=(N(mi1),N(mi2)),边(N(mi1),N(mi2))的权重通过式1计算得到:式1中,count(N(mi1),N(mi2))为N(mi1)、N(mi2)共同出现的疾病记录的条数;count(N(mi1),*)为包含N(mi1)的疾病记录的条数;count(*,N(mi2))为包含N(mi2)的疾病记录的条数;14)每一条疾病诊断记录Ri中每个非标准的手术实体对应的标准实体作为伴病网络中的节点,每两个不同非标准手术实体oi1、oi2对应的标准手术实体N(oi1)、N(oi2),i1≠i2之间存在一条边E=(N(oi1),N(oi2)),边的权重W(N(oi1),N(oi2))表示为(N(oi1),N(oi2))出现的次数占N(oi1)、N(oi2)分别出现的次数之和,通过式1计算得到;15)每一条疾病诊断记录Ri中的主诊断疾病实体m1对应的手术集合o={o1,...ol2},将每一个手术对应的标准实体作为异构伴病网络中的手术类型节点,m1、oi对应的标准实体N(m1)、N(oi)之间存在一条边,用(m1,oi)出现的次数占N(m1)、N(oi)分别出现的次数之和表示边的权重W(N(m1),N(oi));16)对每一条疾病诊断记录Ri,执行步骤12)、13)、14)、15),由此构建得到异构伴病网络G=(V,E);2)构造疾病层次关系网络Gm=(Vm,Em),表示疾病之间的所属关系;3)对一条待消歧疾病记录中的每一个实体mi、oi,经过数据预处理和多层过滤机制,从疾病编码库、手术编码库和所述疾病层次关系网络Gm中检索,得到候选实体集合(或);进一步得到所有待消歧实体的候选实体集合4)利用所有待消歧实体和相应的候选实体集合通过异构伴病网络G构建得到候选实体子图G'=(V',E');包括如下过程:41)对待消歧的疾病诊断记录中每一个待消歧实体mi(或oi),对应的候选实体集合按照的形式转化为由待消歧实体和候选实体构成的对,j∈[1,ci]作为由待消歧实体对应的候选实体构成的子图中的节点;当不同的待消歧实体对应同一个候选实体时,视为两个节点和42)对于41)中构造的节点,节点之间的边由所述异构伴病网络得到,构成子图中节点的边包括:疾病实体和疾病实体之间的边、手术实体和手术实体之间的边、疾病实体和手术实体之间的边;主诊断疾病实体对应的多个候选疾病实体与所有的手术候选实体之间的边;43)构造的子图中节点之间的边满足约束条件:同一待消歧实体mi(或oi)对应的候选实体之间没有边相连,表示为删去不满足上述约束条件的边;由步骤41)、42)和43),得到由待消歧实体对应的候选实体构成的异构子图G'=(V',E');5)对每一个待消歧实体,通过异构网络个性化网页排名算法He-PPR对所述待消歧实体对应的候选实体节点进行打分;具体包括如下步骤:51)异构网络中,节点e的贡献由异构网络中不同类型的节点同时决定;节点在随机游走时以概率α随...

【专利技术属性】
技术研发人员:宋国杰刘徽李鹏宇
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1