一种基于表示学习的医学知识图谱实体对齐方法技术

技术编号:24574676 阅读:22 留言:0更新日期:2020-06-21 00:12
本发明专利技术提供了一种基于表示学习的医学知识图谱实体对齐方法,实体的完全字符串匹配,去除公有实体得到待对齐实体;通过知识表示学习模型对两个知识图谱中的三元组进行训练,得到每个实体的嵌入向量;计算待对齐实体与标准实体的语义距离,找出语义距离值最高的前十个推荐实体;通过构造医学知识数据的词根集,去除词根完全不同的候选实体;判断待对齐实体与推荐实体是否为同一科室和部位,去除推荐实体中不可靠的结果;将最后获得的待对齐实体与推荐实体进行标注,找出推荐实体中与待对齐实体指向相同的实体,完成实体对齐。本发明专利技术在表示学习的基础上,根据医学领域知识的特点,加入词根和规则对候选实体进行筛选,得到更精确的实体对齐结果。

An entity alignment method of medical knowledge map based on representation learning

【技术实现步骤摘要】
一种基于表示学习的医学知识图谱实体对齐方法
本专利技术属于自然语言处理
,尤其涉及一种基于表示学习的医学知识图谱实体对齐方法。
技术介绍
随着互联网的发展,互联网医学科普搜索需求急剧增加,互联网上现有的医学科普网站种类繁多,比如疾病百科网、39健康网、寻医问药网等。虽然这些网站包含丰富的医疗知识,但是网站导航过于专业让普通用户无法快速找到所需的内容,而且缺乏针对性,无法根据用户的不同问题给出针对性的回答,因此,基于知识图谱技术构建智慧医疗的任务刻不容缓。知识图谱是一种大规模的语义网络,以三元组(头实体,关系,尾实体)的形式表示知识,在信息检索、智能问答、推荐系统等领域广为应用,然而医学知识图谱数据来源众多,通常包含了大量相互重合的三元组信息。如果要同时使用不同数据源的医学知识图谱,就必须将实体进行对齐来判断差别数据源中的不同实体是否指向现实世界中的同一事物。由于医学领域对于实体对齐结果的精度要求非常高,给在该领域实现对齐工作带来了巨大的挑战。通过对现有的专利及相关技术的检索发现,针对医学领域的实体对齐方法几乎没有,但在通用知识图谱本文档来自技高网...

【技术保护点】
1.一种基于表示学习的医学知识图谱实体对齐方法,其特征在于,包括以下步骤:/nS1、去除标准医学知识图谱K

【技术特征摘要】
1.一种基于表示学习的医学知识图谱实体对齐方法,其特征在于,包括以下步骤:
S1、去除标准医学知识图谱K1和待对齐医学知识图谱K2中的公有实体,得到标准医学知识图谱K1的剩余实体E′1和待对齐医学知识图谱K2的剩余实体E′2;
S2、通过知识表示学习模型分别对标准医学知识图谱K1和待对齐医学知识图谱K2中所有的三元组T1和T2进行训练,得到剩余实体E′1中每个实体的嵌入向量和剩余实体E′2中每个实体的嵌入向量;
S3、利用余弦相似度函数计算得到剩余实体E′1中每个实体的嵌入向量和剩余实体E′2中每个实体的嵌入向量的相似度值,并根据所述相似度值得到剩余实体E′2中每个待对齐实体与剩余实体E′1中所有实体相似度值最高的前十个推荐实体;
S4、根据标准医学知识图谱K1的所有实体E1和待对齐医学知识图谱K2中的所有实体E2构造词根集,并利用词根集获取剩余实体E′2中待对齐实体的词根与所述前十个推荐实体的词根,并去除词根不相同的推荐实体;
S5、判断所述剩余实体E′2中待对齐实体所在的科室或部位是否与经删除不同词根后的推荐实体{e1,e2,...,em}所在的科室或部位相同,若是,则保留该推荐实体,否则,删除该推荐实体,并根据判断结果得到新的推荐实体{e1,e2,...,el},其中,m表示删除不同词根后的推荐实体数,l表示删除不同科室或部位后的推荐实体数;
S6、将剩余实体E′2中待对齐实体与步骤S5中新的推荐实体{e1,e2,...,el}进行标注,并找出新的推荐实体{e1,e2,...,el}与剩余实体E′2中待对齐实体指向相同的实体,从而完成医学知识图谱实体对齐。


2.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S3中相似度值的表达式如下:



其中,表示相似度值,表示剩余实体E′1中每个实体的嵌入向量,表示剩余实体E′2中每个实体的嵌入向量,和分别表示嵌入向量和的模。


3.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S4包括以下...

【专利技术属性】
技术研发人员:滕飞钟文许强李天瑞
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1