多模态数据融合的医疗知识图谱智能自动构建系统和方法技术方案

技术编号:26377636 阅读:60 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供一种多模态数据融合的医疗知识图谱智能自动构建系统和方法,涉及知识图谱领域。本发明专利技术通过对预处理后的语料数据进行知识抽取,构建三元组数据,得到语料数据集;对语料数据集采用混合式方法进行实体属性扩充;对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;计算实体属性值融合后的语料数据集中的各个病症属性的权重;对三元组数据中的实体设置约束条件,将三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。本发明专利技术实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建,同时考虑到病症与疾病多对多,计算各个病症属性的权重,以便能准确的描述医疗数据,获得更准确的临床诊断结果。

【技术实现步骤摘要】
多模态数据融合的医疗知识图谱智能自动构建系统和方法
本专利技术涉及知识图谱
,具体涉及一种多模态数据融合的医疗知识图谱智能自动构建系统和方法。
技术介绍
知识图谱是利用可视化技术或结构化方式来描述实体和实体关系知识,为搜索引擎用户提供高质量的知识检索服务。其目的是为了提高搜索引擎的能力,提高搜索结果质量并提升用户的搜索体验。随着智能信息服务和应用的不断发展,知识图谱已在学术界和工业界普及,并在智能搜索、智慧问答、推荐系统等应用中发挥着重要的作用。随着医疗信息化的发展和智慧医疗建设的推进,大规模、多源、异构医疗健康数据资源逐渐形成。为了实现这些信息资源的有效管理和利用,需要构建医疗知识图谱,实现跨组织、跨云和跨系统医疗健康数据资源的语义融合,为医疗数据挖掘与知识发现奠定基础。通过将医学知识图谱化,可以实现医学数据的组织和关联。现有的医疗知识图谱的构建较少使用医院实际临床文本数据,大多基于互联网上公开的医学文献、诊疗指南或各种医疗网站的Web数据构建而成。且现有的医疗知识图谱的相关研究侧重于实体与实体之间的关系,采用<实体,关系本文档来自技高网...

【技术保护点】
1.一种多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,包括:/n数据获取及定义模块,用于获取语料数据,并定义所述语料数据中实体属性的类别;/n预处理模块,用于对所述语料数据进行预处理;/n数据抽取模块,用于对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;/n知识扩充模块,用于对语料数据集采用混合式方法进行实体属性扩充;/n融合模块,用于对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;/n权重计算模块,用于计算实体属性值融合后的语料数据集中的各个病症属性的权重;/n实体约束及存储模块,用于对<实体,属...

【技术特征摘要】
1.一种多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,包括:
数据获取及定义模块,用于获取语料数据,并定义所述语料数据中实体属性的类别;
预处理模块,用于对所述语料数据进行预处理;
数据抽取模块,用于对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
知识扩充模块,用于对语料数据集采用混合式方法进行实体属性扩充;
融合模块,用于对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
权重计算模块,用于计算实体属性值融合后的语料数据集中的各个病症属性的权重;
实体约束及存储模块,用于对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。


2.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述实体属性的类别包括:多值属性、固定型单值属性和非固定型单值属性。


3.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,包括:
若所述语料数据的类型为结构化数据,则从中抽取属性名称和属性值,依据属性名称和属性值构建<实体,属性,属性值>三元组数据,将其作为语料数据集;
若所述语料数据为非结构化数据或半结构化数据,则对其进行知识抽取,所述知识抽取包括命名实体识别、实体属性抽取;其中属性抽取是指对属性和属性值对的抽取;采用BiLSTM-CRF深度学习模型进行医疗实体抽取;采用基于规则的方法抽取半结构化数据中的属性、采用构建包装器的方法自动从相应网站中抽取属性,将抽取的内容转化为<实体,属性,属性值>三元组数据,作为语料数据集。


4.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,还包括:
若所述语料数据为半结构化数据时,基于所述语料数据构建知识抽取模板;利用所述知识抽取模板从语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集;
若所述语料数据为非结构化数据时,将所述语料数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用知识抽取模板从所述语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集,并将抽取的属性名称和属性值添加至预设词表。


5.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对语料数据集采用混合式方法进行实体属性扩充,包括:
基于模式匹配的方法对语料数据集进行实体属性知识扩充、基于属性词汇场的方法对语料数据集进行实体属性知识扩充、基于监督学习的方法对语料数据集进行实体属性知识扩充和基于搜索引擎问答的方法对语料数据集进行实体属性知识扩充。


6.如权利要求1~5任一所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述融合模块对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合,包括:
当实体属性为多值属性时:
计算每个候选属性值的出现的次数,将候选属性值去重、排序后,通过直接合并的方式获取多值属性的属性值;多值属性的候选属性值排序规则是按照抽取来源的权重和出现次数加权计算可信...

【专利技术属性】
技术研发人员:顾东晓姚晗王晓玉杨雪洁苏凯翔赵旺周晨
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1