一种面向辅助诊断的知识图谱构建方法技术

技术编号：35447540 阅读：14 留言：0更新日期：2022-11-03 12:01

本发明专利技术公开了一种面向辅助诊断的知识图谱构建方法，该方法首先提出基于Multi

全部详细技术资料下载

【技术实现步骤摘要】
一种面向辅助诊断的知识图谱构建方法

[0001]本专利技术涉及一种面向辅助诊断的知识图谱构建方法，属于互联网与人工智能

技术介绍

[0002]目前各国人民都在不同程度上遭受着各类疾病的困扰，而疾病领域的防治工作高度依赖于医务人员或专家的经验和知识，因病理复杂、医疗资源有限等问题，社会为公众提供全面有效的疾病防治举措仍有着不小的挑战。所以使用计算机辅助疾病的高风险预测是一个有前途且意义重大的研究课题，可以有效缓解医疗资源紧缺的压力，并促进疾病防治工作。
[0003]随着互联网及人工智能时代的到来，医疗信息化与智慧医疗成为助推传统医疗稳步发展的新方向。在实际就诊中，电子病历逐步取代手写病历，在心血管疾病患者就诊过程中积累了以电子病历、健康记录等为代表的大量结构化与非结构化数据，这些数据是疾病领域重要的医疗信息资源，为该领域的数据挖掘与数据分析任务提供了强有力的数据基础。此外，在智慧医疗中辅助诊断系统广受医疗服务提供商的重视，其各类产品被广泛应用在不同疾病场景中，而基于知识图谱的诊断辅助系统开发更是该领域中的研究热点之一，知识图谱的知识关系与存储特性可以有效地从众多疾病医疗数据中提炼有效信息，以它作为医生的辅助工具对于提升医生的工作效率、解放生产力、缓解医疗资源紧缺以及自动化研究与预防心血管疾病都具有重大意义。但是因为疾病数据多源异构的问题，难以准确地构建出面向疾病辅助诊断的知识图谱，因此，如何设计一种有效的方法来处理多维异构疾病相关数据，准确构建出面向疾病辅助诊断的知识图谱成为一个极其重要的问题。/>
技术实现思路

[0004]针对如何有效组织多源异构的疾病数据问题，本专利技术提出一种面向辅助诊断的知识图谱构建方法，首先提出基于Multi
‑
Attention结构的知识抽取算法以及基于包装器的知识抽取方法，对医学网站公开数据与电子病历数据进行高效准确的抽取工作，然后提出针对多源异构数据特点的多方案知识融合策略，解决了知识冗余、存在歧义问题，最后给出针对多源异构数据特点的知识表示与优化方案，完成面向疾病辅助诊断的知识图谱构建。
[0005]为实现上述专利技术目的，本专利技术通过以下技术方案来实现：
[0006]一种面向辅助诊断的知识图谱构建方法，包括以下步骤：
[0007]步骤1，构建心血管疾病语料库，使用基于包装器的知识抽取方法对专业医学网站公开数据进行抽取工作，构建原始语料库；
[0008]步骤2，使用基于Multi
‑
Attention结构的知识抽取算法对非结构化医疗记录数据进行抽取工作，补充疾病语料库；
[0009]步骤3，使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并；通过基于聚类算法的实体消歧、基于Pandans的知识合并
和基于Fusion相似度的实体链接解决知识冗余、歧义问题；
[0010]步骤4，进一步进行数据优化，通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。
[0011]进一步地，所述步骤1具体包括如下步骤：
[0012]利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取；包装器是一种基于规则的文本信息抽取模型，包括：规则库、规则执行模块和信息转换模块；爬取工作时构造user
‑
agent集合，在每次请求时随机选一个user
‑
agent；并在每次抓取后用time.sleep暂停几秒再进行下次爬虫，最后将抽取的信息保存为csv文件供后续处理。
[0013]进一步地，所述步骤2具体包括如下步骤：
[0014]利用基于多头注意力结构的BERT
‑
Bi
‑
LSTM
‑
CRF模型完成面向电子病历等医疗记录非结构化数据的知识抽取；模型分为三层：BERT预训练模型、Bi
‑
LSTM语义融合层和CRF最优化输出层；标注好的数据输入模型后首先经过第一层BERT预训练模型，结合多头注意力模型实现文本向量化，在抽取过程中同时关注不同位置来输入不同表示子空间的信息，而且多个注意力层并行计算；之后将文本的向量表示序列输入第二层Bi
‑
LSTM语义融合层，进行进一步的语义编码获得全局的序列特征；最后数据进入第三层CRF最优化输出层，使得输出不仅是概率最大的也是最符合语义的标签序列。
[0015]进一步的，所述步骤3具体包括如下步骤：
[0016]采用了改进的K
‑
Means算法，自动完成聚类类别个数的确定工作，进行聚类消歧；通过Pandas将重叠的结构化数据合并到现有的知识库；采用Fusion相似度的计算方法将从非结构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接。
[0017]进一步的，所述改进的K
‑
Means算法流程如下：
[0018]要处理的文件n初始化簇数，k为患有不同疾病D1、D2的收集文件，为的整数部分；根据下式选择一个初始聚合点
[0019][0020]将聚合点S存放在集合中，将索引和最小距离存放在集合S'中；计算两个聚类点之间最小距离的差值，存入集合S”；从寻找距离差最大的S”点开始，将之前的聚合点保存到集合S中；从这个聚类中心k开始，应用K
‑
means聚类算法得到聚类结果；能够自动获得k个聚类中心，并得到最终的文档集，完成消歧任务。
[0021]进一步的，所述步骤4具体包括如下步骤：
[0022]采用基于向量方差算法通过去除与域无关的节点和它们包含的关系完成对知识图谱的进一步优化，通过领域专家进行补充和修正来完成知识表示，使用Neo4j图数据库对知识图谱进行可视化储存。
[0023]进一步的，所述向量方差算法包括如下流程：
[0024]将关系集视为有向图，其中S
i
是包含在f
j
中的节点，n是S
i
中链接的数量，e
k
表示从S
i
到f
j
的路径上的边，其权重为w(e
k
)，E{e1,e2,
…
e
n
}表示从节点S
i
到f
j
的路径集，P{p1,p2,
…
p
m
}表示从节点S
i
到f
j
的整个路径；使用以下公式计算节点S
i
到f
j
的隶属度：
[0025][0026][0027][0028]并通过设置阈值移除与域无关的节点及其包含的关系。
[0029]与现有技术相比，本专利技术具有如下有益效果：
[0030]本专利技术能够处理多维异构疾病相关数据，准确地构建出面向疾病辅助诊断的知识图谱。相比其他方法，本专利技术方法聚焦疾病数据的多源本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向辅助诊断的知识图谱构建方法，其特征在于，包括以下步骤：步骤1，构建心血管疾病语料库，使用基于包装器的知识抽取方法对专业医学网站公开数据进行抽取工作，构建原始语料库；步骤2，使用基于Multi
‑
Attention结构的知识抽取算法对非结构化医疗记录数据进行抽取工作，补充疾病语料库；步骤3，使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并；通过基于聚类算法的实体消歧、基于Pandans的知识合并和基于Fusion相似度的实体链接解决知识冗余、歧义问题；步骤4，进一步进行数据优化，通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。2.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤1具体包括如下步骤：利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取；包装器是一种基于规则的文本信息抽取模型，包括：规则库、规则执行模块和信息转换模块；爬取工作时构造user
‑
agent集合，在每次请求时随机选一个user
‑
agent；并在每次抓取后用time.sleep暂停几秒再进行下次爬虫，最后将抽取的信息保存为csv文件供后续处理。3.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤2具体包括如下步骤：利用基于多头注意力结构的BERT
‑
Bi
‑
LSTM
‑
CRF模型完成面向电子病历等医疗记录非结构化数据的知识抽取；模型分为三层：BERT预训练模型、Bi
‑
LSTM语义融合层和CRF最优化输出层；标注好的数据输入模型后首先经过第一层BERT预训练模型，结合多头注意力模型实现文本向量化，在抽取过程中同时关注不同位置来输入不同表示子空间的信息，而且多个注意力层并行计算；之后将文本的向量表示序列输入第二层Bi
‑
LSTM语义融合层，进行进一步的语义编码获得全局的序列特征；最后数据进入第三层CRF最优化输出层，使得输出不仅是概率最大的也是最符合语义的标签序列。4.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤3具体包括如下步骤：采用了改进的K
‑<...

【专利技术属性】
技术研发人员：杨鹏，王超余，冷俊成，胡皓楠，解然，
申请(专利权)人：浙江华巽科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人