当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于知识图谱与注意力机制的心血管疾病预测方法技术

技术编号:35177179 阅读:45 留言:0更新日期:2022-10-12 17:44
本发明专利技术公开了一种基于知识图谱与注意力机制的心血管疾病预测方法,该方法首先构建心血管疾病语料库;接着构建心血管疾病领域知识图谱,对心血管疾病语料库中的原始文章,提取心血管疾病属性信息,构建知识图谱关系网;然后提取心血管疾病描述文本特征向量,根据知识图谱中心血管疾病和症状的关系,获取文本中症状实体,利用TransR知识表示模型对症状进行向量表示,通过基于注意力机制的LSTM(A

【技术实现步骤摘要】
一种基于知识图谱与注意力机制的心血管疾病预测方法


[0001]本专利技术涉及一种基于知识图谱与注意力机制的心血管疾病预测方法,属于互联网与人工智能


技术介绍

[0002]心血管疾病(CVDs)是全球死亡的主要原因。在2015年全球报告的5770万人死亡中,有1790万人死于心血管疾病。此外,心血管疾病给患者带来不可忽视的经济负担并导致严重的终生残疾。然而,据估计90%的CVDs可以通过适当的措施预防。因此,预测个体CVDs 的发作在医学领域具有重要意义。已经有一些公认的病理措施来检测CVDs标志物,例如心电图(ECG)和血管造影,血管造影是医学领域对心血管疾病的权威诊断方法,通常具有较高的准确率。然而血管造影通常昂贵且具有侵袭性,心电图是另一种常见的心血管疾病诊断和预测方法,其在医学领域的准确性高度依赖于医务人员或专家的经验和知识。所以计算机辅助的CVDs高风险预测是一个有前途且意义重大的研究课题。基于机器学习的高风险预测的传统任务旨在获得一个自动化的计算机系统,这应该是从患者的历史电子健康记录(EHR) 中提取的潜在和关键特征。与那些传统的病理措施相比,它具有可操作性、无创性和低成本的特点。
[0003]以EHR为基础的高风险预测任务的关键挑战是如何获得患者的准确画像,也称为患者表征学习或特征工程。EHR由患者的各种信息组成,可以表示为按时间排序的医院就诊序列,每一次就诊都包含大量医学变量,例如人口统计、诊断、药物、程序、实验室检查结果和生命体征。EHR系统中独特的医学变量的数量通常非常大,因此许多现有的预测模型设法通过各种降维技术以稀疏特征表示来处理它。传统的人工干预特征工程措施通常可扩展性和泛化性较差,因为它们高度依赖研究人员和特定EHR系统的个体经验。近年来,一些受自动特征表示启发的简单且可扩展的方法被提出,如One

Hot和Bag

of

Words(BoW)。然而在这些方法中,每个特征通常被视为一个离散且独立的词,这导致它们无法准确捕捉隐藏在特征之间的语义信息和EHR数据中的动态关联。因此,如何设计一种有效的方法来处理顺序、高维异构EHR数据的特征表示成为一个极其重要的问题。

技术实现思路

[0004]针对现有技术中存在的问题与不足,本专利技术提出一种融合知识图谱与注意力机制的心血管疾病预测方法,使用融合知识图谱与注意力机制的预测模型,用于预估心血管疾病的发作。该方法结合心血管疾病知识图谱和深度学习,根据心血管疾病知识图谱中与心血管疾病相关的实体信息来提取用户提供文本中的相关实体,以丰富心血管疾病特征,进而和其心血管疾病图像一起通过深度神经网络模型进行分析,最终对心血管疾病进行预测。
[0005]为实现上述专利技术目的,本专利技术通过以下技术方案来实现:
[0006]一种基于知识图谱与注意力机制的心血管疾病预测方法,包括以下步骤:
[0007]步骤1,构建心血管疾病语料库,通过分布式网络爬虫定时采集心血管疾病的知识文章,通过包装器进行初步过滤,构建原始语料库;
[0008]步骤2,构建心血管疾病领域知识图谱,对心血管疾病语料库中的原始文章,分别利用规则集、命名实体识别、关键词提取方法提取心血管疾病属性信息,构建知识图谱关系网;
[0009]步骤3,提取心血管疾病描述文本特征向量:根据知识图谱中心血管疾病和症状的关系,获取文本中症状实体,利用TransR知识表示模型对症状进行向量表示,通过基于注意力机制的LSTM提取描述文本特征向量;
[0010]步骤4,、通过softmax分类器进行心血管疾病识别。
[0011]进一步地,所述步骤1具体包括如下步骤:
[0012]利用网络爬虫定时采集相关心血管疾病网站的原始数据,使用数据挖掘技术对基础知识库中知识数据的总数进行统计,并计算最小支持度计数;依次判断每条知识数据的计数是否满足最小支持度,并将满足最小支持度的知识数据输出,得到若干频繁1项集;读取频繁k

1 项集,根据剪枝算法产生频繁k项集,并计算频繁k项集的计数,k≥2;判断频繁k项集的计数是否满足最小支持度,若是,则令k的计数值加1,并返回上一步,若否,则输出频繁 k项集;遍历所有频繁1项集,获取若干频繁k项集,并使用基于词典的黑白名单机制过滤部分噪声数据;采集用户提供的心血管疾病相关数据;利用规则集对采集的数据进行初步过滤,并以文件库形式进行存储。
[0013]进一步地,所述步骤2具体包括如下步骤:
[0014]利用页面属性信息对原始语料库进行属性提取;针对复杂的文章采用BiLSTM

CRF模型进行命名实体识别;针对心血管疾病发病特征描述,采用基于TF

IDF的关键词提取方法进行心血管疾病特征实体进行提取;采用三元组方式表示提取的属性、属性名以及他们之间的关系;使用Neo4j进行知识图谱的存储和管理;采用基于TF

IDF的关键词提取方法进行心血管疾病特征实体进行提取,特征权重计划算术公式如下:
[0015][0016]其中,tf
ik
为特征项t
k
在文档d
t
中出现的次数,n
k
为包含特征项t
k
的文档数,N为文本总数;采用三元组方式表示提取的属性、属性名以及他们之间的关系;使用Neo4j进行知识图谱的存储和管理。
[0017]进一步的,所述步骤3具体包括如下步骤:
[0018]利用TransR知识表示模型对知识图谱的数据进行训练,根据知识图谱提取描述文本的心血管疾病实体,经过TransR知识表示模型得到实体矩阵E
m
×
k
,其中,k为实体向量的维度,m为描述文本中实体的个数;将描述文本的实体矩阵E
m
×
k
作为BiLSTM网络的输入,利用基于注意力机制的LSTM进行文本特征提取,并选择最后一个LSTM单元的输出向量作为描述文本特征向量,其中表示LSTM隐层的特征向量,其公式如下:
[0019][0020]进一步的,TransR知识表示模型训练时,优化器采用鲸鱼优化算法。
[0021]进一步的,所述步骤4具体包括如下步骤:
[0022]将最终的患者表示向量连接到softmax层,利用softmax分类器获得心血管疾病的预测结果如下:
[0023][0024]其中,是第i例患者心血管疾病的高危指标,是由该模型计算出的第i个患者的风险评分。
[0025]进一步的,如果等于1则表示高风险病例,如果等于0,则表示为正常病例。
[0026]有益效果:
[0027]1本专利技术提出的预测方法在提取心血管疾病特征描述文本中的心血管疾病实体信息时,利用知识图谱技术以及TransR知识表示模型,使得提取到的特征实体更具有代表性。在TransR 知识表示模型的训练过程中,加入鲸鱼优化算法,提高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱与注意力机制的心血管疾病预测方法,其特征在于,包括以下步骤:步骤1,构建心血管疾病语料库,通过分布式网络爬虫定时采集心血管疾病的知识文章,通过包装器进行初步过滤,构建原始语料库;步骤2,构建心血管疾病领域知识图谱,对心血管疾病语料库中的原始文章,分别利用规则集、命名实体识别、关键词提取方法提取心血管疾病属性信息,构建知识图谱关系网;步骤3,提取心血管疾病描述文本特征向量:根据知识图谱中心血管疾病和症状的关系,获取文本中症状实体,利用TransR知识表示模型对症状进行向量表示,通过基于注意力机制的LSTM提取描述文本特征向量;步骤4,、通过softmax分类器进行心血管疾病识别。2.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法,其特征在于,所述步骤1具体包括如下步骤:利用网络爬虫定时采集相关心血管疾病网站的原始数据,使用数据挖掘技术对基础知识库中知识数据的总数进行统计,并计算最小支持度计数;依次判断每条知识数据的计数是否满足最小支持度,并将满足最小支持度的知识数据输出,得到若干频繁1项集;读取频繁k

1项集,根据剪枝算法产生频繁k项集,并计算频繁k项集的计数,k≥2;判断频繁k项集的计数是否满足最小支持度,若是,则令k的计数值加1,并返回上一步,若否,则输出频繁k项集;遍历所有频繁1项集,获取若干频繁k项集,并使用基于词典的黑白名单机制过滤部分噪声数据;采集用户提供的心血管疾病相关数据;利用规则集对采集的数据进行初步过滤,并以文件库形式进行存储。3.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法,其特征在于,所述步骤2具体包括如下步骤:利用页面属性信息对原始语料库进行属性提取;针对复杂的文章采用BiLSTM

CRF模型进行命名实体识别;针对心血管疾病发病特征描述,采用基于TF

IDF的关键词提取方法进行心血管疾病特征实体进行提取;采用三元组方式表示提取的属性、属性名以及他们之间的关系;使用Neo4j进行知识图谱...

【专利技术属性】
技术研发人员:杨鹏王超余谢亮亮马卫东
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1