一种基于知识图谱与注意力机制的心血管疾病预测方法技术

技术编号：35177179 阅读：45 留言：0更新日期：2022-10-12 17:44

本发明专利技术公开了一种基于知识图谱与注意力机制的心血管疾病预测方法，该方法首先构建心血管疾病语料库；接着构建心血管疾病领域知识图谱，对心血管疾病语料库中的原始文章，提取心血管疾病属性信息，构建知识图谱关系网；然后提取心血管疾病描述文本特征向量，根据知识图谱中心血管疾病和症状的关系，获取文本中症状实体，利用TransR知识表示模型对症状进行向量表示，通过基于注意力机制的LSTM(A

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱与注意力机制的心血管疾病预测方法

[0001]本专利技术涉及一种基于知识图谱与注意力机制的心血管疾病预测方法，属于互联网与人工智能

技术介绍

[0002]心血管疾病(CVDs)是全球死亡的主要原因。在2015年全球报告的5770万人死亡中，有1790万人死于心血管疾病。此外，心血管疾病给患者带来不可忽视的经济负担并导致严重的终生残疾。然而，据估计90％的CVDs可以通过适当的措施预防。因此，预测个体CVDs 的发作在医学领域具有重要意义。已经有一些公认的病理措施来检测CVDs标志物，例如心电图(ECG)和血管造影，血管造影是医学领域对心血管疾病的权威诊断方法，通常具有较高的准确率。然而血管造影通常昂贵且具有侵袭性，心电图是另一种常见的心血管疾病诊断和预测方法，其在医学领域的准确性高度依赖于医务人员或专家的经验和知识。所以计算机辅助的CVDs高风险预测是一个有前途且意义重大的研究课题。基于机器学习的高风险预测的传统任务旨在获得一个自动化的计算机系统，这应该是从患者的历史电子健康记录(EHR) 中提取的潜在和关键特征。与那些传统的病理措施相比，它具有可操作性、无创性和低成本的特点。
[0003]以EHR为基础的高风险预测任务的关键挑战是如何获得患者的准确画像，也称为患者表征学习或特征工程。EHR由患者的各种信息组成，可以表示为按时间排序的医院就诊序列，每一次就诊都包含大量医学变量，例如人口统计、诊断、药物、程序、实验室检查结果和生命体征。EHR系统中独特的医学变量的数量通常非常大，因此许...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱与注意力机制的心血管疾病预测方法，其特征在于，包括以下步骤：步骤1，构建心血管疾病语料库，通过分布式网络爬虫定时采集心血管疾病的知识文章，通过包装器进行初步过滤，构建原始语料库；步骤2，构建心血管疾病领域知识图谱，对心血管疾病语料库中的原始文章，分别利用规则集、命名实体识别、关键词提取方法提取心血管疾病属性信息，构建知识图谱关系网；步骤3，提取心血管疾病描述文本特征向量：根据知识图谱中心血管疾病和症状的关系，获取文本中症状实体，利用TransR知识表示模型对症状进行向量表示，通过基于注意力机制的LSTM提取描述文本特征向量；步骤4，、通过softmax分类器进行心血管疾病识别。2.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法，其特征在于，所述步骤1具体包括如下步骤：利用网络爬虫定时采集相关心血管疾病网站的原始数据，使用数据挖掘技术对基础知识库中知识数据的总数进行统计，并计算最小支持度计数；依次判断每条知识数据的计数是否满足最小支持度，并将满足最小支持度的知识数据输出，得到若干频繁1项集；读取频繁k
‑
1项集，根据剪枝算法产生频繁k项集，并计算频繁k项集的计数，k≥2；判断频繁k项集的计数是否满足最小支持度，若是，则令k的计数值加1，并返回上一步，若否，则输出频繁k项集；遍历所有频繁1项集，获取若干频繁k项集，并使用基于词典的黑白名单机制过滤部分噪声数据；采集用户提供的心血管疾病相关数据；利用规则集对采集的数据进行初步过滤，并以文件库形式进行存储。3.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法，其特征在于，所述步骤2具体包括如下步骤：利用页面属性信息对原始语料库进行属性提取；针对复杂的文章采用BiLSTM
‑
CRF模型进行命名实体识别；针对心血管疾病发病特征描述，采用基于TF
‑
IDF的关键词提取方法进行心血管疾病特征实体进行提取；采用三元组方式表示提取的属性、属性名以及他们之间的关系；使用Neo4j进行知识图谱...

【专利技术属性】
技术研发人员：杨鹏，王超余，谢亮亮，马卫东，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人