心脑血管疾病风险预测方法及装置制造方法及图纸

技术编号:19146139 阅读:26 留言:0更新日期:2018-10-13 09:37
本发明专利技术实施例提供的一种心脑血管疾病风险预测方法及装置,包括:获取样本集;将样本集中的样本分为预设数量的局部簇,根据预设的第一K值与所述第一距离集合,计算得到输入样本的第一K值个第一邻近样本,从而确定目标局部簇,计算所述输入样本与所述目标局部簇中样本的距离,从而确定所述输入样本第二K值个第二邻近样本;确定输入样本的标签,确定输入样本是否是心脑血管疾病患者的样本;最终确定待预测患者是否是心脑血管疾病患者。本实施例考虑到心脑血管疾病患者特征数据相似度较高,避免了不同样本数据对训练预测模型的影响。因此,可以提高预测待预测患者是否是心脑血管疾病患者的准确率。

Risk prediction methods and devices for cardiovascular and cerebrovascular diseases

A cardiovascular and cerebrovascular disease risk prediction method and apparatus provided by an embodiment of the present invention include: acquiring a sample set; dividing the sample set into a preset number of local clusters; calculating the first K value of the input sample and the first neighboring sample according to the preset first K value and the first distance set, thereby determining the target. A local cluster calculates the distance between the input sample and the sample in the target local cluster, thereby determining the second K value of the input sample as a second adjacent sample, determining the label of the input sample, determining whether the input sample is a sample of a patient with cardiovascular and cerebrovascular disease, and finally determining whether the patient to be predicted is a patient with cardiovascular and cerebrovascular disease. . Considering the high similarity of characteristic data of patients with cardiovascular and cerebrovascular diseases, this example avoids the influence of different sample data on training prediction model. Therefore, it is possible to improve the accuracy of predicting whether the patients are cardiovascular or cerebrovascular diseases.

【技术实现步骤摘要】
心脑血管疾病风险预测方法及装置
本专利技术涉及预测分析领域,特别是涉及一种心脑血管疾病风险预测方法及装置。
技术介绍
随着人们的生活压力和精神压力与日俱增,心脑血管疾病的发病率逐年提升,严重影响居民的健康。医学实践表明如果心脑血管疾病患者在早期诊断时能够确诊,对于心脑血管疾病的干预和治疗效果有很大帮助。现有技术使用数据挖掘技术对于心脑血管疾病的病例数据特征进行挖掘,将所有患者的体检特征数据及回访数据组成一个训练集,使用决策树、逻辑斯蒂回归和人工神经网络算法,训练出预测模型。然后将待预测患者的体检数据作为输入样本,输入到训练出的预测模型中,输出待预测患者是否是心脑血管疾病患者。以人工神经网络算法训练预测模型为例,使用人工神经网络算法训练预测模型过程中,由于神经网络的输入样本包含了非心脑血管疾病患者样本和心脑血管疾病患者样本,而非心脑血管疾病患者样本与心脑血管疾病患者样本中的特征数据差距较大,因此,将训练集中的所有样本作为输入层的输入,神经网络的输出层的误差函数较大。因为受到不同样本数据的影响,根据误差函数调整神经网络的各层权值及阈值,训练出的预测模型并不准确。因而,使用人工神经网络算法训练预测模型,预测待预测患者是否是心脑血管疾病患者的准确率不高。
技术实现思路
本专利技术实施例的目的在于提供一种心脑血管疾病风险预测方法及装置,以提高预测患者是否是心脑血管疾病患者的准确率。具体技术方案如下:第一方面,本专利技术实施例提供了一种心脑血管疾病风险预测方法,包括:获取样本集;所述样本集根据设置完标签的患者医疗数据库集的多个样本所确定的;一条样本包括:患者的编号、特征及特征数据;所述标签包括:第一标签和第二标签;第一标签标识心脑血管疾病患者样本;第二标签标识非心脑血管疾病患者样本;获取一条输入样本;所述输入样本由待预测患者的医疗健康体检数据及医疗就诊数据合并构成;使用余弦-大间隔最近邻居COS-LMNN算法进行度量学习,得到所述样本集的全局度量矩阵;使用预设的聚类算法,将样本集中的样本分为预设数量的局部簇;根据所述全局度量矩阵,使用余弦相似度算法,计算所述输入样本与所述样本集中样本的距离,组成第一距离集合;根据预设的第一K值与所述第一距离集合,使用k近邻算法,计算得到输入样本的第一K值个第一邻近样本;确定所述第一邻近样本所在的局部簇;在所述第一邻近样本所在的局部簇中,选择第一邻近样本的数量超过第一预设阈值的局部簇,作为目标局部簇;将所述输入样本划入所述目标局部簇;根据COS-LMNN算法学习得到的所述目标局部簇的局部度量矩阵,使用余弦相似度算法计算,所述输入样本与所述目标局部簇中样本的距离,组成第二距离集合;在所述目标局部簇中,根据预设的第二K值与所述第二距离集合,使用k近邻算法,确定所述输入样本第二K值个第二邻近样本;统计第二邻近样本的第一标签个数与第二标签个数;如果第一标签个数与第二标签个数的比值超过预设标签阈值,则将第一标签作为输入样本的标签,否则将第二标签作为输入样本的标签;根据所述输入样本的标签,确定输入样本是否是心脑血管疾病患者的样本;如果输入样本是心脑血管疾病患者的样本,则确定输入样本中的待预测患者是心脑血管疾病患者;如果输入样本不是心脑血管疾病患者的样本,则确定输入样本中的待预测患者不是心脑血管疾病患者。可选的,在所述确定输入样本中的待预测患者是心脑血管疾病患者的步骤之后,所述方法还包括:根据患者的健康回访数据确定所述待预测患者是否是高危心脑血管疾病患者;如果所述待预测患者是高危心脑血管疾病患者,则对所述待预测患者作住院治疗的建议;如果所述待预测患者不是高危心脑血管疾病患者,则对所述待预测患者作增加体检频次的建议;在所述确定输入样本中的待预测患者不是心脑血管疾病患者的步骤之后,所述方法还包括:根据患者的健康回访数据确定所述待预测患者是否是健康用户;如果所述待预测患者是健康用户,则对所述正常患者作保持正常体检频次的建议;如果所述待预测患者不是健康用户,则将所述待预测患者标记为漏诊患者,将所述漏诊患者的特征数据加入所述患者医疗数据库集;其中,漏诊患者为心脑血管疾病患者。可选的,所述第一标签标识心脑血管疾病患者样本,包括:根据已收集的患者的健康回访数据,确定心脑血管疾病患者的标识信息;所述患者的健康回访数据包括:患者的编号、特征、特征数据及确认病症;所述标识信息包括:确认病症、确认病症对应的特征及特征数据;根据心脑血管疾病患者的标识信息,在所述医疗数据库集中确定心脑血管疾病患者样本;将所述心脑血管疾病患者的样本,设置第一标签;所述第二标签标识非心脑血管疾病患者样本,包括:将除所述心脑血管疾病患者样本以外的其他样本,设置第二标签。可选的,获取样本集,包括:根据设置标签的患者医疗数据库集的多个样本,将样本缺失值大于第一阈值的样本作样本删除处理;所述样本缺失值为:一条样本中缺失的特征数量与该样本中特征总数量的比值;在删除处理后的多条样本中查找,特征缺失值大于第二阈值的特征作特征删除处理;所述特征缺失值为:多条样本的同一特征中,缺少特征数据的特征数量与同一特征总数量的比值;在作特征删除处理后的多条样本查找缺失特征数据的特征,作为第一特征;使用多重填补法,对所述第一特征缺失的特征数据作缺失值填补;按照数据类型,对缺失值填补后的所述多条样本的特征数据做分类,获得分类结果;其中,所述分类结果包括:离散特征数据和连续特征数据;根据分类结果,将所述离散特征数据和连续特征数据,作与数据类型对应的处理;将所述离散特征数据和连续特征数据做相对应的处理后的特征数据加入所述患者医疗数据库集,作为第一数据库集;其中,将所述离散特征数据和连续特征数据,作与数据类型对应的处理,包括:对离散特征数据进行独热编码;对连续特征数据,使用正太标准化z-score方法进行标准化处理;使用欠采样及SMOTE算法,对第一数据库集的样本,进行不均衡处理,获得第二数据库集;使用方差分析法计算,所述第二数据库集中的同一特征数据的方差,删除特征数据方差值小于预设方差阈值的特征数据;使用relief算法计算,所述删除特征数据方差值小于预设方差阈值的特征数据后的每个特征数据的权重;根据特征数据的权重与特征数据的权重对应的分数值,将分数值小于预设分数阈值的特征数据及对应的特征删除,获得第四数据库集;根据第四数据库集,使用前向选择法,确定样本集。可选的,所述根据所述全局度量矩阵,使用余弦相似度算法计算所述输入样本与所述样本集中样本的距离,组成第一距离集合,包括:根据所述全局度量矩阵,使用余弦相似度算法公式计算所述输入样本与所述样本集中样本的距离,组成第一距离集合;其中,所述余弦相似度算法公式为:所述第一距离集合D1包括:{D(xi,x1),D(xi,x2),D(xi,x3),…,D(xi,xj)};其中,i代表输入样本的标号,xi代表第i个输入样本为xi;样本集为X;全局度量矩阵为A;M=ATA;j代表样本集中的样本编号;xj代表样本集中第j个的样本;i与j取正整数;D(xi,xj)代表在全局度量矩阵下输入样本xi与X集中第j个样本的距离;A(xi,xj)代表经过A矩阵变换后xi,xj之间的距离。可选的,所述根据COS-LMNN算法学习得到的所述目标局部簇的局部度量本文档来自技高网...

【技术保护点】
1.一种心脑血管疾病风险预测方法,其特征在于,所述方法包括:获取样本集;所述样本集根据设置完标签的患者医疗数据库集的多个样本所确定的;一条样本包括:患者的编号、特征及特征数据;所述标签包括:第一标签和第二标签;第一标签标识心脑血管疾病患者样本;第二标签标识非心脑血管疾病患者样本;获取一条输入样本;所述输入样本由待预测患者的医疗健康体检数据及医疗就诊数据合并构成;使用余弦‑大间隔最近邻居COS‑LMNN算法进行度量学习,得到所述样本集的全局度量矩阵;使用预设的聚类算法,将样本集中的样本分为预设数量的局部簇;根据所述全局度量矩阵,使用余弦相似度算法,计算所述输入样本与所述样本集中样本的距离,组成第一距离集合;根据预设的第一K值与所述第一距离集合,使用k近邻算法,计算得到输入样本的第一K值个第一邻近样本;确定所述第一邻近样本所在的局部簇;在所述第一邻近样本所在的局部簇中,选择第一邻近样本的数量超过第一预设阈值的局部簇,作为目标局部簇;将所述输入样本划入所述目标局部簇;根据COS‑LMNN算法学习得到的所述目标局部簇的局部度量矩阵,使用余弦相似度算法计算,所述输入样本与所述目标局部簇中样本的距离,组成第二距离集合;在所述目标局部簇中,根据预设的第二K值与所述第二距离集合,使用k近邻算法,确定所述输入样本的第二K值个第二邻近样本;统计第二邻近样本的第一标签个数与第二标签个数;如果第二邻近样本的第一标签个数与第二标签个数的比值超过预设标签阈值,则将第一标签作为输入样本的标签,否则将第二标签作为输入样本的标签;根据所述输入样本的标签,确定输入样本是否是心脑血管疾病患者的样本;如果输入样本是心脑血管疾病患者的样本,则确定输入样本中的待预测患者是心脑血管疾病患者;如果输入样本不是心脑血管疾病患者的样本,则确定输入样本中的待预测患者不是心脑血管疾病患者。...

【技术特征摘要】
1.一种心脑血管疾病风险预测方法,其特征在于,所述方法包括:获取样本集;所述样本集根据设置完标签的患者医疗数据库集的多个样本所确定的;一条样本包括:患者的编号、特征及特征数据;所述标签包括:第一标签和第二标签;第一标签标识心脑血管疾病患者样本;第二标签标识非心脑血管疾病患者样本;获取一条输入样本;所述输入样本由待预测患者的医疗健康体检数据及医疗就诊数据合并构成;使用余弦-大间隔最近邻居COS-LMNN算法进行度量学习,得到所述样本集的全局度量矩阵;使用预设的聚类算法,将样本集中的样本分为预设数量的局部簇;根据所述全局度量矩阵,使用余弦相似度算法,计算所述输入样本与所述样本集中样本的距离,组成第一距离集合;根据预设的第一K值与所述第一距离集合,使用k近邻算法,计算得到输入样本的第一K值个第一邻近样本;确定所述第一邻近样本所在的局部簇;在所述第一邻近样本所在的局部簇中,选择第一邻近样本的数量超过第一预设阈值的局部簇,作为目标局部簇;将所述输入样本划入所述目标局部簇;根据COS-LMNN算法学习得到的所述目标局部簇的局部度量矩阵,使用余弦相似度算法计算,所述输入样本与所述目标局部簇中样本的距离,组成第二距离集合;在所述目标局部簇中,根据预设的第二K值与所述第二距离集合,使用k近邻算法,确定所述输入样本的第二K值个第二邻近样本;统计第二邻近样本的第一标签个数与第二标签个数;如果第二邻近样本的第一标签个数与第二标签个数的比值超过预设标签阈值,则将第一标签作为输入样本的标签,否则将第二标签作为输入样本的标签;根据所述输入样本的标签,确定输入样本是否是心脑血管疾病患者的样本;如果输入样本是心脑血管疾病患者的样本,则确定输入样本中的待预测患者是心脑血管疾病患者;如果输入样本不是心脑血管疾病患者的样本,则确定输入样本中的待预测患者不是心脑血管疾病患者。2.根据权利要求1所述的方法,其特征在于,在所述确定输入样本中的待预测患者是心脑血管疾病患者的步骤之后,所述方法还包括:根据患者的健康回访数据确定所述待预测患者是否是高危心脑血管疾病患者;如果所述待预测患者是高危心脑血管疾病患者,则对所述待预测患者作住院治疗的建议;如果所述待预测患者不是高危心脑血管疾病患者,则对所述待预测患者作增加体检频次的建议;在所述确定输入样本中的待预测患者不是心脑血管疾病患者的步骤之后,所述方法还包括:根据患者的健康回访数据确定所述待预测患者是否是健康用户;如果所述待预测患者是健康用户,则对所述正常患者作保持正常体检频次的建议;如果所述待预测患者不是健康用户,则将所述待预测患者标记为漏诊患者,将所述漏诊患者的特征数据加入所述患者医疗数据库集;其中,漏诊患者为心脑血管疾病患者。3.根据权利要求1所述的方法,其特征在于,所述第一标签标识心脑血管疾病患者样本,包括:根据已收集的患者的健康回访数据,确定心脑血管疾病患者的标识信息;所述患者的健康回访数据包括:患者的编号、特征、特征数据及确认病症;所述标识信息包括:确认病症、确认病症对应的特征及特征数据;根据心脑血管疾病患者的标识信息,在所述医疗数据库集中确定心脑血管疾病患者样本;将所述心脑血管疾病患者的样本,设置第一标签;所述第二标签标识非心脑血管疾病患者样本,包括:将除所述心脑血管疾病患者样本以外的其他样本,设置第二标签。4.根据权利要求1所述的方法,其特征在于,所述获取样本集,包括:根据设置标签的患者医疗数据库集的多个样本,将样本缺失值大于第一阈值的样本作样本删除处理;所述样本缺失值为:一条样本中缺失的特征数量与该样本中特征总数量的比值;在删除处理后的多条样本中查找,特征缺失值大于第二阈值的特征作特征删除处理;所述特征缺失值为:多条样本的同一特征中,缺少特征数据的特征数量与同一特征总数量的比值;在作特征删除处理后的多条样本查找缺失特征数据的特征,作为第一特征;使用多重填补法,对所述第一特征缺失的特征数据作缺失值填补;按照数据类型,对缺失值填补后的所述多条样本的特征数据做分类,获得分类结果;其中,所述分类结果包括:离散特征数据和连续特征数据;根据分类结果,将所述离散特征数据和连续特征数据,作与数据类型对应的处理;将所述离散特征数据和连续特征数据做相对应的处理后的特征数据加入所述患者医疗数据库集,作为第一数据库集;其中,将所述离散特征数据和连续特征数据,作与数据类型对应的处理,包括:对离散特征数据进行独热编码;对连续特征数据,使用正太标准化z-score方法进行标准化处理;使用欠采样及SMOTE算法,对所述第一数据库集的样本进行不均衡处理,获得第二数据库集;使用方差分析法计算所述第二数据库集中的同一特征数据的方差,删除特征数据方差值小于预设方差阈值的特征数据,获得第三数据库集;使用relief算法计算所述第三数据库集中每个特征数据的权重;根据特征数据的权重与特征数据的权重对应的分数值,将第三数据库集中分数值小于预设分数阈值的特征数据及对应的特征删除,获得第四数据库集;根据所述第四数据库集,使用前向选择法,确定样本集。5.根据权利要求1所述的方法,其特征在于,所述根据所述全局度量矩阵,使用余弦相似度算法计算所述输入样本与所述样本集中样本的距离,组成第一距离集合,包括:根据所述全局度量矩阵,使用余弦相似度算法公式计算所述输入样本与所述样本集中样本的距离,组成第一距离集合;其中,所述余弦相似度算法公式为:所述第一距离集合D1包括:{D(xi,x1),D(xi,x2),D(xi,x3),…,D(xi,xj)};其中,i代表输入样本的标号,xi代表第i个输入样本为xi;样本集为X;全局度量矩阵为A;M=ATA;j代表样本集中的样本编号;xj代表样本集中第j个的样本;i与j取正整数;D(xi,xj)代表在全局度量矩阵下输入样本xi与X集中第j个样本的距离;A(xi,xj)代表经过A矩阵变换后xi,xj之间的距离。6.根据权利要求1所述的方法,其特征在于,所述根据COS-LMNN算法学习得到的所述目标局部簇的局部度量矩阵,使用余弦相似度算法计算所述输入样本与所述目标局部簇中样本的距离,组成第二距离集合...

【专利技术属性】
技术研发人员:刘奎倪壮康桂霞杨波张宁波
申请(专利权)人:北京邮电大学中国人民解放军总医院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1