当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于图表模型的健康风险预测方法技术

技术编号:21202770 阅读:26 留言:0更新日期:2019-05-25 02:04
本发明专利技术公开了一种基于图表模型的健康风险预测方法,包括以下步骤:S1、设置n位参与者的健康检查记录的输入形式;S2、通过健康检查记录构建基于HER的异类图;S3、通过SHG‑Health算法从异类图中获得权重矩阵,并通过权重矩阵对疾病风险进行预测。本发明专利技术利用半监督学习(SSL)算法对疾病风险进行预测,并且探索了一个基于HER的异类图,用大部分未标记的数据在异类图中对逐步发展的情况进行分类。其可以通过查询参与者pi的记录,SHG‑Health预测参与者pi是否属于高风险疾病类别或“未知”类别,在健康检查数据集和合成数据集上具有显著的预测效果,相较于其他预测模型预测准确度较高,给疾病风险预测领域做出了极大的贡献。

A Health Risk Prediction Method Based on Chart Model

The invention discloses a health risk prediction method based on chart model, which includes the following steps: S1, setting the input form of n-bit participants'health examination records; S2, constructing HER-based heterogenous graphs through health examination records; S3, obtaining weight matrix from heterogenous graphs through SHG Health algorithm, and predicting disease risk through weight matrix. The invention uses semi-supervised learning (SSL) algorithm to predict disease risk, and explores a HER-based heterogeneous graph, using most unlabeled data to classify the progressive development in heterogeneous graphs. By inquiring the records of participants'pi, SHG Health can predict whether participants' PI belongs to high-risk disease category or \unknown\ category. It has significant predictive effect on health examination data set and synthetic data set. Compared with other prediction models, it has higher predictive accuracy and has made a great contribution to the field of disease risk prediction.

【技术实现步骤摘要】
一种基于图表模型的健康风险预测方法
本专利技术涉及预测模型领域,尤其涉及一种基于图表模型的健康风险预测方法。
技术介绍
半监督学习(SSL)在基于电子健康记录(EHRs)的医疗保健应用中引起了越来越多的关注。例如,专利网中的一种基于图形的SSL方法,该方法能够了解患者风险组,进行患者风险分层;一种基于图形的SSL联合训练方法,用于乳腺癌生存率预测。当学习者达成共识时,它迭代地将伪标签分配给无标签数据,并在有标签的集合中包含有伪标签实例,直到无标签集合停止减少;一种基于排序的肺结节图像分类的二部分图、一种基于事件序列构建了时间表型的时间图等;但是,这些方法中没有一个考虑“未知”类,并且它们都有针对所有类的预定义实例,无论是由专家还是通过其他机制实现的。一般健康检查在许多国家是医疗保健的一个组成部分,识别有风险的参与者对早期预警和预防干预是很重要的。尽管电子健康记录已经吸引了越来越多的研究关注在近年来数据挖掘和机器学习社区,挖掘一般健康检查数据是一个尚未充分探讨过了,除了少数研究风险预测等慢性疾病预警系统的提出和以前工作中对健康分数分类框架。然而,这些都没有考虑到未标记的数据。学习风险预测分类模型的基本挑战在于,未标记数据构成了所收集数据的大部分。特别的,未标记的数据描述了健康检查参与者,他们的健康状况可能从健康到重病有很大的不同,区分他们的健康状况没有标准的答案。
技术实现思路
本专利技术目的是针对上述问题,提供一种基于图表模型的健康风险预测方法。为了实现上述目的,本专利技术的技术方案是:本专利技术通过挖掘健康检查记录(HERs)的方法,构建了一种基于图表的半监督学习算法用于对风险预测的模型,这种算法被称为SHG-Health(半监督异构健康图),探索了一个基于HER的异类图,称为HeteroHER图,用大部分未标记的数据对逐步发展的情况进行分类。首先,健康检查记录用图表表示,将所有相关病例联系在一起。其次,捕获数据项的多类型关系,并将其自然地映射到异构图中。第三,特性通过异类图上的标签传播过程以自己的类型加权。该风险预测模型的建模方法包括以下步骤:步骤1)设置n位参与者的健康测试记录输入形式;步骤2)构建HeteroHER图模型;步骤3)建立风险预测模型。所述步骤1)具体操作如下:1.1)设是参与者i的ni个记录的集合,ri是(xij,tij)的一个元素,是在时间tij的一个d维向量,则S={s1,...,sl,sl+1,...,sn}是n位参与者的健康测试记录集合。标记集合C={1,...,C},前l个参与者si(i≤l)被标记为yi∈C,剩余u=n-l位参与者sl+1,...,sl+u将不被标记(l<<u)。1.2)定义:这样表示i类型节点的标签。用表示向量第k个元素。如果xip(类型i的p节点)被标记了,xip属于k类时否则如果xip没有被标记,1.3)令为m节点类型的计算软标签,表示确定性程度的向量,xip属于任意c+1类。xip的类标签由计算得。所述步骤2)具体操作如下:图形建模允许对稀疏的数据建模。为了捕捉健康检查项目中自然存在的异质性,本专利技术构建了一个名为HeteroHER的图表,其中包含基于健康检查记录的多类型节点。2.1)首先将所有记录值离散化并转化为0-1二进制表示,作为离散值缺乏/存在的指标向量。特别地,对于实值,比如年龄,首先被分为固定的时间间隔。然后,将所有序数和分类值转换为二进制表示。2.2)节点插入:在步骤2.1中获得二进制表示值为1的每个元素都被建模为HeteroHER图中的一个节点,不同的是,只有异常结果被建模为检测项目(包括物理和心理)。2.3)节点类型:每个节点根据其原始值所属的测试类别进行划分,连接到记录类型节点的所有其他非记录类型节点可以看作是这些记录类型节点的属性。2.4)链接插入:每个属性(非记录)类型节点都链接到一个记录类型节点,该节点表示观察最初的记录。链接的权重是基于一个假设来计算的,这个假设为记录越新,在风险预测方面越重要。定义一个简单的函数g(·)如下:g(t)=(t-s+1)÷l式中,t是当前记录时间,l是所关注的时间窗口,s是时间窗口的开始时间。也可使用其他函数,如截断高斯分布和卡方分布。窗口长度是模型考虑的记录的时间段。窗口长度只设置范围。链路加权函数控制时间t记录到模型的贡献。2.5)输出一个异构图,表示为两个互相连接的任意类型节点i、j的一组权重矩阵Wij。所述步骤3)具体操作如下:风险预测模型由SHG-Health算法和HeteroHER图组成:3.1)将健康检查数据(GHE)和描述的死亡标签相关原因作为SHG-Health算法的输入。3.2)由HeteroHER图获得权重矩阵Wij。3.3)通过计算i,j=1,...,m的归一化权重。其中Dij是ni×ni对角阵,(p,p)元素是dij,pp,dij,pp=∑qWij,pq是Wij中行p的和。3.4)在i型节点统一初始化Fi,i=1,...,m。3.5)设z=[z1,...,zm]T,0≤zj≤1是第j个类节点的权重。γij定义为i类节点和j类节点中间类型权重:3.6)i型节点在(t+1)时的软标签由以下两方面决定:1).在t时刻通过链接传播的相邻节点的计算标签得分,2).i型节点的初始标签。对角矩阵控制这两种影响之间的平衡。3.7)通过:更新Fi。其中是ni阶对角矩阵,其中(p,p)元素为3.8)当Fi收敛时,返回Fi。与现有技术相比,本专利技术具有的优点和积极效果是:本专利技术提出了一种基于图表模型的健康风险预测方法,其利用半监督学习(SSL)算法对疾病风险进行预测,半监督学习(SSL)算法被称为SHG-Health(半监督异构健康图),并且探索了一个基于HER的异类图,用大部分未标记的数据在异类图中对逐步发展的情况进行分类。首先,健康检查记录用图表进行表示,将所有相关病例联系在一起;然后,捕获检测数据项的多类型关系,并将其自然地映射到异构图中;最后,特性通过异类图上的标签传播过程以自己的类型加权。本专利技术可以通过查询参与者pi的记录,SHG-Health预测参与者pi是否属于高风险疾病类别或“未知”类别,其在健康检查数据集和合成数据集上具有显著的预测效果,相较于其他预测模型,其预测准确度较高,给疾病风险预测领域做出了极大的贡献。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为参加者在三个非连续年份参加测试的健康检查记录示意图;图2为从图1中抽取出的健康检检查记录异类图;图3为本专利技术的模型结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本专利技术提出了一种基于图表模型的健康风险预测方法,其利用半监督学习(SSL本文档来自技高网...

【技术保护点】
1.一种基于图表模型的健康风险预测方法,其特征在于:包括以下步骤:S1、设置n位参与者的健康检查记录的输入形式;S2、通过健康检查记录构建基于HER的异类图;S3、通过SHG‑Health算法从异类图中获得权重矩阵,并通过权重矩阵对疾病风险进行预测。

【技术特征摘要】
1.一种基于图表模型的健康风险预测方法,其特征在于:包括以下步骤:S1、设置n位参与者的健康检查记录的输入形式;S2、通过健康检查记录构建基于HER的异类图;S3、通过SHG-Health算法从异类图中获得权重矩阵,并通过权重矩阵对疾病风险进行预测。2.如权利要求1所述的基于图表模型的健康风险预测方法,其特征在于:所述步骤S1中设置n位参与者的健康检查记录的输入形式包括以下步骤:S11、设是参与者i的ni个健康检查记录的集合,ri是(xij,tij)的一个元素,是在时间tij的一个d维向量,S={s1,...,Sl,Sl+1,...,sn}是n位参与者的健康检查记录集合,C={1,...,c}为标记集合,前l个参与者si(i≤l)被标记为yi∈C,其余u=n一l(l<<u)位参与者sl+1,...,sl+u将不被标记;S12、设则表示i类型节点的标签,设为向量yip的第k个元素;当xip被标记时,xip属于k类时xip不属于k类时当xip没有被标记时,S13、设为m节点类型的计算软标签,表示确定性程度的向量。3.如权利要求2所述...

【专利技术属性】
技术研发人员:莫毓昌李灿东林栋黄华林连志杰
申请(专利权)人:华侨大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1