并入数据分组的预测模型制造技术

技术编号:28119420 阅读:66 留言:0更新日期:2021-04-19 11:23
Prism Vote方法是一种用于群体分层数据集的预测模型。具体来讲,Prism Vote利用主成分分析将训练样本划分为不同的分组,并基于不同的分组构建预测模型。对于测试样本,根据其群体分层结构基于贝叶斯方法计算其属于不同分组的概率,使用这个概率作为权重,将多个预测模型的预测结果进行加权求和,作为最终决策。策。策。

【技术实现步骤摘要】
并入数据分组的预测模型
相关申请的交叉引用
[0001]本申请要求2019年10月15日提交的第62/915,459号美国临时申请的优先权。

技术介绍

[0002]本公开内容总体上涉及结果的预测,并且特别涉及并入数据分组的预测模型。
[0003]准确的预测模型在多个领域都有重要的指导意义。例如,在医学领域中,可根据特定患者的癌症风险提出与癌症筛查有关的最佳建议(例如,实施筛查的频率和/或实施哪种筛查测试)。再者,如果患者患有特定疾病,则可以根据预测结果选择最优治疗方案。
[0004]传统上,使用诸如线性或逻辑回归的技术,可以基于一个或多个自变量生成预测。在传统方法中,研究团队设计一项研究来测试特定变量(或变量集)与特定结果相关的特定假设,然后收集足以检验该假设的样本数量,其中该数量是基于预期的效应大小、要控制的潜在混淆变量等预先确定的。
[0005]最近,机器学习使得个性化预测成为可能,特别是在面临大量的潜在相关变量时。机器学习分类器通常被给予大量“训练”样本,该数据集中变量和结果均已知。使用已知的训练程序来训练分类器,以优化目标函数。通常,机器学习分类器的训练是动态过程,随着新样本被添加到训练数据集中,此分类器会重新训练以利用新的信息。

技术实现思路

[0006]随着数据集样本增多,数据结构在样本中的差异性愈来愈明显。这种渐增的异构性会导致假设“整个训练数据集为同质性群体”的预测算法的准确性降低。例如,可能对部分群体的强预测变量对于另一部分样本几乎没有贡献。
[0007]所要求保护的专利技术的某些实施方案涉及适用于群体分层的预测的技术。利用主成分分析的方法将样本根据数据结构分组,并基于不同的分组构建预测模型。对于测试样本,根据其群体分层结构基于贝叶斯方法计算属于不同分组的概率,使用这个概率作为权重,将多个预测模型的预测结果进行加权求和,作为最终决策。
[0008]本文所述的技术可应用于存在样本组间差异的任何数据集。虽然本文所述的实例涉及使用基因组数据的疾病预测,但相似的技术也可应用于其它背景中。例如,在卫生保健领域,数据可以包括除基因组数据以外的生物标志物(例如血液化学数据;医学成像数据;生物计量参数,如心率或血压;家族病史;行为参数(如饮食或运动),以及预测可涉及诊断(例如,特定疾病的存在或不存在)、发展疾病的可能性、对特定疗程的预期反应等。本文所述的技术也可应用于其它领域,如金融(例如,预测未来投资回报或贷款违约的可能性)、保险(例如,预测被保险人未来索赔的可能价值)等。
[0009]以下详细描述以及附图将提供对所要求保护的专利技术的性质和优点的更好的理解。
附图说明
[0010]图1显示了根据本专利技术的实施方案的用于预测结果可能性的过程的流程图。
[0011]图2显示了在本专利技术的一些实施方案中可以与图1的过程一起使用的用于训练集分组的过程的流程图。
[0012]图3显示了在本专利技术的一些实施方案中可以与图1的过程一起使用的用于计算预测结果的过程的流程图。
[0013]图4A-4D显示了例示出将根据本专利技术的实施方案的过程应用于模拟数据集的结果的四幅图。
[0014]图5是例示出将根据本专利技术的实施方案的过程应用于模拟数据集的结果的条形图。
[0015]图6是显示使用根据本专利技术的实施方案的过程和全局逻辑回归分析的阿尔茨海默病数据的接收者操作特性(ROC)曲线的图。
[0016]图7是显示使用根据本专利技术的实施方案的过程和全局逻辑回归分析的精神分裂症数据的ROC曲线的图。
具体实施方式
[0017]为了提供对所要求保护的专利技术的各种特征的理解,描述了其中使用基因组数据来预测个体发展特定疾病的可能性的实施方案。然而,应理解,相同的技术可以应用于其它类型的数据,并且本专利技术不限于基因组数据、疾病预测或健康护理领域。Prism Vote过程
[0018]图1显示了根据本专利技术的实施方案的用于预测结果的可能性的过程100的流程图。过程100可以使用适当设计的计算机系统来实现。
[0019]在框102,鉴定数据样本的训练集。训练集包含N个个体数据样本。对于每个数据样本x
i
,其包含p个自变量{x
ij
}(对于j=1,

,p)并且已知其因变量(样本患病情况)y
i
。例如,该变量集{x
ij
}可以代表表明p个不同的单核苷酸多态性(SNP)。对于每个SNP,变量x
ij
取值0、1或2,对应于基因型中的次要等位基因的个数。例如,如果G是次要等位基因,并且观察到的基因型是GG,则SNP值被编码为2。如果观察到的基因型是CC,则SNP值被编码为0。在疾病预测中,因变量y
i
可以指示疾病的存在(y
i
=1)或不存在(y
i
=0)。在诸如预测可变物理特征(例如,血糖水平或胆固醇水平)的情况下,结果y
i
可以是连续值的变量。根据在数据样本x
i
中代表的特定信息,可以使用其它编码方案。
[0020]在框104,训练集数据样本被划分为多个分组。可以基于样本量大小(即,样本数N)和每组最小样本数(C)来选择分组数。在一些实施方案中,可以在范围2≤K≤N/C内选择分组数(K),具体根据自变量的多少等因素综合而定。机器学习分类器可能需要甚至更大的训练集来产生可靠的预测模型,特别是如果变量的数量很大的情况。下面描述了在一些实施方案中可以用于优化给定训练数据集的分组数的技术的实例。
[0021]图2显示了用于分割或分组训练集(其可以在过程100的框104处实现)的过程200的流程图。过程200涉及使用训练数据的矩阵表示和主成分分析的元素来定义相似性。
[0022]在框202,由训练样本矩阵X。在一些实施方案中,矩阵X的每一行可以对应于数据样本x
i
并且每一列对应一个自变量。因此,对于N个样本(每个样本具有p个变量)的训练数据集,X是一个N
×
p的矩阵。根据变量的特定组合,可能需要对每一列实施标准化操作,使得所有变量处于相似的数值范围内。
[0023]在框204,可以计算X矩阵的特征值和特征向量。具体地,特征值λ
j
和特征向量v
j
(对于j=1,

N)可以根据以下计算:XX

v
j
=λ
j
v
j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中X

是X的矩阵转置。假定特征值按大小从最大到最小排序。
[0024]在框206,选用前q个具有最大特征值的特征向量v
j
将训练样本集分层。q的具体取值可以使用陡坡图(scree plot)或相似技术来确定。
[0025]在框208,根据以下q个特征向量计算特征向量的加权平均:g本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于一组变量预测结果的可能性的方法,所述方法包括:鉴定数据样本的训练集,其中对于每个数据样本,所述变量和结果是已知的;基于所述数据样本的相似性的测量将所述训练集分割为多个分组;训练每个分组的预测模型,其中所述预测模型基于所述变量预测结果的可能性,并且其中针对每个分组独立地实施所述预测模型的训练;获得变量已知的测试样本;以及预测所述测试样本的结果,其中预测结果包括:对于每个分组,使用所述分组的预测模型来确定所述结果的概率;对于每个分组,确定所述测试样本属于所述分组的概率;以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果。2.如权利要求1所述的方法,其中分割所述训练集包括:建立样本的训练集的矩阵;从所述矩阵计算一组特征值和一组特征向量;基于所述特征值的各自大小对所述特征向量进行排序;以及使用排序的特征向量来分割所述训练集。3.如权利要求2所述的方法,其中使用排序的特征向量来分割所述训练集包括:选择所述排序的特征向量的子集作为显著的特征向量;计算所述显著的特征向量的加权平均向量,其中根据所述特征值对平均值进行加权;对所述加权平均向量的分量进行排序;以及使用所述加权平均向量的分位数将来自所述训练集的每个数据样本分配给所述分组中的一个。4.如权利要求1所述的方法,其还包括:计算所述多个分组中的每一个的中心。5.如权利要求4所述的方法,其中对于每个分组,确定所述测试样本属于所述分组的概率包括计算所述测试样本与所述分组的中心之间的距离度量。6.如权利要求1所述的方法,其中基于贝叶斯模型计算所述测试样本的预测结果。7.如权利要求1所述的方法,其中所述每个分组的预测模型是广义线性模型。8.如权利要求1所述的方法,其中所述变量包括关于对象的基因组信息,并且所述结果对应于所述对象的健康特征及表型。9.如权利要求8所述的方法,其中所述健康特征是疾病的存在或不存在。10.计算机系统,其包括:存储器;和处理器,其连接到所述存储器并且被配置成:鉴定数据样本的训练集,其中对于每个数据样本,所述变量和结果是已知的;基于所述数据样本的相似性的测量将所述训练集分割为多个分组;训练每个分组的预测模型,其中所述预测模型基于所述变量预测结果的可能性,并且其中针对每个分组独立地实施所述预测模型的训练;获得变量已知的测试样本;以及
预测所述测试样本的结果,其中预测结果包括:对于每个分组,使用所述分组的预测模型来确定所述结果的概率;对于每个分组,确定所述测试样本属于所述分组的概率;以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果。11.如权利要求10所述的计算机系统,其中所述处理器还被配置成使得分割所述训练集,其包括:建立样本的训练集的矩阵;从所述矩阵计算一组特征值和一组特征向量;基于所述特征值的各自大小对所述特征向量进行排序;以及使用排序的特征向量来分割所述训练集。12.如权利要求10所述的计算机系统,其中所述处理器还被配置成使得使...

【专利技术属性】
技术研发人员:王海天夏小璇徐仲锳
申请(专利权)人:香港中文大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1