【技术实现步骤摘要】
并入数据分组的预测模型
相关申请的交叉引用
[0001]本申请要求2019年10月15日提交的第62/915,459号美国临时申请的优先权。
技术介绍
[0002]本公开内容总体上涉及结果的预测,并且特别涉及并入数据分组的预测模型。
[0003]准确的预测模型在多个领域都有重要的指导意义。例如,在医学领域中,可根据特定患者的癌症风险提出与癌症筛查有关的最佳建议(例如,实施筛查的频率和/或实施哪种筛查测试)。再者,如果患者患有特定疾病,则可以根据预测结果选择最优治疗方案。
[0004]传统上,使用诸如线性或逻辑回归的技术,可以基于一个或多个自变量生成预测。在传统方法中,研究团队设计一项研究来测试特定变量(或变量集)与特定结果相关的特定假设,然后收集足以检验该假设的样本数量,其中该数量是基于预期的效应大小、要控制的潜在混淆变量等预先确定的。
[0005]最近,机器学习使得个性化预测成为可能,特别是在面临大量的潜在相关变量时。机器学习分类器通常被给予大量“训练”样本,该数据集中变量和结果均已知。使用已知的训练程序来训练分类器,以优化目标函数。通常,机器学习分类器的训练是动态过程,随着新样本被添加到训练数据集中,此分类器会重新训练以利用新的信息。
技术实现思路
[0006]随着数据集样本增多,数据结构在样本中的差异性愈来愈明显。这种渐增的异构性会导致假设“整个训练数据集为同质性群体”的预测算法的准确性降低。例如,可能对部分群体的强预测变量对于另一部分样本几乎没有贡献。
[0007]所要求 ...
【技术保护点】
【技术特征摘要】
1.基于一组变量预测结果的可能性的方法,所述方法包括:鉴定数据样本的训练集,其中对于每个数据样本,所述变量和结果是已知的;基于所述数据样本的相似性的测量将所述训练集分割为多个分组;训练每个分组的预测模型,其中所述预测模型基于所述变量预测结果的可能性,并且其中针对每个分组独立地实施所述预测模型的训练;获得变量已知的测试样本;以及预测所述测试样本的结果,其中预测结果包括:对于每个分组,使用所述分组的预测模型来确定所述结果的概率;对于每个分组,确定所述测试样本属于所述分组的概率;以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果。2.如权利要求1所述的方法,其中分割所述训练集包括:建立样本的训练集的矩阵;从所述矩阵计算一组特征值和一组特征向量;基于所述特征值的各自大小对所述特征向量进行排序;以及使用排序的特征向量来分割所述训练集。3.如权利要求2所述的方法,其中使用排序的特征向量来分割所述训练集包括:选择所述排序的特征向量的子集作为显著的特征向量;计算所述显著的特征向量的加权平均向量,其中根据所述特征值对平均值进行加权;对所述加权平均向量的分量进行排序;以及使用所述加权平均向量的分位数将来自所述训练集的每个数据样本分配给所述分组中的一个。4.如权利要求1所述的方法,其还包括:计算所述多个分组中的每一个的中心。5.如权利要求4所述的方法,其中对于每个分组,确定所述测试样本属于所述分组的概率包括计算所述测试样本与所述分组的中心之间的距离度量。6.如权利要求1所述的方法,其中基于贝叶斯模型计算所述测试样本的预测结果。7.如权利要求1所述的方法,其中所述每个分组的预测模型是广义线性模型。8.如权利要求1所述的方法,其中所述变量包括关于对象的基因组信息,并且所述结果对应于所述对象的健康特征及表型。9.如权利要求8所述的方法,其中所述健康特征是疾病的存在或不存在。10.计算机系统,其包括:存储器;和处理器,其连接到所述存储器并且被配置成:鉴定数据样本的训练集,其中对于每个数据样本,所述变量和结果是已知的;基于所述数据样本的相似性的测量将所述训练集分割为多个分组;训练每个分组的预测模型,其中所述预测模型基于所述变量预测结果的可能性,并且其中针对每个分组独立地实施所述预测模型的训练;获得变量已知的测试样本;以及
预测所述测试样本的结果,其中预测结果包括:对于每个分组,使用所述分组的预测模型来确定所述结果的概率;对于每个分组,确定所述测试样本属于所述分组的概率;以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果。11.如权利要求10所述的计算机系统,其中所述处理器还被配置成使得分割所述训练集,其包括:建立样本的训练集的矩阵;从所述矩阵计算一组特征值和一组特征向量;基于所述特征值的各自大小对所述特征向量进行排序;以及使用排序的特征向量来分割所述训练集。12.如权利要求10所述的计算机系统,其中所述处理器还被配置成使得使...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。