本文详述了用于按集成方式校正数据集并对数据集进行分类的系统和方法。训练数据集、训练分类集和测试数据集被接收。对于所述训练数据集,通过将机器学习技术应用到训练数据集和训练分类集来生成第一分类器,并且通过根据第一分类器对测试数据集中的元素进行分类来生成第一测试分类集。对于多次迭代中的每一次,训练数据集被变换,测试数据集被变换,并且通过将机器学习技术应用到经变换的训练数据集来生成第二分类器。根据第二分类器来生成第二测试分类集,并且将第一测试分类集与第二测试分类集相比较。
【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本文详述了用于按集成方式校正数据集并对数据集进行分类的系统和方法。训练数据集、训练分类集和测试数据集被接收。对于所述训练数据集,通过将机器学习技术应用到训练数据集和训练分类集来生成第一分类器,并且通过根据第一分类器对测试数据集中的元素进行分类来生成第一测试分类集。对于多次迭代中的每一次,训练数据集被变换,测试数据集被变换,并且通过将机器学习技术应用到经变换的训练数据集来生成第二分类器。根据第二分类器来生成第二测试分类集,并且将第一测试分类集与第二测试分类集相比较。【专利说明】用于通过集成的偏差校正和分类预测生成生物标记签名的 系统和方法 相关申请的交叉引用 本申请根据35U.S.C§ 119要求2012年6月21日递交的、题为"SYSTEMSAND METHODSFORGENERATINGBIOMARKERSIGNATURESWITHINTEGRATEDBIASCORRECTIONAND CLASSPREDICTION"的美国临时专利申请No. 61/662, 792的优先权,该美国临时专利申请被 完整结合于此。
技术介绍
在生物医学领域,识别表明特定生物状态的物质即生物标记(biomarker)很重 要。随着基因组学和蛋白质组学的新技术出现,生物标记对于生物发现、药品研发和健康护 理正变得越来越重要。生物标记不仅对于很多疾病的诊断和预后有用,而且对于理解疗法 的发展基础有用。生物标记的成功和有效识别可以加速新药品研发过程。通过疗法与诊断 和预后的结合,生物标记识别还将增强当前医疗的质量,因而在药物遗传学、药物基因组学 和药物蛋白质组学的使用中扮演重要角色。 包括高吞吐量筛选在内的基因组学和蛋白质组学分析提供了关于细胞中表达的 蛋白质的数量和形式的丰富信息并提供了针对每个细胞识别特定细胞状态的被表达的蛋 白质特性的谱的潜力。在某些情况下,该细胞状态可能是与疾病相关的异常生理反应的特 征。结果,识别患病病人的细胞状态并与正常病人的相应细胞状态进行比较可以提供诊断 和治疗疾病的机会。 这些高吞吐量筛选技术提供了基因表达信息的大数据集。研究人员已尝试研发用 于将这些数据集组织到可再现地诊断不同数量的个体的模式中的方法。一种方法是汇集来 自多个源的数据以形成组合的数据集,然后将数据集划分成发现/训练集和测试/验证集。 然而,相对于可用数量的样本,转录谱数据和蛋白质表达谱数据二者常常由大量变量来表 征。 来自控制或病人群的试样的表达谱之间的观察到的差异通常被若干因素掩盖,包 括疾病或控制群体内的未知子表型或生物学差异、由研究方案的差别造成的依位置而定的 偏差、试样处理、由仪器条件(例如,芯片批次等)的差别造成的偏差以及由测量误差造成 的变化。一些技术尝试针对数据样本中的偏差进行校正(所述偏差例如可能源于数据集中 表不的一类样本多于另一类)。 若干基于计算机的方法已被研发以找出最佳地解释疾病和控制样本之间的差别 的一组特征(标记)。某些早期方法包括诸如LIMM之类的统计测试、用于识别与乳腺癌有 关的生物标记的FDA批准的ma_aprint技术、诸如支撑向量机(SVM)之类的逻辑回归技术 和机器学习方法。一般地,从机器学习的角度,生物标记的选择通常是分类任务的特征选择 问题。然而,这些早期方案面临若干缺点。由这些技术生成的签名(signature)常常是不 能再现的,因为对象的包含与排除可能导致不同的签名。这些早期方案还生成很多假阳性 签名并且不鲁棒,因为它们是在具有小样本尺寸和高维度的数据集上操作的。 因此,需要用于识别用于临床诊断和/或预后的生物标记的改进的技术,并且更 具体地,需要用于识别能够用来将数据集中的元素分类到两个或更多个分类中的数据标记 的改进的技术。
技术实现思路
申请人:已认识到现有的基于计算机的方法不利地与分类预测技术分开应用偏差 校正技术。本文描述的计算机系统和计算机程序产品实现将集成方法应用到偏差校正和分 类预测的方法,其可在生物标记和其他数据分类应用中实现改进的分类性能。具体地,本文 公开的计算机实现的方法采用迭代方法进行偏差校正和分类预测。在计算机实现的方法的 各种实施例中,系统中的至少一个处理器接收训练数据集和训练分类集,训练分类集标识 与训练数据集中的每个元素相关的分类。系统中的处理器还接收测试数据集。处理器通过 将机器学习技术应用到训练数据集和训练分类集来生成用于训练数据集的第一分类器,并 通过根据第一分类器对测试数据集中的元素进行分类来生成第一测试分类集。对于多次迭 代中的每一次,处理器:基于训练分类集和测试分类集中的至少一个来变换训练数据集,通 过应用前一步的变换来变换测试数据集,通过将机器学习技术应用到经变换的训练数据集 和训练分类集来生成用于经变换的训练数据集的第二分类器,并且通过根据第二分类器对 经变换的测试数据集中的元素进行分类来生成第二测试分类集。处理器还将第一测试分类 集与第二测试分类集相比较,并且当第一测试分类集与第二测试分类集不同时,处理器将 第二分类集存储为第一分类集,将经变换的测试数据集存储为测试数据集并返回到迭代开 头。本专利技术的计算机系统包括用于实现如上所述的方法及其各种实施例的装置。 在如上所述方法的某些实施例中,该方法还包括当第一测试分类集与第二测试分 类集并非不同时输出第二分类集。具体地,如上所述的迭代可重复至第一测试分类集和第 二测试分类集收敛并且预测的分类之间没有差别。在如上所述方法的某些实施例中,训练 数据集的元素表示患病病人、对疾病有抵抗力的病人或未患病病人的基因表达数据。训练 分类集的元素可对应于训练数据集中的数据样本的已知分类标识。例如,分类标识可包括 诸如"疾病阳性"、"疾病免疫"或"无疾病"之类的类别。 在如上所述方法的某些实施例中,训练数据集和测试数据集是通过将总数据集中 的样本随机指派到训练数据集或测试数据集而生成的。将总数据集随机地分裂成训练数据 集和测试数据集可能是预测分类和生成鲁棒基因签名所需要的。另外,总数据集的样本可 在分裂之前被丢弃,或者训练数据集或测试数据集的样本可在分裂之后被丢弃。在如上所 述方法的某些实施例中,变换训练数据集的步骤、变换测试数据集的步骤、或者变换训练数 据集和变换测试数据集的步骤二者包括通过基于数据集的质心调整数据集的元素来执行 偏差校正技术。变换是根据变换函数来执行的,变换函数可基于训练数据集来定义变换。 在如上所述方法的某些实施例中,偏差校正技术包括从数据集的每个元素中减去质心的分 量。例如,偏差校正技术的结果可以是训练数据集、测试数据集或者训练和测试数据集二者 的每个元素通过将数据集中表示的每个分类的质心考虑在内而"回到中心"(recenter)。在 如上所述方法的某些实施例中,变换训练数据集的步骤、变换测试数据集的步骤、或者变换 训练数据集和变换测试数据集的步骤二者包括应用旋转、剪切、移动、线性变换或非线性变 换。 在如上所述方法的某些实施例中,该方法还包括对于多次迭代中的每一次,将第 一测试分类集与第二测试分类集相比较。作为比较结果,如果第一测试分类集中的任一单 个元素与第二测试分类集中的相应元素不同,则第本文档来自技高网...
【技术保护点】
一种由处理器运行的将数据集分类到两个或更多个分类的计算机实现的方法,包括:(a)接收训练数据集和训练分类集,所述训练分类集标识与所述训练数据集中的每个元素相关联的分类;(b)接收测试数据集;(c)通过将机器学习技术应用到所述训练数据集和所述训练分类集来生成用于所述训练数据集的第一分类器;(d)通过根据所述第一分类器对所述测试数据集中的元素进行分类来生成第一测试分类集;(e)对于多次迭代中的每一次:(i)基于所述训练分类集和所述测试分类集中的至少一个来变换所述训练数据集;(ii)变换所述测试数据集;(iii)通过根据基于经变换的训练数据集和所述训练分类集的第二分类器对经变换的测试数据集中的元素进行分类来生成第二测试分类集;(iv)当所述第一测试分类集与所述第二测试分类集不同时,将所述第二分类集存储为所述第一分类集并将所述经变换的测试数据集存储为所述测试数据集并且返回步骤(i)。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:弗洛里安·马丁,向阳,
申请(专利权)人:菲利普莫里斯生产公司,弗洛里安·马丁,向阳,
类型:发明
国别省市:瑞士;CH
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。