用于生成生物标志物签名的系统和方法技术方案

技术编号:11262783 阅读:103 留言:0更新日期:2015-04-08 08:09
在此描述的系统和方法包括用于生成既可重现又可解释的基因签名的技术。该技术涉及对数据集进行重新采样并且选择具有高出现频率的基因。具体而言,在此描述的系统和方法包括对数据集的重复采样、基于通过重复采样处理生成的基因签名的发生频率对基因进行排名,以及迭代地选择最佳基因签名。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】在此描述的系统和方法包括用于生成既可重现又可解释的基因签名的技术。该技术涉及对数据集进行重新采样并且选择具有高出现频率的基因。具体而言,在此描述的系统和方法包括对数据集的重复采样、基于通过重复采样处理生成的基因签名的发生频率对基因进行排名,以及迭代地选择最佳基因签名。【专利说明】 相关申请的引用 本专利技术根据35U.S.α§ 119要求在2012年6月21日提交的题为"Systemsand MethodsforGeneratingBiomarkerSignatures" 的美国临时专利申请第 61/662, 658 号 的优先权。
在生物医学领域,识别指示特定生物状态的物质(即生物标志物(biomarker))是 重要的。随着基因组和蛋白质组的新技术出现,生物标志物在生物发现、药物开发和卫生保 健中正变得愈发重要。生物标志物不仅对许多疾病的诊断和预后有用,而且对理解疗法开 发的基础有用。生物标志物的成功和有效识别可以加速新药物开发过程。随着疗法与诊断 和预后的结合,生物标志物识别也将增强当前医疗治疗的质量,从而在药物遗传学、药物基 因组学和药物蛋白质组学的用途中发挥重要作用。 包括高吞吐量筛选在内的基因组和蛋白质组分析提供了关于以细胞表达的蛋白 质的数目和形式的大量信息并且提供了针对每一个细胞来识别特定细胞状态的表达蛋白 质特性的简档的可能。在某些情况下,该细胞状态可能是以与疾病相关联的异常生理反应 为特征。结果,识别并且比较来自具有疾病的患者的细胞状态和来自正常患者的对应细胞 的细胞状态可以提供诊断和治疗疾病的机会。 这些高吞吐量筛选技术提供了基因表达信息的大数据集。研宄者已经尝试开发用 于将这些数据集组织为对个体的多样人群是可重现诊断性的模式的方法。一种方法是聚集 来自多个源的数据以形成组合数据集然后将该数据集分为发现/训练集和测试/验证集。 然而,转录分析数据(profilingdata)和蛋白质表达分析数据经常以与样本的可用数目有 关的大量变量为特点。 来自患者群组或者控制群组的标本的表达谱(expressionprofile)之间的观察 差异通常被若干因素遮蔽,这些因素包括疾病或者控制人群内的生物变化性或者未知子表 型、由研宄方案的差异引起的特定于部位的偏差、标本处理、由仪器条件的差异(例如,芯 片批次等)引起的偏差以及由测量误差引起的变化。 若干基于计算机的方法已被开发以寻找最好说明疾病和控制样本之间的差异的 一组特征(标志物)。一些早期方法包括诸如UMM之类的统计测试、用于识别与乳腺癌有 关的生物标志物的FDA批准的ma_aprint技术、逻辑回归技术以及诸如支持向量机(SVM) 之类机器学习方法。一般而言,从机器学习的角度,生物标志物的选择通常是分类任务的特 征选择问题。然而,这些早期解决方案面临若干缺点。通过这些技术生成的签名不是可重 现的,这是因为对象的包括和排除可以导致不同的签名。这些早期解决方案也不是鲁棒性 的,这是因为它们对具有小样本尺寸和高维度的数据集进行操作。此外,通过这些技术生成 的签名包括许多假阳性并且难以以生物方式解释,这是因为技术和基因签名本身都不阐明 底层生物机制。结果,因为它们不是可重现的并且难以解释,因此它们对临床诊断可能不是 特别有用。 较新的技术涉及将关于正则通路(canonicalpathway)和蛋白质-蛋白质交互作 用的知识集成到基因选择算法中。另外,若干特征选择技术已被开发,并且这些技术包括过 滤方法、包装方法和嵌入方法。过滤方法独立于分类器设计而工作并且通过考虑数据的内 在属性来执行特征选择。包装和嵌入方法通过利用特定分类模型来执行特征选择。包装方 法在分类模型的预测性能的引导下在可能特征子集的空间中使用搜索策略。嵌入式方法利 用分类模型内部参数来执行特征选择。然而,这些技术也面临若干缺点。 因此,存在对为了临床诊断、预后或者这两者而识别生物标志物的改进技术的需 要。
技术实现思路
如上面提到的,早期的解决方案以及更新的嵌入和包装方法面临若干缺点。具体 而言, 申请人:已经认识到这些方法依赖于所使用的具体类型的分类方法。换言之,如果分类 方法不适合用户数据的类型,那么这些方法通常倾向于失败或者不佳地执行。 申请人:已经 进一步认识到多个方法的整体倾向于做得比单独方法更好。在此描述的计算机系统和计算 机程序产品实现了包括一个或多个这种整体技术并且包括用于生成可重现且可解释的基 因签名的方法。该技术涉及对数据集进行重新采样并且选择具有高出现频率的基因。具体 而言,在此描述的计算机实现的方法包括对数据集的重复采样、基于通过重复采样处理生 成的基因签名的发生频率对基因进行排名,以及迭代地选择最佳基因签名。 在某些方面,在此描述的系统和方法包括用于识别疾病情况的生物签名或者一组 生物标志物的装置和方法。这些方法可以包括接收多个数据集,每一个数据集包括生物系 统中的多个生物实体中的每一个生物实体的活动或者表达水平数据。生物系统可以处于若 干个状态中的一个。例如,生物系统可以处于由暴露于物质而引起的扰动状态。在另一个 示例中,生物系统可以处于疾病情况的状态,或者处于控制情况或者正常情况的状态。这些 方法还可以包括多次迭代,针对每一次迭代,将多个数据集分为训练部分和测试部分。这多 个数据集中的训练部分可以被用来通过比较对应于生物系统的两种不同状态(例如,疾病 状态和正常状态)的表达水平来确定每一个生物实体的差异表达。另外,训练部分可以被 用来将训练部分中具有高于阈值的差异表达的预定数目的生物实体存储作为子候选签名。 训练部分还可以被用来生成基于数据集内的识别出的生物实体的表达水平将数据集中的 每一个指派给疾病类和正常或控制类中的一个的分类规则。 针对多次迭代中的每一次,这些方法还可以包括使用多个数据集中的测试部分来 应用分类规则以将每一个数据集指派给疾病类和正常/控制类中的一个,并且通过将每一 个数据集的指派与和该数据集相关联的生物系统的状态相比较来生成子候选签名的性能 子测量结果。在某些实施例中,这些方法包括通过从子候选签名的聚合中选择频繁排名高 的生物实体来生成具有预定数目生物实体的候选签名,以及基于性能子测量结果来生成与 候选签名相关联的性能测量结果。在某些实施例中,这些方法包括针对预定数目的多个不 同值重复以上步骤中的一个或多个以生成多个候选签名和多个相关联的性能测量结果。然 后,与最高性能测量结果或者超过某一阈值的性能测量结果相关联的候选签名被存储作为 生物签名。 在上述方法的某些实施例中,多个生物实体包括基因和miRNA中的一个或多个。 表达水平可以包括甲基化数据、基因表达数据、miRNA表达数据和蛋白质表达数据中的一个 或多个。在上述方法的某些实施例中,确定差异表达的步骤包括微阵列显著性分析(SAM) 分析和Li_a分析中的至少一种。Li_a较之SAM可以是优选的,这是因为Li_a与更高效 率和对计算能力的更低要求相关联。在这些方法的某些实施例中,生成分类规则的步骤可 以包括支持向量机方法。一般而言,分类器可以包括基于网络的支持向量机、基于神经网络 的分类本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201380039795.html" title="用于生成生物标志物签名的系统和方法原文来自X技术">用于生成生物标志物签名的系统和方法</a>

【技术保护点】
一种用于识别疾病状态的生物签名的计算机实现的方法,包括:(a)接收多个数据集,每一个数据集包括在包括疾病状态和控制状态在内的不同状态下的生物系统中的多个生物实体的表达水平;(b)针对多次迭代中的每一次:(i)将所述多个数据集分为训练部分和测试部分,(ii)使用所述多个数据集中的训练部分来将所述训练部分中具有高于阈值的差异表达的预定数目的生物实体存储作为子候选签名,并且生成将所述数据集中的每一个指派给疾病类和控制类中的一个的分类规则,并且(iii)使用所述多个数据集中的测试部分来应用所述分类规则以将每一个数据集指派给所述疾病类和所述控制类中的一个,并且基于所述指派生成性能子测量结果;(c)通过从所述子候选签名的聚合中选择频繁识别出的生物实体来生成具有预定数目生物实体的候选签名;(d)基于所述性能子测量结果来生成与所述候选签名相关联的性能测量结果;(e)针对所述预定数目的多个不同值重复步骤(b)至(d)以生成多个候选签名和多个相关联的性能测量结果;以及(f)将与最高性能测量结果相关联的所述候选签名存储作为所述生物签名。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:向阳朱丽娅·亨格
申请(专利权)人:菲利普莫里斯生产公司向阳朱丽娅·亨格
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1