基因表达数据的跨平台转换制造技术

技术编号:16047161 阅读:27 留言:0更新日期:2017-08-20 06:24
一种数据驱动的通用的基于回归的架构,所述架构支持测量结果在宽动态范围内从一个平台转换到另一平台,其可应用于但不限于基因表达,其中,选定的总结统计/特征值作为用于模型参数的预测指标。该架构包括初级模型训练和转换以及额外水平的分类回归和转换过程。

【技术实现步骤摘要】
【国外来华专利技术】基因表达数据的跨平台转换相关申请的交叉引用本专利技术涉及于2014年10月17日提交的共同待决的美国临时申请No.62/065367,在此通过引用将其完整公开内容并入,如同其完整地在本文中被阐述。
本专利技术的实施例总体涉及基因表达数据的使用,并且具体涉及跨过不同谱分析平台使用基因表达数据。
技术介绍
基因表达的动态范围根据谱分析平台的选择而可能可观地变化。因此,预测性基因标志一般是平台特异性的。一般来说,由不同种类的平台生成的表达数据不能被直接组合用于计算分析,因此限制旧数据的使用并且妨碍新的谱分析技术的采用。更具体地,会难以将从极大量的旧微阵列研究得到的知识和见解转移到新平台(诸如下一代测序(NGS)系统)上。已经提出许多方法来处理表达数据的跨平台兼容性。一种方法涉及将探测结果/读数映射到通用基因组目标,然后针对每个目标调用平台水平的表达(针对微阵列的RMA和针对RNA-Seq的RPKM),并且最后应用分位数归一化,假设跨平台的表达分布仅在样本特异性比例因子上不同。另一方法涉及应用逐基因因子分析以利用预期最大化(EM)算法从多个平台获得统一的表达测量结果。又一方法使用功能测量误差模型的系统来对基因表达测量结果进行建模,并且使用针对基因的子集的据称更可靠但是低通量qRT-PCR表达来对平台进行校准。然而,像因子分析一样,该模型仅可以对适合所有三个平台的表达范围适用,并且具有极限表达的基因被排除。又一方法涉及对与RNA-Seq数据中的探针区域交叠的读数的数量进行计数,使用经验贝叶斯方法估计探针区域表达,并且随后将修改的RMA算法(即,没有背景修正步骤)应用在探针区域表达上以获得基因水平的表达。然而,该方法涉及关于映射的读数的更复杂的计算,并且在平台的选择方面(即针对输入的RNA-Seq和针对输出的RMA)是硬性的。考虑到这些现有方法的限制,将期望具有支持测量结果从一个基因表达平台到另一基因表达平台的转换的一般化方法。
技术实现思路
提供此
技术实现思路
来以简化的形式介绍一些概念,这些概念在下文详细说明部分中被进一步描述。此
技术实现思路
并不旨在识别所要求保护的主题的关键特征或重要特征,也不旨在被用作确定所要求保护的主题的范围的辅助手段。本专利技术的方面涉及一种数据驱动的通用的基于回归的架构,所述架构支持测量结果在宽动态范围内从一个平台到另一平台的转换,其可应用于但不限于基因表达,其中,选定的总结统计/特征值作为用于模型参数的预测指标。该架构包括初级模型训练和转换以及额外水平的分类回归和转换过程。本专利技术的实施例消除了为了组合的分析的不必要的样本的重新谱分析,解决了向后兼容性问题,并且通过允许旧数据被容易地转换以便与来自更新平台的数据一起使用而促进新的谱分析技术的采用。此外,通过将输入数据转换到主要平台或通过针对替代性平台调整标签的参数,平台特异的基因标签能够扩展以便在来自多个平台的表达数据上使用。根据本公开的一个方面,本专利技术的实施例涉及一种用于对基因表达数据进行转换的方法。在一些实施例中,所述方法包括构建使用样本表达数据来将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型,使得经转换的数据的总体分布类似于所述第二平台的数据总体分布。在一些实施例中,构建所述初级模型包括,识别在利用第一谱分析平台得到的核酸表达数据的第一集合与利用第二谱分析平台得到的核酸表达数据的第二集合之间的至少一个共同表达,其中,每个共同表达与所述第一集合和所述第二集合两者中都存在的样本相关联。在一些实施例中,构建所述模型包括,对所述至少一个共同表达执行回归分析,得到针对每个样本的回归参数的一个集合。在一些实施例中,构建所述模型包括,从所述第一谱分析平台选择预测所述至少一个集合回归参数的至少一个候选特征。在一些实施例中,构建所述模型包括,识别针对与所选择的所述至少一个候选特征中的每个相关联的逐样本的数据转换的初级模型。在一些实施例中,构建所述模型还包括,利用谱分析平台生成表达数据的至少一个集合,所述表达数据的至少一个集合是表达数据的所述第一集合和第二集合中的至少一个集合。在一些实施例中,所述方法包括利用所述构建的初级模型转换所述样本表达数据。在一些实施例中,所述方法包括通过根据以下中的至少一个进行回归分析来构建分类模型:(a)经转换的样本表达数据中的至少一些和(b)共同表达中的至少一些。在一些实施例中,以下中的至少一项是基于表型数据或己知引入跨平台偏差的任何因子的:(a)对经转换的样本表达数据中的至少一些的选择和(b)对共同表达中的至少一些的选择。在一些实施例中,所述方法包括使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型来对该过程进行迭代。在一些实施例中,所述方法包括通过以构建的分类模型的构建的顺序应用所述构建的分类模型而将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。在一些实施例中,所述第一谱分析平台或所述第二谱分析平台选自包括但不限于以下项的组:AgilentGeneExpressionMicroarrays、AffymetrixGeneProfilingArraycGMPU133P2/HumanGenomeU133Plus2.0/U133A2.0、IlluminaGenomeAnalyzer/MiSeq/NextSeq/HiSeq、NanoStringnCounterSPRINT/MAX/FLEX、以及OxfordNanoporeMinION/PromethION/GridION。在一些实施例中,所述至少一个共同表达通过以下中的至少一种来识别:匹配基因组位置、匹配外显子、匹配亚型(isoform)和匹配转录。在一些实施例中,所述至少一个候选特征选自包括以下项的组平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的总数量、每个外显子/基因/亚型的读数的平均数量、读数范围和每个样本的任何其他适当统计。在一些实施例中,所述模型中的每个选自包括以下项的组:线性模型、对数模型、分段线性模型和回归模型。根据本公开的另一方面,本专利技术的实施例涉及一种用于对基因表达数据进行转换的装置。在一些实施例中,所述装置包括处理器。在一些实施例中,所述装置包括接口。在一些实施例中,所述装置包括可在所述处理器上运行的计算机可执行指令。在一些实施例中,所述计算机可执行指令在所述处理器上运行,以利用样本表达数据构建用于将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型,使得所述转换的数据的总体分布类似于所述第二平台的数据总体分布。在一些实施例中,用于构建所述初级模型的所述计算机可执行指令包括用于以下的计算机可执行指令:识别利用第一谱分析平台得到的核酸表达数据的第一集合与利用第二谱分析平台得到的核酸表达数据的第二集合之间的至少一个共同表达,每个共同表达与所述第一集合和第二集合两者中都存在的样本相关联。在一些实施例中,用于构建模型的所述计算机可执行指令包括用于以下的计算机可执行指令:对所述至少一个共同表达执行回归分析,得到针对每个样本的回归参数的一个集合。在一些实施例中,用于构建模型的所述计算机可执行指令包括用于以下的计算可执行指令:从所述第一谱分析平台选择预测所述至少一个集合回本文档来自技高网
...
基因表达数据的跨平台转换

【技术保护点】
一种用于对基因表达数据进行转换的方法,所述方法包括:使用样本表达数据来构建用于将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型。

【技术特征摘要】
【国外来华专利技术】2014.10.17 US 62/065,3671.一种用于对基因表达数据进行转换的方法,所述方法包括:使用样本表达数据来构建用于将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型。2.根据权利要求1所述的方法,其中,构建所述初级模型包括:识别利用第一谱分析平台导出的核酸表达数据的第一集合与利用第二谱分析平台导出的核酸表达数据的第二集合之间的至少一个共同表达,每个共同表达与所述第一集合和所述第二集合两者中都存在的样本相关联;在所述至少一个共同表达上执行回归分析,得到针对每个样本的回归参数的一个集合;从所述第一谱分析平台选择预测所述回归参数的至少一个集合的至少一个候选特征;并且识别用于与所选择的所述至少一个候选特征中的每个相关联的逐样本数据转换的初级模型。3.根据权利要求2所述的方法,还包括利用谱分析平台生成表达数据的至少一个集合,表达数据的所述至少一个集合是表达数据的所述第一集合和所述第二集合中的至少一个集合。4.根据权利要求1所述的方法,还包括:利用所构建的初级模型来对所述样本表达数据进行转换;以及通过根据以下中的至少一项进行回归分析来构建分类模型:(a)经转换的样本表达数据中的至少一些和(b)所述共同表达中的至少一些。5.根据权利要求4所述的方法,其中,以下中的至少一项是基于表型数据或己知的引入跨平台偏差的任何因子的:(a)对经转换的样本表达数据中的至少一些的选择和(b)对所述共同表达中的至少一些的选择。6.根据权利要求4所述的方法,还包括,使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型来对权利要求4进行迭代。7.根据权利要求6所述的方法,还包括,通过以所构建的分类模型构建的顺序应用所构建的分类模型来将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。8.根据权利要求1所述的方法,其中,所述第一谱分析平台或所述第二谱分析平台选自包括以下项的组:AgilentGeneExpressionMicroarrays、AffymetrixGeneProfilingArraycGMPU133P2/HumanGenomeU133Plus2.0/U133A2.0、IlluminaGenomeAnalyzer/MiSeq/NextSeq/HiSeq、NanoStringnCounterSPRINT/MAX/FLEX、以及OxfordNanoporeMinION/PromethION/GridION。9.根据权利要求2所述的方法,其中,所述至少一个共同表达通过以下中的至少一种来识别:匹配基因组位置、匹配外显子、匹配亚型和匹配转录。10.根据权利要求2所述的方法,其中,所述至少一个候选特征选自包括以下项的组:平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的数量、每个外显子/基因/亚型的读数的平均数量、读数范围和样本统计。11.根据权利要求6所述的方法,其中,所述模型中的每个选自包括以下项的组:线性模型、对数模型、分段线性模型、以及回归模型。12.一种用于对基因表达数据进行转换的装置,所述装置包括:处理器;接口;以及计算机可执行指令,其能在所述处理器上运行以:利用样本表达数据构建初级模型,所述初级模型用于...

【专利技术属性】
技术研发人员:Y·H·张W·F·J·费尔哈格N·迪米特罗娃
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1