一种用于提供对生物分子的测序的系统和方法,该系统和方法能够用于进行测试样本与正常样本的差异分析。方法能够涉及以下步骤:提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试‑正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试‑正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;重复所述下采样的步骤以确定用于计算测试‑正常基因组比较视图所需的最少试验读取数量,所述测试‑正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试‑正常基因组比较视图。
Methods for sequencing biological molecules
【技术实现步骤摘要】
【国外来华专利技术】用于对生物分子进行测序的方法
本专利技术涉及用于生物分子的下一代测序(NGS)的方法和系统。该系统能够使用来自用户定义样本的序列比对映射的二元BAM文件作为输入。对映射的BAM文件进行下采样能够用于确定获得关键生物信息所需的减少的读取数量。
技术介绍
在过去的几年中,生物分子的测序成本已经下降到大约百分之一,2016年每个基因组的成本大约为1000美元(参见例如https://www.genome.gov/27541954/dna-sequencing-costs-data/)。然而,由于生物序列信息在医学、药学、诊断学以及许多新的商业应用中的使用数量不断增加,因此近年来对序列数据和分析的需求急剧增加。随着要研究的样本或序列的数量的增加,对有效存储和分析序列数据的需求也已经大大增加。减少数量和成本的一种方法是进行多路复用样本测序。通过多路复用,而不是在测序仪的一个通道中对单个样本进行测序,能够一起加载能够具有独特条形码的多个样本。当对样本进行多路复用时获得的数据总量会减少。不幸的是,在一些研究应用中,减少每个样本的序列数据总量可能会使相关的生物信息丢失。此外,可能无法确定或估计获得某些生物信息所需的多路复用的先验深度(即,每个通道的样本数)。例如,在一些情况下,医学研究、临床试验、药物开发和诊断应用可能需要大量的研究对象。在许多情况下,数据量可能过高,特别是在必须存储和重复分析序列数据时就是这样。
技术实现思路
本专利技术的目的是提供用于估计在实验设计中收集足够数量的相关测序信息所需的测序深度的系统和方法。特别地,本专利技术的目的是提供通过确定获得关键生物信息所需的多路复用水平和测序深度来解决上述问题的系统和方法。对大量生物样本进行深度测序要求对样本进行多路复用以使测序成本最少化。在本专利技术中,能够预先确定多路复用水平和测序深度,使得能够获得测序数据而不会丢失关键生物信息。在测序系统中,能够对来自试验研究的少量样本进行测序以为研究设计提供信息。更特别地,能够确定测序深度并将其用于完整研究中的其余样本。根据本专利技术的示例性实施例,一种用于测序的系统和方法为实验设计提供关于能够使用的测序深度的信息以及多路复用水平的信息,同时仍然能够捕获足够的生物信息。该系统需要少量试验样本(其是较大实验设计的部分)进行测序以确定在生物信息与测序深度之间任何权衡的效果。该系统为用户(例如,个体研究人员)在所需深度执行测序以获得完整的生物信息。可以预想到,通过提供用于提供对生物分子进行测序以进行测试样本与正常样本的差异分析的系统和方法,在本专利技术的第一方面中获得了上述目的。在一些实施例中,所述方法能够包括以下步骤:提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。本专利技术的目的通过独立权利要求的主题来解决,其中,其实施例被并入在从属权利要求中。附图说明现在将参考附图来更详细地描述根据本专利技术的方法。这些附图示出了实施本专利技术的方式,并且不应被解释为限于落入所附权利要求的范围内的其他可能的实施例。图1示出了针对样本的基因表达分布的示例,初始数据具有9700万个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取中,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。图2示出了针对样本的基因表达分布的示例,初始数据具有1.12亿个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取中,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。图3示出了用于测序样本的多维缩放标绘图的示例,该多维缩放标绘图将生物信息显示为针对正常组织的转录组与针对疾病组织的转录组之间的差异。每个圆点对应于一个样本,并且在圆内指示样本编号。正常样本以红色显示,而肿瘤样本以绿色显示。轴以任意单位为单位。当点(样本)的转录组相似时,点(样本)的出现位置很接近。转录组之间的相似性能够通过其在标绘图上的欧几里得距离或其相关性(例如,斯皮尔曼相关性、皮尔逊相关性或肯德尔相关性)来测量。图4示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到5000万个读取。图5示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到100万个读取。具体实施方式本专利技术的目的是提供用于改变并确定在实验设计中根据测序数据获得相关生物信息所需的测序覆盖范围的系统和方法。更特别地,本专利技术的目的是提供用于确定根据样本获得关键生物信息所需的多路复用水平和/或测序深度的系统和方法。在一些实施例中,能够预先根据初始数据来确定最优的多路复用水平和测序深度,使得能够在较低的读取覆盖范围下获得测序数据,而不会丢失针对额外样本的关键生物信息。在测序系统中,能够对来自试验研究的少量样本进行测序,以确定在研究设计中能够如何获得生物信息。在一些情况下,能够确定测序深度并将其用于完整研究中的其余样本。根据本专利技术的示例性实施例,用于测序的系统和方法为实验设计提供关于测本文档来自技高网...
【技术保护点】
1.一种用于对生物分子进行测序以进行测试样本与正常样本的差异分析的方法,所述方法包括:/n提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;/n由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;/n由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;/n由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;/n重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;/n使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且/n由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。/n...
【技术特征摘要】
【国外来华专利技术】20170818 US 62/547,3371.一种用于对生物分子进行测序以进行测试样本与正常样本的差异分析的方法,所述方法包括:
提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;
由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;
由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且
由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。
2.根据权利要求1所述的方法,其中,所述映射的序列文件是BAM文件或SAM文件。
3.根据权利要求1所述的方法,其中,所述生物分子是多核苷酸或多肽。
4.根据权利要求1所述的方法,其中,所述生物分子是DNA、RNA或蛋白质。
5.根据权利要求1所述的方法,其中,所述差异分析将疾病测试样本与正常样本区分开。
6.根据权利要求1所述的方法,其中,所述差异分析将肿瘤测试样本与正常样本区分开。
7.根据权利要求1所述的方法,其中,所述试验读取数量被减少到500万。
8.根据权利要求1所述的方法,其中,所述试验读取数量被减少到100万。
9.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量为500万。
10.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量为100万。
11.根据权利要求1所述的方法,其中,映射的BAM文件由下一代测序来供应。
12.根据权...
【专利技术属性】
技术研发人员:张贻谦,N·迪米特罗娃,B·S·桑塔纳姆,
申请(专利权)人:皇家飞利浦有限公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。