生物测序制造技术

技术编号:30404461 阅读:12 留言:0更新日期:2021-10-20 11:03
在第一方面,本发明专利技术涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,所述方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理所述读段:(b1)在所述读段中搜索由所述指纹数据串表示的所述特征生物子序列中的一个或多个的出现,和(b2)通过在每次出现时确定与所述特征生物子序列连续的序列单元是否与所述存储库中的所述组合数据一致来验证或拒绝所述读段,以及/或(b1')在所述读段的头部和/或尾部搜索由所述指纹数据串表示的所述特征生物子序列中的一个的出现,和(b2')从所述存储库中的所述组合数据预测所述读段的一个或多个连续序列单元。读段的一个或多个连续序列单元。读段的一个或多个连续序列单元。

【技术实现步骤摘要】
【国外来华专利技术】生物测序


[0001]本专利技术涉及生物序列信息的处理,且更具体地说,涉及例如通过测序和/或序列组装来产生所述生物序列信息。提供用于在测序过程期间产生生物序列信息的系统和方法。

技术介绍

[0002]在过去的几十年里,生物测序以惊人的速度发展,使人类基因组计划成为可能,所述计划在超过15年前已经实现了对人类基因组的完整测序。为了推动这一发展,需要大量的技术进步,从样品制备和测序方法的进步到数据采集、处理和分析。与此同时,新的科学领域已经产生和发展,包含基因组学、蛋白质组学和生物信息学。
[0003]在后基因组时代对数据采集的重视的推动下,这一发展导致了大量序列数据的累积。然而,组织、分析和解释这个序列以从其中提取生物学相关信息的能力却一直落后。由于每天仍会生成大量新的序列信息,这个问题进一步复杂化。Muir等人观察到,这引发了范式转变,并且评论了由此产生的测序成本结构变化和其它相关障碍(MUIR,Paul等人,The real cost of sequencing:scaling computation to keep pace with data generation.Genome biology,2016,17.1:53.)。
[0004]当前,最常采用的测序方法是所谓的“高通量”或“下一代测序”(NGS)。与第一代测序相比,NGS的典型特征是高度可扩展,从而允许一次对整个基因组进行测序。通常,这是通过将较大的序列片段化成较小的片段,随机采样片段,并对其进行测序来实现的。在对不同片段进行测序后,可使用序列组装来重构原始序列,在所述序列组装中,序列片段基于其重叠区域进行比对和合并。
[0005]然而,测序器并非完美的,且测序误差(例如插入、取代和缺失)可能总是发生,特别是在寻求高通量时。如果要组装的序列片段含有误差,那么这显然会使原始序列的重构复杂化,这是因为对应区域可能不再重叠。此外,误差还可能传播到最终序列中,例如导致错误的变体识别。已研发出一些策略来处理这些测序误差,例如Shmilovici等人所公开(SHMILOVICI,Armin;BEN

GAL,Irad.Using a VOM model for reconstructing potential coding regions in EST sequences.Computational Statistics,2007,22.1:49

69.)。然而,当前还没有有效方法来直接验证(片段)序列是否正确,或其是否含有一个或多个序列误差。
[0006]基因组图用作从单一读段进行序列重构的参考,所述单一读段通常是较短的DNA或RNA序列。由此,线性参考是一个单一基因组的表示。对于完整表示,需要组合多个基因组以便发现物种可能具有的所有变化。
[0007]正确构造泛基因组图时会出现多个问题。首先,即使最好的组装参考基因组也含有缺失和错误。其次,无法找到合适的图形表示来围封所有必要信息以抵消稍后在将执行图形映射的过程时出现的问题。De Bruijn图、定向图或双定向图都不能准确地表示链。第三,似乎有可能使用当前技术创建参考群组,但由于缺少结构坐标,所构造的群组基本上不可用于实践中。
[0008]此外,曲线图缺少操作位点定义。由于对数复杂度,重复区域甚至更难使用已知的基于k

mer的技术来表示。结论,由于不可能使用现有技术保持所有必要数据,因此几乎不可能在1物种的图形结构中构造变化群组,更不可能针对所有生物物种构造变化群组。
[0009]结构变体在癌症和其它疾病的发展中发挥重要作用,并且与单核苷酸变异相比研究较少,部分原因是缺乏从读段数据中进行可靠识别。当使用k

mer技术时,变化的检测窗口根据定义小于k

mer的总长度。使用克服k

mer窗口问题的算法,不能有效地识别结构变体。需要高覆盖率才能找到仅一个结构变化的证据。因此,k

mer的使用需要一个大池才能有效地从噪声和读段误差中识别出真正的变化。由于缺乏动态算法来比对k

mer,许多k

mer会导致计算难题。问题由于使用动态规划而出现;这种动态方法的不可行性导致启发式的固有使用。此又说明需要启发式或参数化来缩小搜寻空间。然而,后者导致不可避免的误差累积,这表明k

mer不是有效的统一空间模式。目前,这仅以严格单维的句法方式解决。
[0010]由于映射和组装过程的NP

困难性质,贪婪算法通常用于解决这些问题,由此根据某一输入使用扩展矩阵来计算相关结果。
[0011]已使用动态规划,但与其相关的问题在于源数据(如位置、读段ID等的参数)丢失并且无法再进行回溯。
[0012]所有上述问题使得有效且准确的图形折叠几乎不可能。这导致不可能提供构造可用泛基因组图所需的必要准确度或位置数据。此外,k

mer的使用缺乏区分遗传信息中的多维参数的特异性。这进一步添加到当前基因组图的低效构造,其展示为不能识别结构变异、偏差或有效地包围高重复区域。
[0013]因此,本领域仍然需要进一步改进测序和序列组装。

技术实现思路

[0014]本专利技术的目的是提供一种产生生物序列信息的好方法。此目的通过根据本专利技术的方法、设备和数据结构来实现。
[0015]在第一方面,本专利技术涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理读段:(b1)在读段中搜索由指纹数据串表示的特征生物子序列中的一个或多个的出现,和(b2)通过在每次出现时确定与特征生物子序列连续的序列单元是否与存储库中的组合数据一致来验证或拒绝读段,和/或(b1')在读段的头部和/或尾部中搜索由指纹数据串表示的特征生物子序列中的一个的出现,和(b2')从存储库中的组合数据预测读段的一个或多个连续序列单元。在本文中,指纹数据串的存储库用于生物序列数据库,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的组合数定义为作为生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的数目,存储库进一步包括表示作为对应特征生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的组合数据。
[0016]本专利技术的实施方案的优点在于,获得系统和方法,从而提供降低的复杂度。
[0017]本专利技术的实施方案的优点在于,获得确定性的系统和方法,即产生给定解决方案。
[0018]本专利技术的实施方案的优点在于,可通过依赖包含在指纹数据串的存储库中的信息
来改进生物聚合物和生物聚合物片段的测序(例如通过降低误差的可能性或通过加快过程)。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种考虑到包含在用于生物序列数据库的指纹数据串的存储库(100)中的信息,对生物聚合物或生物聚合物片段(500)进行测序的方法,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在所述生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的所述组合数定义为作为所述生物子序列的连续序列单元出现在所述生物序列数据库中的不同序列单元的数目,所述存储库进一步包括表示作为对应特征生物子序列的连续序列单元出现在所述生物序列数据库中的所述不同序列单元的组合数据;所述方法包括:a.使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和b.通过以下计算机实现的步骤处理所述读段:b1.在所述读段中搜索由所述指纹数据串表示的所述特征生物子序列中的一个或多个的出现,和b2.通过在每次出现时确定与所述特征生物子序列连续的序列单元是否与所述存储库中的所述组合数据一致来验证或拒绝所述读段,和/或b1'.在所述读段的头部和/或尾部中搜索由所述指纹数据串表示的所述特征生物子序列中的一个的出现,和b2'.从所述存储库中的所述组合数据预测所述读段的一个或多个连续序列单元。2.根据权利要求1所述的方法,其中所述存储库至少包括

第一指纹数据串,其表示第一长度的第一特征生物子序列;和

第二指纹数据串,其表示第二长度的第二特征生物子序列,其中所述第一长度和所述第二长度等于4或大于4,且其中所述第一长度和所述第二长度彼此不同。3.根据权利要求1或2所述的方法,其中步骤a包括获得所述生物聚合物或生物聚合物片段的多个读段,且其中步骤b在获得所述生物聚合物或生物聚合物片段的所有读段之前开始。4.根据前述权利要求中任一项所述的方法,其中步骤b2和/或b2'包括使用以下各者:

当所述特征生物子序列存在于生物聚合物中时,与所述特征生物子序列的二级和/或三级和/或四级结构相关的数据;和/或

与所述特征生物子序列和一个或多个另外的特征生物子序列之间的关系相关的数据;和/或
‑...

【专利技术属性】
技术研发人员:D
申请(专利权)人:生物线索公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1