用于组装来自一个或多个生物体的染色体段的方法、设备和计算机程序技术

技术编号:14740200 阅读:76 留言:0更新日期:2017-03-01 14:24
本发明专利技术涉及从代表文库的DNA片段的一组原始子序列组装代表至少一条染色体段的序列,所述文库包括包含连续核苷酸的链的DNA片段并且包括包含连续核苷酸的至少两条链的组合的DNA片段。在获得代表DNA区域之间的接触频率的第一值之后,所述第一值与代表相应DNA区域之间的距离的第二值相关联,迭代地进行以下步骤:‑基于所述第一和第二值并基于将DNA区域之间的接触概率与相应DNA区域之间的距离相关联的理论模型更新基因组结构,更新的基因组结构代表染色体的真实基因组结构;和‑更新作为更新的基因组结构的函数的所述理论模型的参数。

【技术实现步骤摘要】
【国外来华专利技术】专利
本专利技术总体上涉及基因组组装的领域。更具体地,本专利技术涉及用于使用与高通量测序结合的染色体构象捕获来组装一个或多个生物体的一个或多个基因组的方法、设备和计算机程序。专利技术背景微生物群落是维持环境稳定性和健康活生物体的基础。微生物物种最初是单独研究的,并且已经导致在诸如农业经济学、医学或消除污染的多种领域中开发了许多技术。由于技术的进步,现在有可能通过宏基因组学方法研究微生物群落的复杂性(例如超过100,000种不同的物种共存于一克土壤中,或数十亿微生物共存于人体内)。宏基因组学研究主要在于收集、测序和分析从直接从诸如皮肤、深海、肠、土壤、水等多样的环境中收集的微生物群落直接提取的遗传物质。DNA(脱氧核糖核酸)分子的数百万个随机段(其可以克隆到载体中)构成可以覆盖成千上万种不同物种的文库。对这样的文库的计算机(insilico)和实验分析导致发现新的基因和酶、新的网络和潜在的新物种(在地球上尚未发现的超过一千万种物种中的)。这种新方法不仅目前正在彻底改变我们对世界的理解,而且将最显著地在医学、能源和农业经济学领域中促进工业应用。许多公司已经开始挖掘这种未知的微生物多样本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580034173.html" title="用于组装来自一个或多个生物体的染色体段的方法、设备和计算机程序原文来自X技术">用于组装来自一个或多个生物体的染色体段的方法、设备和计算机程序</a>

【技术保护点】
一种用于基于代表至少一个文库的所有DNA片段的一组原始子序列组装代表至少一个生物体的至少一条染色体的至少一段的至少一个序列的用于计算机的方法,所述至少一个文库包括包含所述至少一条染色体的连续核苷酸的链的DNA片段并且包括包含所述至少一条染色体的连续核苷酸的至少两条链的组合的DNA片段,所述方法包括以下步骤:‑获得代表所述至少一条染色体的DNA区域之间的接触频率的第一值,所述第一值与代表相应DNA区域之间的距离的第二值相关联;和‑迭代地执行以下步骤:‑基于所述第一和第二值并基于将DNA区域之间的接触概率与相应DNA区域之间的距离相关联的理论模型更新基因组结构,更新的基因组结构代表所述至少一个生物...

【技术特征摘要】
【国外来华专利技术】2014.06.24 EP 14305997.01.一种用于基于代表至少一个文库的所有DNA片段的一组原始子序列组装代表至少一个生物体的至少一条染色体的至少一段的至少一个序列的用于计算机的方法,所述至少一个文库包括包含所述至少一条染色体的连续核苷酸的链的DNA片段并且包括包含所述至少一条染色体的连续核苷酸的至少两条链的组合的DNA片段,所述方法包括以下步骤:-获得代表所述至少一条染色体的DNA区域之间的接触频率的第一值,所述第一值与代表相应DNA区域之间的距离的第二值相关联;和-迭代地执行以下步骤:-基于所述第一和第二值并基于将DNA区域之间的接触概率与相应DNA区域之间的距离相关联的理论模型更新基因组结构,更新的基因组结构代表所述至少一个生物体的至少一条染色体的至少一段的真实基因组结构;和-更新作为更新的基因组结构的函数的所述理论模型的参数。2.根据权利要求1所述的方法,其中两个DNA区域之间的距离被测定为沿着预定路径的两个DNA区域之间的距离和/或两个DNA区域之间的空间距离的函数。3.根据权利要求1或权利要求2所述的方法,还包括将代表至少一个文库的所有DNA片段的原始子序列分成多个箱的步骤。4.根据权利要求1至3中任一项所述的方法,还包括产生多个基因组候选结构和计算每个所产生的候选基因组结构更接近于真实基因组结构的显式似然值的步骤。5.根据权利要求4所述的方法,其中产生多个基因组候选结构的步骤基于包括易位、缺失、倒置和重复中的至少一种变化的预定结构变化。6.根据权利要求4或5所述的方法,其中根据多重尝试Metropolis类型的规则选择所生成的基因组候选结构之一作为相关联的似然值的函数。7.根据权利要求4至6中任一项所述的方法,依赖于权利要求3,其中基因组候选结构通过箱的结构变化来确定。8.根据权利要求1至7中任一项所述的方法,其中更新理论模型参数的步骤基于Gibbs采样类型的算法。9.根据权利要求1至8中任一项所述的方法,其中所述理论模型包括代表用于区分DNA区域之间的染色体内接触与DNA区域之间的染色体内和染色体间接触的阈值的至少一个参数。10.根据权利要求1至9中任一项所述的方法,其中所述理论模型包括代表用于区分DNA区域之间的染色体内接触或DNA区域之间的染色体内和染色体间接触与不同生物体之间的接触的阈值的至少一个参数。11.根据权利要求1至9中任一项所述的方法,还包括对所述至少一个文库的DNA片段进行聚类的步骤,其中每个聚簇与特定生物体相关,所述原始子序列对应于被处理用于基于聚簇测序的经聚类的DNA片段。12.根据权利要求11所述的方法,其中对所述文库的DNA片段进行聚类的步骤基于Louvain类型的算法。13.根据...

【专利技术属性】
技术研发人员:R·克祖尔M·玛波缇H·D·玛瑞奈利A·科纳克
申请(专利权)人:巴斯德研究所
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1