利用Hi-C技术的基因辅助组装方法、染色体水平基因组及应用技术

技术编号：38680193 阅读：10 留言：0更新日期：2023-09-02 22:53

本发明专利技术涉及一种利用Hi

全部详细技术资料下载

【技术实现步骤摘要】
利用Hi
‑
C技术的基因辅助组装方法、染色体水平基因组及应用

[0001]本专利技术涉及一种利用Hi
‑
C技术的基因辅助组装方法，组装得到的染色体水平的基因组及应用。

技术介绍

[0002]染色体水平参考基因组构建是染色体互作、全基因组重测序、染色体进化分化、表观基因组学等研究的基础，可以应用于多个领域，是非常有必要的。
[0003]Hi
‑
C技术(High
‑
throughput/resolution Chromosome Conformation Capture)源于染色体构象捕获(Chromosome Conformation Capture
‑
3C)技术，以整个细胞核为研究对象，利用高通量测序技术，结合生物信息学方法，研究全基因组范围内整个染色体DNA的交互关系。Hi
‑
C辅助组装即通过捕获染色体DNA的交互关系，根据染色体内部互作频率显著高于染色体间互作频率，同时，在同一条染色体上互作频率随着互作距离的增加而减少的原理，将Scaffold或者Contig聚类到组群，并进一步对组群内的Contig/Scaffold进行排序及定向，实现趋近于染色体水平的基因组挂载。
[0004]近年来已发表的高质量动植物基因组，染色体水平的参考基因组占比逐年升高，Hi
‑
C在染色体挂载应用中逐渐显现出其优势。
[0005]目前Hi
‑
C辅助组装一般步骤如下：1....

【技术保护点】

【技术特征摘要】
1.一种利用Hi
‑
C技术的基因辅助组装的方法，包括：对样品进行Hi
‑
C文库构建和测序以获得第一数据集；将所述第一数据集与参考基因组数据集进行比对并挑选，得到第二数据集；对所述第二数据集进行初步组装，得到初步组装数据集；对所述初步组装数据集进行处理和筛选；其中，将所述第一数据集与参考基因组数据集进行比对并挑选的方法包括：将第一数据集中的每个数据与参考基因组数据集进行第一比对，得到能比对到参考基因组数据集的第一子集和不能比对到参考基因组数据集的第二子集；将所述第二子集中的每个数据进行酶切之后文库的连接位点搜索，从搜索到的酶切之后文库的连接位点处对第二子集中的数据进行打断，并将打断后的数据再次与参考基因组数据集进行第二比对，得到能够比对到参考基因组数据集上的第三子集；将所述第一子集和第三子集合并、挑选，得到第二数据。2.根据权利要求1所述的方法，其中，所述数据包括Read，和/或，所述数据集包括多个Reads。3.根据权利要求1所述的方法，其中，所述挑选的条件包括：挑选数据的双端均比对到参考基因组数据集唯一位置的数据。4.根据权利要求1所述的方法，其中，所述初步组装的方法包括：基于细胞核内同一染色体上的互作频率高于不同染色体的互作频率，将第二数据集进行初步组装，得到初步组装的Contig/Scaffold；优选地，所述初步组装基于LACHESIS。5.根据权利要求1
‑
4中任一项所述的方法，其中，对所述初步组装数据集进行处理和筛选的方法包括：将初步组装数据分配到染色体群中；对分配到每一个染色体群中的初步组装数据进行排序、定向和筛选；优选地，对所述初步组装数据集进行处理和筛选基于LACHESIS；优选地，所述分配的方法包括聚类方法；优选地，所述排序的方法包括：将一个染色体的群组内的Contig/Scaffold，根据互作关系构建无环的生成树，...

【专利技术属性】
技术研发人员：任雪，刘涛，李志民，涂成芳，杨伟飞，王娟，
申请(专利权)人：浙江安诺优达生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人