高杂合二倍体序列组装结果去冗余的方法、装置及其应用制造方法及图纸

技术编号:31323286 阅读:34 留言:0更新日期:2021-12-13 00:11
本发明专利技术提供了一种高杂合二倍体序列组装结果去冗余的方法、装置及其应用。该方法包括:根据HiC数据与高杂合二倍体序列组装结果比对得到包含多重比对在内的所有比对信息的比对文件;计算contig内的HIC互作强度,进而对高杂合二倍体序列组装结果中连接错误的contig进行打断;利用打断后的连接正确的基因组、其对应的比对文件及contig间的互作强度对contig进行聚类,得到多个类群;对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。解决了难以去除冗余序列的问题。列的问题。列的问题。

【技术实现步骤摘要】
高杂合二倍体序列组装结果去冗余的方法、装置及其应用


[0001]本专利技术涉及基因组序列组装领域,具体而言,涉及一种高杂合二倍体序列组装结果去冗余的方法、装置及其应用。

技术介绍

[0002]目前,基因组组装主要是基于PacBio单分子实时测序(single molecule real time,SMRT,包括CLR和HIFI数据),或/和ONT(Oxford Nanopore Technologies)测序,或/和NGS测序(Next

generation sequencing technology)等将基因组组装到contig水平,之后使用多种技术进行scaffold连接,如10X Genomic、Bionano等,最后利用基因组图谱或者HIC数据等挂载到染色体水平。
[0003]但是在组装的过程中,也会存在一定的问题,尤其是对于高杂合物种(高杂合是指杂合度高于0.5%,其中,杂合度是从数学的角度,采用k

mer分析,通过计算序列中杂合位点的比例得到),现有的算法很容易使得组装结果远远大于基因本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高杂合二倍体序列组装结果去冗余的方法,其特征在于,所述方法包括:根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,所述比对文件包含多重比对在内的所有比对信息;根据所述比对文件计算contig内的HIC互作强度,根据所述contig内的HIC互作强度,对所述高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;利用所述打断后的连接正确的基因组和所述连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;对每个所述类群中的contig序列进行排序定向,得到染色体版本的基因组;保留所述染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。2.根据权利要求1所述的方法,其特征在于,所述连接错误的contig包括如下任意一种或多种:1)来源于同一亲本但连接错误的contig;2)父母本嵌合的contig;3)来自于非同源染色体,由于重复而被错误的连接在一起的contig。3.根据权利要求1所述的方法,其特征在于,对每个所述类群中的contig序列进行排序定向,得到染色体版本的基因组包括:采用ALLHIC软件对每个所述类群中的contig序列进行排序定向,得到V1版本的基因组;采用juicerbox软件进一步调整所述V1版本的基因组中contig的顺序和方向,得到所述染色体版本的基因组。4.根据权利要求1所述的方法,其特征在于,采用HICUP或Hic

Pro软件将HiC数据与高杂合二倍体序列组装结果比对得到所述比对文件。5.一种高杂合二倍体序列组装结果去冗余的装置,其特征在于,所述装置包括:比对模块,用于根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,所述比对文件包含多重比对在内的所...

【专利技术属性】
技术研发人员:李本萍周勋田仕林蔡晶陶琳娜
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1