鉴定单倍型序列差异度的数据处理方法、装置及存储介质制造方法及图纸

技术编号:40968576 阅读:13 留言:0更新日期:2024-04-18 20:49
本发明专利技术提供一种鉴定单倍型序列差异度的数据处理方法、装置及存储介质,属于基因数据处理技术领域,本发明专利技术通过将二倍体个体基因组的两套单倍型进行组装来得到两套单倍型基因组序列,并对其进行优化得到染色体级别的单倍型基因组序列,并通过共线性分析来鉴定单倍型的结构变异和短序列变异,通过结构变异和短序列变异这两类变异来对杂合序列的进行估计,本发明专利技术可对二倍体个体基因组和群体基因组的单倍型的序列差异度进行估计,提高了估计的准确性。

【技术实现步骤摘要】

本专利技术主要涉及基因数据处理,具体涉及一种鉴定单倍型序列差异度的数据处理方法、装置及存储介质


技术介绍

1、通常,在单倍体生物中具有一套基因组(表示为n),在二倍体生物拥有2套基因组(表示为2n)。已有评估二倍体个体基因组杂合序列的方法往往是通过基于二代测序技术(例如illumina 150平台产生的短读长片段)进行的,其原理是将短读长序列划分为长度一定的k-mer片段,基于k-mers的分布频率进行二倍体的基因组杂合序列,其缺陷在于测序片段长度较短,k-mers的分布估计没有考虑基因组结构变异的影响,导致结果准确率低,与真实结果相较有一定的差距。已有评估群体基因组杂合序列的办法往往是基于二代测序技术(例如illumina 150平台产生的短读长片段),将二代测序平台产生的不同群体中个体的测序片段比对到参考基因组上,获得不同群体间等位基因频率和多样性,根据此来估计群体之间的多样性差异,其缺陷在于需要参考基因组,也忽略了结构变异的影响,另外一方面是比对错误也影响了等位基因多样性的估计。


技术实现思路

1、本本文档来自技高网...

【技术保护点】

1.一种鉴定单倍型序列差异度的数据处理方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述S3中,利用三代长度长测序文库和二代HiC测序文库的测序方法对所述二倍体个体基因组的两套单倍型进行组装,得到所述二倍体个体基因组对应的两套单倍型基因组序列,具体为:

3.根据权利要求2所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述S4中,分别对每套单倍型基因组序列进行优化,得到每套单倍型基因组序列对应的染色体级别的单倍型基因组序列,具体为:

4.根据权利要求3所述的鉴定单倍型序列差异度的数据处理...

【技术特征摘要】

1.一种鉴定单倍型序列差异度的数据处理方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述s3中,利用三代长度长测序文库和二代hic测序文库的测序方法对所述二倍体个体基因组的两套单倍型进行组装,得到所述二倍体个体基因组对应的两套单倍型基因组序列,具体为:

3.根据权利要求2所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述s4中,分别对每套单倍型基因组序列进行优化,得到每套单倍型基因组序列对应的染色体级别的单倍型基因组序列,具体为:

4.根据权利要求3所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述s5中,对两套染色体级别的单倍型基因组序列进行共线性分析,得到结构变异和短序列变异,具体为:

5.根据权利要求4所述的鉴定单倍型序列差异度的数据处理方法,其特征在于,所述s7中,对所述结构变异进行去冗余处理,根据不冗余的结构变异和所述短序列变异计算二倍体个体基因组的差异比例,具体为:

6.一种鉴定单倍型序列...

【专利技术属性】
技术研发人员:黄三文程林王楠周永锋鲍志贵
申请(专利权)人:中国农业科学院农业基因组研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1