一种基于低深度测序估算植物基因组大小和制造技术

技术编号:39594653 阅读:21 留言:0更新日期:2023-12-03 19:49
本发明专利技术提供了一种基于低深度测序估算植物基因组大小和

【技术实现步骤摘要】
一种基于低深度测序估算植物基因组大小和/或重复度的方法


[0001]本专利技术属于植物分子生物
,具体涉及一种基于低深度测序估算植物基因组大小和
/
或重复度的方法


技术介绍

[0002]基因组包含物种最底层的遗传信息,植物的基因组比动物的基因组复杂,存在基因组大

多倍化

杂合度高

重复度高等特点

基因组大小(
Genome size
),即
C
值,是一个物种单倍体配子中所含有的
DNA
总量,一般以重量(
pg
)或核苷酸碱基对数目(
base pair
)表示,
1 pg DNA
约等于
978 Mb
的碱基对数目

陆地植物基因组大小的变化范围为
2400
倍,物基因组
C
值数据库(
https://cvalues.science.kew.org/
)记录有
1.2
万余个植物的基因组大小,开花植物中食肉螺旋狸藻(
Genlisea tuberosa
)的基因组仅有
61 Mb
,而日本重楼(
Paris japonica
)的基因组有
148Gb。
基因组大小是生物多样性和物种特异性的重要指征,各植物类群细胞中染色体数目和基因组大小相对固定,对生物进化和植物系统分类学研究具有重要的指导意义,而且对优异种质资源的选育驯化和保护利用也有重要的意义

[0003]多倍化

重复序列和种内变异是影响植物基因组大小的三个主要因素

多倍化(同源和异源)能增强遗传多样性,对植物适应环境变化有积极作用,现存的植物中大约有
70%
是多倍体

重复序列可分为串联重复序列和散在重复序列,多存在于基因间隔区

内含子区,占植物基因组的
10%~85%。
种内变异在玉米

羊茅等多个物种中发现,不同居群基因组大小差异可超过
30%
,而且多倍体和二倍体共存,种内变异与地理因素

气候因素等存在相关性

一般认为,随着生物体的进化,生物体的
C
值也逐渐变大,但是生物体结构和功能的复杂性和基因组大小之间没有明确的相关性,这一现象即“C
值悖论”。
[0004]常用的测定基因组大小的方法主要是流式细胞术(
flow cytometry
)和基于
k

mer
分析的基因组调查法(
genome survey
),前者具有操作简单

经济高效

准确率高等优点,后者具有实验简单

速度快

重现性高等优点
。k

mer
是指包含在一段序列中的长度为
k
的子串,一段长度为
L
的核酸序列,以一个碱基为步长滑动,一共可以生成
(L

K+1)

k

mers。k

mer
分析假设测序的
reads
是随机分布在基因组上的,在不考虑测序错误

序列重复性和杂合序列的条件下,
k

mer
的分布遵循泊松分布

但实际情况是三者都存在,所以需要计算错误率,重复序列占比和杂合度,并根据计算结果修正对基因组大小的估计
。k

mer
分析一般先用
Jellyfish、KMC、KAT、KmerGenie
等软件得到
k

mer
频率分布,然后利用软件
GCE、GenomeScope、FindGSE、BBNorm
等软件估算基因组大小

重复度等信息

估算基因组大小会受到
k

mer
值设定大小

频数分布上限高低

最大
k

mer
覆盖度

杂合
/
纯合
/
倍性等影响

目前主流使用的基于
k

mer
分析的软件需要的基因组测序深度为
30~50
×
,且容易遇到频数分布峰图拟合失败

主峰杂合峰难以辨别的影响,估算基因组大小常常出现较大的差异


技术实现思路

[0005]本专利技术的目的在于提供一种基于低深度测序估算植物基因组大小和
/
或重复度的方法,本专利技术的方法能够有效准确的估算植物基因组大小

[0006]本专利技术提供了一种基于低深度测序估算植物基因组大小和
/
或重复度的方法,包括以下步骤:
[0007]对未知基因组大小的植物进行低深度全基因组二代测序,得到低深度测序数据;所述低深度测序数据的大小为
3~5Gb
;所述低深度全基因二代测序的测序方式包括单端测序或双端测序;
[0008]使用
BBDuk
软件对所述低深度测序数据进行质量过滤,得到干净的测序数据;所述质量过滤包括过滤掉低深度测序数据中的接头序列和污染序列;
[0009]当所述低深度全基因组二代测序为双端测序时,在所述质量过滤后,还包括使用
BBMerge
软件对所述质量过滤后的测序数据进行合并,得到合并后的干净的测序数据;
[0010]以所述干净的测序数据或者合并后的干净的测序数据为待处理数据,运行
RESPECT
软件对所述待处理数据设置5个抽样梯度(
100%、75%、50%、25%、1%
)进行预跑,得到第一轮迭代的结果;所述
RESPECT
软件内置了
Gurobi

[0011]根据所述第一轮迭代的结果,得到第二轮迭代的起始种子全基因组测序深度;
[0012]根据所述第二轮迭代的起始种子全基因组测序深度,在目标测序深度内设置梯度抽样,目标测序深度为
0.5
×
~5
×
,得到
11
个不同抽样梯度深度(
100%、90%、80%、70%、60%、50%、40%、30%、20%、10%、5%
)的抽样数据;使用
RESPECT
软本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于低深度测序估算植物基因组大小和
/
或重复度的方法,其特征在于,包括以下步骤:对未知基因组大小的植物进行低深度全基因组二代测序,得到低深度测序数据;所述低深度测序数据的大小为
3~5Gb
;所述低深度全基因二代测序的测序方式包括单端测序或双端测序;使用
BBDuk
软件对所述低深度测序数据进行质量过滤,得到干净的测序数据;所述质量过滤包括过滤掉低深度测序数据中的接头序列和污染序列;当所述低深度全基因组二代测序为双端测序时,在所述质量过滤后,还包括使用
BBMerge
软件对所述质量过滤后的测序数据进行合并,得到合并后的干净的测序数据;以所述干净的测序数据或者合并后的干净的测序数据为待处理数据,运行
RESPECT
软件对所述待处理数据设置5个抽样梯度(
100%、75%、50%、25%、1%
)进行预跑,得到第一轮迭代的结果;所述
RESPECT
软件内置了
Gurobi
;根据所述第一轮迭代的结果,得到第二轮迭代的起始种子全基因组测序深度;根据所述第二轮迭代的起始种子全基因组测序深度,在目标测序深度内设置梯度抽样,目标测序深度为
0.5
×
~5
×
,得到
11
个不同抽样梯度深度(
100%、90%、80%、70%、60%、50%、40%、30%、20%、10%、5%
)的抽样数据;使用
RESPECT
软件分别对所...

【专利技术属性】
技术研发人员:贺正山杨俊波曾春霞李德铢
申请(专利权)人:中国科学院昆明植物研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1