【技术实现步骤摘要】
一种挖掘近源物种间染色体结构变异的分析方法及系统
[0001]本专利技术涉及生物信息
,尤其涉及一种挖掘近源物种间染色体结构变异的分析方法及系统。
技术介绍
[0002]随着测序技术的不断发展,测序成本越来越低,为大规模全基因组测序创造了条件,产生了大量的基因组数据,更加推动了近源物种的全基因组测序,对于基因功能的研究有了质的飞跃,同时单个基因组的信息无法挖掘真正的进化事件和物种差异。
[0003]由于基因组数据量比较大,染色体结构变异检测比较复杂,染色体结构变异的四种类型(插入和缺失、重复、倒位和异位)非常难于统计,尤其对于不同物种之间的染色体结构变异会存在更多差异,因此对于物种间染色体结构变异更加难以统计。
[0004]到目前为止,当前的染色体结构变异软件多用于物种内部的研究,还没有对物种之间的染色体结构变异进行分析和统计的程序或方法,现有很多处理物种内染色体结构变异的方法,如CN112687341B公开的一种以断点为中心的染色体结构变异鉴定方法,均是利用片段与参考序列进行比对的方法,这种物种内的结构变异分析方法的参数设定范围较小,通常认为结构变化的片段超过50bp即为大的结构变异,基于此假设进行染色体插入和缺失、重复、倒位和异位的分析,针对物种内的结构变异更为合适,因为物种内差异相对较小,但如果用于物种间结构变异分析会检测到海量的结构变异,因此存在过多的假阳性信息。对于我们探究物种间真正的基因功能和性状的差异带来困扰。因此,更需要一种新的方法来分析物种之间的染色体结构变异。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种挖掘近源物种间染色体结构变异的分析方法,其特征在于,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件,再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断,判断方法如下:(1)插入缺失的判断:将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2
‑
end1;当正向匹配时,即参考序列片段2的起始位置start2
’
大于或等于参考序列片段1的起始位置start1
’
,参考序列片段1的终止位置end1
’
等于参考序列片段1的起始位置start1
’
加上参考序列片段1的匹配长度len1
’
,即end1
’
= start1
’
+len1
’
;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2
’
减去参考序列片段1的终止位置end1
’
,即diff2 = start2
’‑
end1
’
;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1
’
和len2
’
均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1
‑
diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;当负向匹配时,即参考序列片段2的起始位置start2
’
小于或等于参考序列片段1的起始位置start1
’
,参考序列片段2的终止位置end2
’
等于参考序列片段2的起始位置start2
’
加上参考序列片段2的匹配长度len2
’
,即end2
’
= start2
’
+len2
’
;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1
’
减去参考序列片段2的终止位置end2
’
,即diff2= start1
’‑ꢀ
end2
’
;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1
’
和len2
’
均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1
‑
diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;(2)重复片段的判断:将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:当参考序列上片段2的起始位置start2
’
大于或等于参考序列片段1的起始位置start1
’
,参考序列片段1的终止位置end1
’
等于参考序列片段1的起始位置start1
’
加上参考序列片段1的匹配长度len1
’
,即end1
’
= start1
’
+ len1
’
,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1
’
和len2
’
均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp,即end1
’‑ꢀ
start2
’
≥ 1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;当参考序列上片段1的起始位置start1
’
大于或等于参考序列片段2的起始位置
start2
’
,参考序列片段2的终止位置end2
’
等于参考序列片段2的起始位置start2
’
加上参考序列片段2的匹配长度len2
’
,即end2
’
= start2
’
+ len2
’
,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1
’
和len2
’
均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时,即end2
’‑ꢀ
start1
’
≥1000bp,则认为在查询序列...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。