一种挖掘近源物种间染色体结构变异的分析方法及系统技术方案

技术编号:36935779 阅读:22 留言:0更新日期:2023-03-22 18:57
本发明专利技术公开了一种挖掘近源物种间染色体结构变异的分析方法及系统,涉及生物信息技术领域,考虑了插入缺失、重复片段、倒位、易位多种情况,同时每种情况又考虑了多种可能性,通过设置全面精细的分析步骤和参数,开发出更适合近源物种之间的染色体结构变异的全面分析方法,比对长度在参考序列和查询序列均需大于500bp,结构变异片段长度需要超过1000bp即可认为是近源物种间的大的染色体结构变异,填补了近源物种间染色体结构变异分析的空白,便于抓取更大结构变异、获取更有用的信息去探究近源物种之间的差异及重要经济性状形成原因,有助于我们更好的理解基因功能、表达机理、形态特征差异及物种进化。特征差异及物种进化。特征差异及物种进化。

【技术实现步骤摘要】
一种挖掘近源物种间染色体结构变异的分析方法及系统


[0001]本专利技术涉及生物信息
,尤其涉及一种挖掘近源物种间染色体结构变异的分析方法及系统。

技术介绍

[0002]随着测序技术的不断发展,测序成本越来越低,为大规模全基因组测序创造了条件,产生了大量的基因组数据,更加推动了近源物种的全基因组测序,对于基因功能的研究有了质的飞跃,同时单个基因组的信息无法挖掘真正的进化事件和物种差异。
[0003]由于基因组数据量比较大,染色体结构变异检测比较复杂,染色体结构变异的四种类型(插入和缺失、重复、倒位和异位)非常难于统计,尤其对于不同物种之间的染色体结构变异会存在更多差异,因此对于物种间染色体结构变异更加难以统计。
[0004]到目前为止,当前的染色体结构变异软件多用于物种内部的研究,还没有对物种之间的染色体结构变异进行分析和统计的程序或方法,现有很多处理物种内染色体结构变异的方法,如CN112687341B公开的一种以断点为中心的染色体结构变异鉴定方法,均是利用片段与参考序列进行比对的方法,这种物种内的结构变异分析方法的参数设定范围较小,通常认为结构变化的片段超过50bp即为大的结构变异,基于此假设进行染色体插入和缺失、重复、倒位和异位的分析,针对物种内的结构变异更为合适,因为物种内差异相对较小,但如果用于物种间结构变异分析会检测到海量的结构变异,因此存在过多的假阳性信息。对于我们探究物种间真正的基因功能和性状的差异带来困扰。因此,更需要一种新的方法来分析物种之间的染色体结构变异。
[0005]目前不同的物种之间的全基因组比对常用Lastz使用默认参数进行比对,如CN111445953B公开的一种利用全基因组比对拆分四倍体鱼类亚基因组的方法。在Lastz中首先将参考序列读入内存并构建种子位置表,该表帮助我们将目标中的任何匹配序列映射到它出现的所有位置。然后读取查询序列,检查查询序列中碱基开始的片段并使用位置表在目标中查找匹配项即为种子。将种子进行延长和扩展即得到更长的匹配即高得分片段。之后基于分数对高得分片段再进行过滤。高得分片段被连接到共线性比对的最高得分集合中,然后减少到单个位置即锚点(anchors)。然后将锚点扩展到局部比对,并通过分数过滤,然后进行后端过滤,用以舍弃不符合某些指定标准的序列比对块。然后进行插值,在序列比对区块之间的洞(holes)中以更高灵敏度重复整个过程,最终将比对结果写入输出文件。然而,目前Lastz仅用作共线性比对分析,还没有关于染色体结构变异等其他方面的应用。
[0006]众所周知,结构决定功能,本专利技术通过基因组比对结果的染色体结构变异分析,从而获得染色体结构的变异对基因功能的影响。染色体结构变异对基因组和物种差异的影响比单核苷酸多态性(SNP)更大,一旦发生会给生命和物种进化带来重大影响。同时染色体结构变异也代表近源物种之间的多样性特征,通过对染色体结构变异的研究有助于我们探究近源物种之间重要经济性状产生的原因。
[0007]因此,开发出更适合近源物种之间结构变异分析的方法,抓取更大结构变异、获取
更有用的信息去研究物种之间的差异形成原因是当前对于近源物种研究中亟待解决的问题。通过对近源物种染色体结构变异的分析有助于我们更好对理解基因功能、表达机理、形态特征差异及物种进化。

技术实现思路

[0008]本专利技术的目的是提出一种挖掘近源物种间染色体结构变异的分析方法及系统。
[0009]为了实现上述目的,本专利技术提供如下技术方案:第一方面,本专利技术提供了一种挖掘近源物种间染色体结构变异的分析方法,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件,再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断,判断方法如下:(1)插入缺失的判断:将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2

end1;当正向匹配时,即参考序列片段2的起始位置start2

大于或等于参考序列片段1的起始位置start1

,参考序列片段1的终止位置end1

等于参考序列片段1的起始位置start1

加上参考序列片段1的匹配长度len1

,即end1

= start1

+len1

;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2

减去参考序列片段1的终止位置end1

,即diff2 = start2
’‑
end1

;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1

diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;当负向匹配时,即参考序列片段2的起始位置start2

小于或等于参考序列片段1的起始位置start1

,参考序列片段2的终止位置end2

等于参考序列片段2的起始位置start2

加上参考序列片段2的匹配长度len2

,即end2

= start2

+len2

;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1

减去参考序列片段2的终止位置end2

,即diff2= start1
’‑ꢀ
end2

;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1

di本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种挖掘近源物种间染色体结构变异的分析方法,其特征在于,首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列,通过Lastz获得参考序列和查询序列比对结果的Maf格式文件,再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断,判断方法如下:(1)插入缺失的判断:将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,计算查询序列上的两个匹配片段之间的未匹配片段长度diff1:查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1,即end1=start1 +len1,查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1,即diff1= start2

end1;当正向匹配时,即参考序列片段2的起始位置start2

大于或等于参考序列片段1的起始位置start1

,参考序列片段1的终止位置end1

等于参考序列片段1的起始位置start1

加上参考序列片段1的匹配长度len1

,即end1

= start1

+len1

;参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2

减去参考序列片段1的终止位置end1

,即diff2 = start2
’‑
end1

;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1

diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;当负向匹配时,即参考序列片段2的起始位置start2

小于或等于参考序列片段1的起始位置start1

,参考序列片段2的终止位置end2

等于参考序列片段2的起始位置start2

加上参考序列片段2的匹配长度len2

,即end2

= start2

+len2

;参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1

减去参考序列片段2的终止位置end2

,即diff2= start1
’‑ꢀ
end2

;当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时,即abs|diff1

diff2|≥1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异,并输出统计结果;(2)重复片段的判断:将参考序列数据统一修改到正链;当查询序列的比对片段只匹配到参考序列的一条染色体上,包括如下两种情况:当参考序列上片段2的起始位置start2

大于或等于参考序列片段1的起始位置start1

,参考序列片段1的终止位置end1

等于参考序列片段1的起始位置start1

加上参考序列片段1的匹配长度len1

,即end1

= start1

+ len1

,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp,即end1
’‑ꢀ
start2

≥ 1000bp,则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异,并输出统计结果;当参考序列上片段1的起始位置start1

大于或等于参考序列片段2的起始位置
start2

,参考序列片段2的终止位置end2

等于参考序列片段2的起始位置start2

加上参考序列片段2的匹配长度len2

,即end2

= start2

+ len2

,此时,当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp,即len1、len2、len1

和len2

均大于或等于500bp,且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时,即end2
’‑ꢀ
start1

≥1000bp,则认为在查询序列...

【专利技术属性】
技术研发人员:李洋
申请(专利权)人:吉林工商学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1