一种挖掘近源物种间染色体结构变异的分析方法及系统技术方案

技术编号：36935779 阅读：22 留言：0更新日期：2023-03-22 18:57

本发明专利技术公开了一种挖掘近源物种间染色体结构变异的分析方法及系统，涉及生物信息技术领域，考虑了插入缺失、重复片段、倒位、易位多种情况，同时每种情况又考虑了多种可能性，通过设置全面精细的分析步骤和参数，开发出更适合近源物种之间的染色体结构变异的全面分析方法，比对长度在参考序列和查询序列均需大于500bp，结构变异片段长度需要超过1000bp即可认为是近源物种间的大的染色体结构变异，填补了近源物种间染色体结构变异分析的空白，便于抓取更大结构变异、获取更有用的信息去探究近源物种之间的差异及重要经济性状形成原因，有助于我们更好的理解基因功能、表达机理、形态特征差异及物种进化。特征差异及物种进化。特征差异及物种进化。

全部详细技术资料下载

【技术实现步骤摘要】
一种挖掘近源物种间染色体结构变异的分析方法及系统

[0001]本专利技术涉及生物信息
，尤其涉及一种挖掘近源物种间染色体结构变异的分析方法及系统。

技术介绍

[0002]随着测序技术的不断发展，测序成本越来越低，为大规模全基因组测序创造了条件，产生了大量的基因组数据，更加推动了近源物种的全基因组测序，对于基因功能的研究有了质的飞跃，同时单个基因组的信息无法挖掘真正的进化事件和物种差异。
[0003]由于基因组数据量比较大，染色体结构变异检测比较复杂，染色体结构变异的四种类型（插入和缺失、重复、倒位和异位）非常难于统计，尤其对于不同物种之间的染色体结构变异会存在更多差异，因此对于物种间染色体结构变异更加难以统计。
[0004]到目前为止，当前的染色体结构变异软件多用于物种内部的研究，还没有对物种之间的染色体结构变异进行分析和统计的程序或方法，现有很多处理物种内染色体结构变异的方法，如CN112687341B公开的一种以断点为中心的染色体结构变异鉴定方法，均是利用片段与参考序列进行比对的方法，这种物种内的结构变异分析方法的参数设定范围较小，通常认为结构变化的片段超过50bp即为大的结构变异，基于此假设进行染色体插入和缺失、重复、倒位和异位的分析，针对物种内的结构变异更为合适，因为物种内差异相对较小，但如果用于物种间结构变异分析会检测到海量的结构变异，因此存在过多的假阳性信息。对于我们探究物种间真正的基因功能和性状的差异带来困扰。因此，更需要一种新的方法来分析物种之间的染色体结构变异。
[00...

【技术保护点】

【技术特征摘要】
1.一种挖掘近源物种间染色体结构变异的分析方法，其特征在于，首先获得一个已知物种的全基因组参考序列和另一个近源物种的全基因组查询序列，通过Lastz获得参考序列和查询序列比对结果的Maf格式文件，再根据Maf格式文件中的数据信息进行插入缺失、重复片段、倒位或易位的判断，判断方法如下：（1）插入缺失的判断：将参考序列数据统一修改到正链；当查询序列的比对片段只匹配到参考序列的一条染色体上，计算查询序列上的两个匹配片段之间的未匹配片段长度diff1：查询序列片段1的终止位置end1等于查询序列片段1的起始位置start1加上查询序列片段1的匹配长度len1，即end1=start1 +len1，查询序列上的两个匹配片段之间的未匹配片段长度diff1为查询序列片段2的起始位置start2减去查询序列片段1的终止位置end1，即diff1= start2
‑
end1；当正向匹配时，即参考序列片段2的起始位置start2
’
大于或等于参考序列片段1的起始位置start1
’
，参考序列片段1的终止位置end1
’
等于参考序列片段1的起始位置start1
’
加上参考序列片段1的匹配长度len1
’
，即end1
’
= start1
’
+len1
’
；参考序列上的两个匹配片段之间的未匹配片段长度diff2为参考序列片段2的起始位置start2
’
减去参考序列片段1的终止位置end1
’
，即diff2 = start2
’‑
end1
’
；当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp，即len1、len2、len1
’
和len2
’
均大于或等于500bp，且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时，即abs|diff1
‑
diff2|≥1000bp，则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异，并输出统计结果；当负向匹配时，即参考序列片段2的起始位置start2
’
小于或等于参考序列片段1的起始位置start1
’
，参考序列片段2的终止位置end2
’
等于参考序列片段2的起始位置start2
’
加上参考序列片段2的匹配长度len2
’
，即end2
’
= start2
’
+len2
’
；参考序列上两个匹配片段之间的未匹配片段长度diff2为参考序列片段1的起始位置start1
’
减去参考序列片段2的终止位置end2
’
，即diff2= start1
’‑ꢀ
end2
’
；当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp，即len1、len2、len1
’
和len2
’
均大于或等于500bp，且在查询序列上的两个匹配片段之间的未匹配长度和参考序列上的两个匹配片段之间的未匹配片段长度的差值的绝对值大于或等于1000bp时，即abs|diff1
‑
diff2|≥1000bp，则认为在查询序列和参考序列的两个匹配片段之间存在一个插入缺失的结构变异，并输出统计结果；（2）重复片段的判断：将参考序列数据统一修改到正链；当查询序列的比对片段只匹配到参考序列的一条染色体上，包括如下两种情况：当参考序列上片段2的起始位置start2
’
大于或等于参考序列片段1的起始位置start1
’
，参考序列片段1的终止位置end1
’
等于参考序列片段1的起始位置start1
’
加上参考序列片段1的匹配长度len1
’
，即end1
’
= start1
’
+ len1
’
，此时，当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp，即len1、len2、len1
’
和len2
’
均大于或等于500bp，且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp，即end1
’‑ꢀ
start2
’
≥ 1000bp，则认为在查询序列和参考序列的两个匹配片段之间存在一个重复结构变异，并输出统计结果；当参考序列上片段1的起始位置start1
’
大于或等于参考序列片段2的起始位置
start2
’
，参考序列片段2的终止位置end2
’
等于参考序列片段2的起始位置start2
’
加上参考序列片段2的匹配长度len2
’
，即end2
’
= start2
’
+ len2
’
，此时，当参考序列和查询序列的片段1和片段2的匹配长度都大于或等于500bp，即len1、len2、len1
’
和len2
’
均大于或等于500bp，且查询序列当两个片段匹配到参考序列上的两个片段之间存在重叠且重叠片段长度大于或等于1000bp时，即end2
’‑ꢀ
start1
’
≥1000bp，则认为在查询序列...

【专利技术属性】
技术研发人员：李洋，
申请(专利权)人：吉林工商学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人