【技术实现步骤摘要】
一种基因组结构变异同源性识别方法
[0001]本专利技术涉及生物信息处理
,具体为一种基因组结构变异同源性识别方法。
技术介绍
[0002]基因组中分布着类型和大小千差万别的变异,包括影响范围小但数量庞大的单核苷酸变异(SNV)、在基因组变异中起着重要作用的结构变异(SV)。目前第三代测序数据平台(Pacbio以及ONT)为更加精准的结构变异识别提供了机会和可能,基于第三代测序数据大量复杂且尺度更大的结构变异检测被成功检测出来。然而对大量复杂的结构变异的同源性的高效、全面识别以成为当前的领域的重点、难点问题。
技术实现思路
[0003]本专利技术的目的是:针对现有技术中不能对基因组结构变异同源性进行高效识别的问题,提出一种基因组结构变异同源性识别方法。
[0004]本专利技术为了解决上述技术问题采取的技术方案是:
[0005]一种基因组结构变异同源性识别方法,包括以下步骤:
[0006]步骤一:获取参考文件和对比文件,即base以及call,并读取参考文件和对比文件中的变异信息, ...
【技术保护点】
【技术特征摘要】
1.一种基因组结构变异同源性识别方法,其特征在于包括以下步骤:步骤一:获取参考文件和对比文件,即base以及call,并读取参考文件和对比文件中的变异信息,所述变异信息包括染色体号、变异类型、变异发生的起始位点坐标、结束位点坐标、变异的长度以及易位变异的格式,变异类型包括删除、插入、重复、倒位及易位,参考文件和对比文件的每一行都代表一个结构变异;步骤二:根据变异类型对结构变异同源性进行识别,具体为:针对删除、重复、倒位,执行如下步骤:步骤二一一:通过将变异发生的起始位点坐标、结束位点坐标以及变异的长度在base以及call中分别构建四元组Sig
sv_base
=(chrom_base,start_base,end_base,length_base)以及Sig
sv_call
=(chrom_call,start_call,end_call,length_call),其中chrom为发生变异的染色体,start表示变异的起始位点,end表示变异的结束位点,length表示变异的长度;步骤二一二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;步骤二一三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;步骤二一四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:chrom1=chrom2max(start1‑
offect,start2)≤min(end1+offect,end2)min(length1,length2)≥bias
×
max(length1,length2)其中,下角标1表示base,下角标2表示call;步骤二一五:根据call中变异的排序选取下一变异,重复步骤二一三和步骤二一四,直至call中变异全部划分完毕;针对插入,执行如下步骤:步骤二二一:在base以及call中分别构建三元组Sig
ins_base
=(chrom_base,start_base,length_base)以及Sig
ins_call
=(chrom_call,start_call,length_call);步骤二二二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;步骤二二三:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;步骤二二四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性
变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:chrom1=chrom2|start1‑
start2|≤offectmin(length1,length2)≥bias
×
max(length1,length2)其中,下角标1表示base,下角标2表示call;步骤二二五:根据call中变异的排序选取下一变异,重复步骤二二三和步骤二二四,直至call中变异全部划分完毕;针对易位,执行如下步骤:步骤二三一:在base以及call中分别构建五元组Sig
tra_base
=(chrom_f_base,chrom_t_base,start_f_base,start_t_base,format_base)以及Sig
tra_call
=(chrom_f_call,chrom_t_call,start_f_call,start_t_call,format_call),以此记录源染色体信息和目标染色体信息,其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号,start_f,start_t分别为染色体上发生易位的位点信息,format表示易位变异的格式;步骤二三二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应五元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;步骤二三三:将call中的变异以call中变异对应五元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;步骤二三四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:chrom_f1=chrom_f2chrom_t1=chrom_t2|start_f1‑
start_f2|≤offect|start_t1‑
start_t2|≤offectformat1=format2其中,下角标1表示base,下角标2表示call;步骤二三五:根据call中变异的排序选取下一变异,重复步骤二三三和步骤二三四,直至call中变异全部划分完毕。2.根据权利要求1所述的一种基因组结构变异同源性识别方法,其特征在于所述方法还包括:步骤二四:针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤,具体为:针对base中不为同源性变异的插入变异,具体步骤为:步骤二四一:在base中不为同源性变异的插入变异中构建三元组Sig
ins_base
=(chrom_base,start_base,leng...
【专利技术属性】
技术研发人员:姜涛,刘诗琦,刘博,王亚东,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。