基于Python语言的基因变异检测方法及系统技术方案

技术编号:28042135 阅读:44 留言:0更新日期:2021-04-09 23:25
本发明专利技术提供一种基于Python语言的基因变异检测方法及系统,方法包括:S1:确定Query蛋白序列及多个物种的基因组序列信息;S2:Blast比对分析后整合,得到每个Query蛋白序列的比对区域信息;S3:创建并初始化列表与集合,依次比对Query蛋白序列与集合,将所有Query蛋白序列全部写入列表中获得每个Query蛋白序列的最佳比对结果信息;S4:去除Query蛋白序列中没有比对到的序列,得更新Query蛋白序列;S5:将更新的Query蛋白序列与下一物种的序列比对库比对,并循环步骤S2‑S4,直到获得Query蛋白序列的每个物种的最佳比对结果信息;S6:设置抽取长度基数,结果抽取Query蛋白序列在不同物种的每个外显子的数目信息和变异情况并记录。该方法能缩短比对时间,提高有效比对速率,完成基因检测。

【技术实现步骤摘要】
基于Python语言的基因变异检测方法及系统
本专利技术属于基因检测
,具体涉及一种基于Python语言的基因变异检测方法及系统。
技术介绍
基因组序列包含数亿计碱基对,生物多样性不仅反映在表型上的多样,更包含了碱基对排列顺序的不同。物种表型的变化与分子序列的特征具有密切关系。随着测序技术的进步,在数小时内可测定一个物种的基因组序列,但分析不同物种基因组序列的变异特征成为揭示物种表型与遗传关系的重要内容,目前已有多种序列比对方法,例如Blast,Exonerate,Genewise,Blat,Fasta等,不同方法其侧重点各不相同。基于Blast的序列比对方法能够快速有效的分析Query序列和Target序列相似的部分,根据打分矩阵自动筛选出得分大于阈值的区段,但是Blast序列比对的结果包含了所有比对信息,这部分结果中存在着较大的冗余,需要花费较长的时间确定和筛选有效的信息。基于Exonerate的序列比对能够较为准确的得到Query序列与Target序列相似的部分,并且能够预测出较为准确的基因结构特征,但是Exoner本文档来自技高网...

【技术保护点】
1.一种基于Python语言的基因变异检测方法,其特征在于,包括以下步骤:/nS1:确定比对所需的Query蛋白序列以及所要比对的多个物种的基因组序列信息,并根据所述基因组序列信息构建序列比对库;/nS2:Blast比对分析Query蛋白序列与一个物种的序列比对库,根据比对分析结果将Query蛋白序列中每个Query蛋白分别比对到序列比对库中的对应目标基因组相邻区域进行整合,得到每个Query蛋白在序列比对库中的基因组中的比对区域信息;/nS3:创建并初始化列表与集合,依次比对Query蛋白序列中的每个Query蛋白与集合,当集合中不存在当前Query蛋白时,将当前Query蛋白写入集合中,并...

【技术特征摘要】
1.一种基于Python语言的基因变异检测方法,其特征在于,包括以下步骤:
S1:确定比对所需的Query蛋白序列以及所要比对的多个物种的基因组序列信息,并根据所述基因组序列信息构建序列比对库;
S2:Blast比对分析Query蛋白序列与一个物种的序列比对库,根据比对分析结果将Query蛋白序列中每个Query蛋白分别比对到序列比对库中的对应目标基因组相邻区域进行整合,得到每个Query蛋白在序列比对库中的基因组中的比对区域信息;
S3:创建并初始化列表与集合,依次比对Query蛋白序列中的每个Query蛋白与集合,当集合中不存在当前Query蛋白时,将当前Query蛋白写入集合中,并将当前Query蛋白对应比对得分记为第一比对得分与比对区域信息存入列表中,如果集合中存在当前Query蛋白,则计算正在比对的当前Query蛋白的第二比对得分,在当前Query蛋白已存入列表中的第一比对得分小于第二比对得分时,去除列表中已有的当前Query蛋白的所有信息,将正在比对的当前Query蛋白的第二比对得分与比对区域信息写入列表,反之,则不操作,直到列表写入每个Query蛋白的最佳比对结果信息;
S4:比对经步骤S3后得到的列表与Query蛋白序列,去除Query蛋白序列中没有比对到的Query蛋白,得到更新Query蛋白序列;
S5:将更新的Query蛋白序列与下一个物种的序列比对库比对,并循环步骤S2-S4,直到获得Query蛋白序列的每个物种的最佳比对结果信息;
S6:设置抽取长度基数,将所述每个物种的最佳比对结果信息及其对应Query蛋白序列分别通过Exonerate,根据Exonerate运算结果抽取Query蛋白序列在不同物种的每个外显子的数目信息和变异情况并记录。


2.根据权利要求1所述的方法,其特征在于,所述比对区域信息包括比对区域的起始位置、结束位置,比对率和比对区域中的相似度信息。


3.根据权利要求2所述的方法,其特征在于,所述第一比对得分为已存入集合的当前Query蛋白的比对率与相似度的乘积,所述第二比对得分正在比对的当前Query蛋白的比对率与相似度的乘积。


4.根据权利要求1所述的方法,其特征在于,所述步骤S2中的所述Blast比对分析Query蛋白序列与一个物种的序列比对库的步骤具体包括:
使用parallel计算是否支持多线程,如果支持,则分割分析Query蛋白序列与一个物种的序列比对库的数据,进行多线程Blast比对分析;
否则,单线程Blast比对分析Query蛋白序列与一个物种的序列比对库。


5.根据权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:吕云云李燕平
申请(专利权)人:内江师范学院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1