一种基因多序列比对方法、设备和系统技术方案

技术编号:33294420 阅读:61 留言:0更新日期:2022-05-01 00:20
本发明专利技术属于生物信息学技术领域,具体涉及一种基因多序列比对方法、设备和系统。本发明专利技术的基因多序列比对方法包括如下步骤:步骤1,设置模板信息,所述模板信息包括待分析基因的模板序列、保守基序位置和保守基序长度;步骤2,根据步骤1的模板信息作为参照,对待分析序列进行校正和多序列全局比对,形成数据集。本发明专利技术还提供应用上述基因多序列比对方法的设备和系统。本发明专利技术的技术方案能够大大减少基因多序列比对的工作量,显著提高多序列比对工作的效率。因此,具有很好的应用前景。具有很好的应用前景。具有很好的应用前景。

【技术实现步骤摘要】
一种基因多序列比对方法、设备和系统


[0001]本专利技术属于生物信息学
,具体涉及一种基因多序列比对方法、设备和系统。

技术介绍

[0002]基因的多序列比对是生物信息学的基本组成和重要基础。序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。
[0003]例如,裂腹鱼类Cytb基因多序列对比是一种重要的基因多序列比对研究体系。细胞色素b基因(Cytb)是真核生物线粒体基因组中的一个编码基因,因其单拷贝、进化速率适中、多态性位点丰富等优点,是常用于研究生物遗传进化及多样性的靶基因。裂腹鱼类是青藏高原及周边地区特有的一个鲤科裂腹鱼亚科的鱼类物种类群,是我国青藏高原地区重要的渔业资源和生态关键物种。在物种的起源和进化上,裂腹鱼类的物种都有较近的亲缘关系,形态上较为相似,在Cytb基因的序列结构上既有不同物种特异的多态位点,也有裂腹鱼类共有的保守基序。因此,Cytb基因是区分不同裂腹鱼物种,研究其系统进化和物种分类常用的靶基因。在研究方法上,最重要和最基础的是Cytb基因的测序和序列比对分析。首先利用PCR技术,根据裂腹鱼类Cytb基因的通用引物(L14724和H15915)体外扩增获得包含Cytb基因开放阅读框(ORF)全长的基因序列,接着,利用焦磷酸测序技术,对扩增产物的脱氧核糖核苷酸组成顺序进行测定,获得由不同碱基构成的序列信息,然后,利用基因序列软件对不同样本的Cytb基因序列进行比对分析,从而获得遗传变异信息,用于物种鉴定、分类和系统进化等研究。
[0004]现有的基因序列比对方法和软件已经商业化,具体包括CLUSTALX、MEGA、MUSCLE、MAFFT等在线软件或PC安装软件。其中MEGA软件集成了CLUSTALX、MUSCLE等多种比对方法,是最常用的序列比对分析软件,有较强的可视化效果。
[0005]虽然这些软件已经较为成熟,但是它们在使用时需要输入的基因序列数据必须是标准化的格式。然而,在实际工作中,测序得到的基因序列通常是不符合这些软件的输入要求的。例如,测序得到的基因序列可能出现如下情况:是正义链序列或反义链序列,可能包含引物、接头和终止密码子之后的“垃圾”序列,可能包括不在对比范围内的冗余序列,存在5

和3

端残缺,包含测序错误的位点等。
[0006]因此,现有的测序数据在利用软件进行比对前,还需要研究者根据自身对相关物种的研究经验,对序列进行编辑、校正。这大大增加研究者的工作量,不利于基因多序列比对工作的高效进行。

技术实现思路

[0007]针对现有技术的缺陷,本专利技术提供一种基因多序列比对方法、设备和系统,目的在
于提供一种包含对基因序列进行自动编辑、校正步骤的基因多序列比对方法,减少相关研究工作中研究者的工作量,提高基因多序列比对工作的效率。
[0008]一种基因多序列比对方法,包括如下步骤:
[0009]步骤1,设置模板信息,所述模板信息包括待分析基因的模板序列和保守基序的信息;
[0010]步骤2,根据步骤1的模板信息作为参照,对待分析序列进行校正和多序列全局比对,形成数据集。
[0011]优选的,步骤1中,所述模板信息是通过待分析基因的正义链简并序列获得的。
[0012]优选的,步骤2中,进行校正和多序列全局比对的具体步骤如下:
[0013]步骤2.1,根据步骤1的模板信息作为参照,识别待分析序列中的反义链序列,将所述反义链序列处理为正义链序列;
[0014]步骤2.2,根据步骤1的模板信息作为参照,识别经过步骤2.1处理后的待分析序列中的引物、接头和终止密码子之后的测序载体序列,并将所述测序载体序列剪切舍弃;
[0015]步骤2.3,对经过步骤2.2处理后的待分析序列进行多序列全局对比,形成比对后的数据集;
[0016]步骤2.4,根据步骤1的模板信息作为参照,校对步骤2.3得到的数据集,填补5
’‑
和3
’‑
端残缺的序列,删除非比对区序列;
[0017]步骤2.5,对经过步骤2.4处理后的数据集进行多序列全局对比,识别包含测序错误位点的序列样本,删除包含测序错误位点的序列样本或对包含测序错误位点的序列样本进行调整。
[0018]优选的,步骤2.5中,识别包含测序错误位点的序列样本的方法为:对经过步骤2.4处理后的数据集中的序列样本的每个位点基因型或缺失型的出现频率进行统计,若某个位点的某种基因型或缺失型只出现一次,则具有该基因型或缺失型的该位点为测序错误位点。
[0019]优选的,步骤2中,采用MATFF、CLUSTALX、MEGA或MUSCLE进行多序列全局比对。
[0020]优选的,所述待分析基因的模板序列为其间并序列,所述间并序列如SEQ ID NO.1所述;
[0021]所述保守基序的数量为三个,序列分别为AAAATTGCTAA、ATTGCCCG和GTAATTAC;
[0022]所述保守基序的位置为从5

开始的第34位至第44位、第292位至第299位、第433位至第440位。
[0023]优选的,所述待分析序列和数据集的文件格式为FASTA格式。
[0024]本专利技术还提供一种计算机设备,用于基因多序列比对,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基因多序列比对方法。
[0025]本专利技术还提供一种基因多序列比对的系统,包括:
[0026]上述计算机设备;
[0027]服务器,用于存储和传输所述待分析序列的原始数据。
[0028]本专利技术还提供一种计算机可读存储介质,其上存储有用于实现上述基因多序列比对方法的计算机程序。
[0029]本申请提供了一种根据待分析基因的模板信息对测序数据进行自动校正和多序列全局比对的方法。特别的,在优选方案中,本专利技术提供了裂腹鱼类Cytb基因的模板信息,能够准确地对裂腹鱼类的测序数据进行自动校正和多序列全局对比。本专利技术的方法将现有技术中需要人工完成的校正过程通过程序自动实现,大大减少了多序列比对研究工作中研究者的工作量,能够显著提高相关工作的效率。因此,本专利技术具有很好的应用前景。
[0030]显然,根据本专利技术的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本专利技术上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
[0031]以下通过实施例形式的具体实施方式,对本专利技术的上述内容再作进一步的详细说明。但不应将此理解为本专利技术上述主题的范围仅限于以下的实例。凡基于本专利技术上述内容所实现的技术均属于本专利技术的范围。
附图说明
[0032]图1为本专利技术实施例1的流程示意图。
具体实施方式
[0033本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因多序列比对方法,其特征在于,包括如下步骤:步骤1,设置模板信息,所述模板信息包括待分析基因的模板序列和保守基序的信息;步骤2,根据步骤1的模板信息作为参照,对待分析序列进行校正和多序列全局比对,形成数据集。2.按照权利要求1所述的基因多序列比对方法,其特征在于:步骤1中,所述模板信息是通过待分析基因的正义链简并序列获得的。3.按照权利要求1所述的基因多序列比对方法,其特征在于:步骤2中,进行校正和多序列全局比对的具体步骤如下:步骤2.1,根据步骤1的模板信息作为参照,识别待分析序列中的反义链序列,将所述反义链序列处理为正义链序列;步骤2.2,根据步骤1的模板信息作为参照,识别经过步骤2.1处理后的待分析序列中的引物、接头和终止密码子之后的测序载体序列,并将所述测序载体序列剪切舍弃;步骤2.3,对经过步骤2.2处理后的待分析序列进行多序列全局对比,形成比对后的数据集;步骤2.4,根据步骤1的模板信息作为参照,校对步骤2.3得到的数据集,填补5
’‑
和3
’‑
端残缺的序列,删除非比对区序列;步骤2.5,对经过步骤2.4处理后的数据集进行多序列全局对比,识别包含测序错误位点的序列样本,删除包含测序错误位点的序列样本或对包含测序错误位点的序列样本进行调整。4.按照权利要求3所述的基因多序列比对方法,其特征在于:步骤2.5中,识别包含测序错误位点的序列样本的方法为:对经过步骤2.4处理后的数据集中的序列样本的每个位点基...

【专利技术属性】
技术研发人员:刘思嘉田菲陈生学田得红王贺崐元赵凯
申请(专利权)人:中国科学院西北高原生物研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1