当前位置: 首页 > 专利查询>湖南大学专利>正文

一种用于内源性逆转录病毒的鉴定注释方法技术

技术编号:32813253 阅读:35 留言:0更新日期:2022-03-26 20:07
本发明专利技术提供一种用于内源性逆转录病毒的鉴定注释方法,包括:选取病毒蛋白作为探针,识别与探针相似的命中片段,输出命中区域,向命中区域的两侧各延伸侧翼序列,得到内源性逆转录病毒候选序列;使用LTR harvest对内源性逆转录病毒候选序列鉴定成对的LTR序列,进而提取出潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列;基于逆转录病毒的典型蛋白结构域序列使用隐式马尔科夫模型鉴定病毒蛋白结构域,去除假阳性结果;对内源性逆转录病毒进行注释和蛋白结构域序列提取。本发明专利技术的方法可以实现快速、高效地对宿主基因组进行内源性逆转录病毒及元件的挖掘、鉴定和注释,极大减少假阳性率。极大减少假阳性率。极大减少假阳性率。

【技术实现步骤摘要】
一种用于内源性逆转录病毒的鉴定注释方法


[0001]本专利技术涉及基因检测
,尤其涉及一种用于内源性逆转录病毒的的鉴定注释方法。

技术介绍

[0002]宿主基因组中的病毒成分被称为内源性逆转录病毒(Endogenous retrovirus,ERV),当逆转录病毒感染宿主的时候,可以通过复制过程中的一些步骤将自身基因组或者部分元件整合到宿主基因组中。许多内源性逆转录病毒在数百万年前已经整合到宿主基因组中,作为病毒和生命(宿主)共同进化的古老的“化石记录”,它们为研究生命起源和进化提供了原始材料。在长期的共同进化过程中,它们已经成为宿主基因组的一部分,其中一些甚至演变成了功能基因,发挥着重要的生物学功能,比如与胚胎发育相关的合胞素基因,来源于内源性逆转录病毒的包膜蛋白。此外,整合进基因组的内源性逆转录病毒及其元件,还可以通过直接或者间接的方式发挥抗病毒的功能。然而,大部分整合进宿主基因组的内源性逆转录病毒或元件因其完整被破坏,加上漫长进化的过程中遗传变异事件,往往与现代的外源病毒具有较低的同源性,因此,其鉴定和注释一直是一个难点。总得来说,目前对宿主基因组中的内源性逆转录病毒及元件仍然缺乏高效的鉴定和注释方法。CN201710418223.3公开一种鉴定和选育PERV

pol基因缺陷型五指山小型猪新品系的方法,采用PCR和/或RT

PCR的方法鉴定细胞中是否携带有猪内源性反转录病毒的结构基因,进而能够鉴定待测猪是否为猪内源性反转录病毒pol基因缺陷型五指山小型猪近交系,该方法在实际运用过程中效率低,存在不足。
[0003]基于此,本专利技术提出了一种用于内源性逆转录病毒的鉴定注释方法,可以实现快速、高效地对宿主基因组进行内源性逆转录病毒及元件的挖掘、鉴定和注释。

技术实现思路

[0004]本专利技术的目的是提供一种用于内源性逆转录病毒的鉴定注释方法,结合同源序列搜寻和隐式马尔可夫模型预测法,实现快速、高效的鉴定注释内源性逆转录病毒。
[0005]基于上述技术目的,本专利技术采用如下技术方案:一方面,本专利技术提供一种用于内源性逆转录病毒的鉴定注释方法,具体步骤包括:步骤1):选取典型且相对保守的病毒蛋白作为探针,采用同源序列比对法,识别与探针相似的命中片段,对连续化命中片段输出一个合理的命中区域,向该合理的命中区域的两侧各延伸侧翼序列,去除含有包含关系的区域片段后,得到内源性逆转录病毒候选序列;步骤2):使用LTR harvest对步骤1)获得的内源性逆转录病毒候选序列鉴定成对的长末端重复序列,进而提取出潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列;步骤3):基于逆转录病毒的典型蛋白结构域序列使用隐式马尔科夫模型鉴定步骤
2)提取的潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列的病毒蛋白结构域,基于隐式马尔科夫模型预测结果,去除先前步骤1)由同源序列比对方法产生的假阳性结果;步骤4):基于步骤3)鉴定的病毒蛋白结构域,在宿主基因组进行定位,生成在宿主基因组上的注释文件,提取内源性逆转录病毒的全长序列和病毒结构域序列,生成对应的定位和注释文件。
[0006]进一步地,所述典型且相对保守的病毒蛋白选自:Pol蛋白序列、ENV蛋白序列、RT蛋白序列中的至少一种。
[0007]进一步地,所述同源序列比对法选自BLAST局部比对法。
[0008]进一步地,所述命中区域输出具体过程如下:病毒序列在宿主基因组中的移码事件会导致出现许多连续化的命中片段,通过判断各个命中片段之间的距离是否合理(判断合理标准是大于10kb长度碱基)、在宿主基因组上插入方向是否相同(相同则归为基因组同一条链上的连续化命中片段,不相同则归为基因组不同链上的连续化命中片段),识别可能发生过移码突变的内源性逆转录病毒片段,对每条基因组链上的连续命中片段输出一个合理的命中区域,并返回该命中区域在基因组上的定位。
[0009]进一步地,所述侧翼序列的长度至少为15kb,即上述的合理的命中区域向两侧各延伸至少15kb长度的碱基序列,去除含有包含关系的区域片段后,然后提取这些片段序列作为内源性逆转录病毒候选序列。
[0010]进一步地,步骤2)中,鉴定长末端重复序列的具体方法为:对步骤1)获得的内源性逆转录病毒候选序列构建增强性的后缀索引数组,进行成对LTR序列搜寻,实现成对长末端重复序列的鉴定。
[0011]进一步地,步骤2)中,所述成对LTR序列的搜寻标准是:只有距离合适(如1kb到15kb范围内)、序列长度合适(如大于100bp)且相似性大于 80%的LTR序列才会被认为是候选的成对LTR序列。
[0012]进一步地,所述潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列提取过程为:对于每个候选的成对LTR序列及其中间的区域,将它们作为潜在的完整内源性逆转录病毒序列,返回其在基因组上的定位,再根据定位去除重复的区域,然后提取出这些潜在完整内源性逆转录病毒序列;同时,对于不含有成对LTR序列的内源性逆转录病毒获选序列,也单独提取出来,用作不完整内源性逆转录病毒及其病毒元件的鉴定。
[0013]进一步地,所述逆转录病毒蛋白结构域序列是指:从逆转录病毒蛋白结构相关数据库(如Gypsy数据库)下载逆转录病毒的典型蛋白结构域序列,包括GAG、DUT、PR、RT、INT、RNaseH、ENV等;基于6个编码翻译框翻译成蛋白质序列并作为输入序列,分别使用隐式马尔科夫模型鉴定含有成对LTR的潜在完整内源性逆转录病毒序列、不含成对LTR的内源性逆转录病毒候选序列的病毒蛋白结构域。
[0014]进一步地,所述步骤4)中,基于步骤3)鉴定出的至少含有上述病毒蛋白结构域之一的输入序列,(1)如果输入序列为含有成对LTR的潜在完整内源性逆转录病毒序列,先将两侧LTR、鉴定出的病毒结构域在宿主基因组上的进行定位,生成在宿主基因组上的注释文件,再提取出完整的内源性逆转录病毒全长序列、病毒结构域序列、两侧LTR序列,并生成两
侧LTR和病毒结构域在完整内源性逆转录病毒全长序列上的定位和注释文件;(2)如果输入序列为不含成对LTR的内源性逆转录病毒候选序列,先将鉴定出的结构域在宿主基因组上的进行定位,生成在宿主基因组上的注释文件,再根据在宿主基因组上的定位提取出潜在的内源性逆转录病毒全长序列和病毒结构域序列,并生成病毒结构域在潜在的内源性逆转录病毒全长序列上的定位和注释文件。
[0015]相对于现有技术,本专利技术提供的技术方案具备有益效果如下:本专利技术的方法可以实现快速、高效地对宿主基因组进行内源性逆转录病毒及元件的充分挖掘、鉴定和注释,其中同源序列比对和隐式马尔科夫模型联合预测极大地减少了假阳性率。
[0016]1)本专利技术通过对宿主基因组中的内源性逆转录病毒及元件的高效鉴定和注释,为研究病毒和生命的起源、遗传进化提供了大量的原材料。
[0017]2)本专利技术方法有助于鉴定和筛选能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于内源性逆转录病毒的鉴定注释方法,其特征在于,具体步骤包括:步骤1):选取典型且相对保守的病毒蛋白作为探针,采用同源序列比对法,识别与探针相似的命中片段,对连续化命中片段输出一个合理的命中区域,向该合理的命中区域的两侧各延伸侧翼序列,去除含有包含关系的区域片段后,得到内源性逆转录病毒候选序列;步骤2):使用LTR harvest对步骤1)获得的内源性逆转录病毒候选序列鉴定成对的长末端重复序列,进而提取出潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列;步骤3):基于逆转录病毒的典型蛋白结构域序列使用隐式马尔科夫模型鉴定步骤2)提取的潜在完整内源性逆转录病毒序列和不含有成对LTR序列的内源性逆转录病毒获选序列的病毒蛋白结构域,并进一步去除步骤1)中基于同源序列比对法产生的假阳性结果;步骤4):基于步骤3)鉴定的病毒蛋白结构域,在宿主基因组进行定位,生成在宿主基因组上的注释文件,提取内源性逆转录病毒的全长序列和病毒结构域序列,生成在对应内源性逆转录病毒上的定位和注释文件。2.根据权利要求1所述用于内源性逆转录病毒的鉴定注释方法,其特征在于,所述典型且相对保守的病毒蛋白选自:Pol蛋白序列、ENV蛋白序列、RT蛋白序列中的至少一种。3.根据权利要求1所述用于内源性逆转录病毒的鉴定注释方法,其特征在于,所述同源序列比对法选自BLAST局部比对法。4.根据权利要求1所述用于内源性逆转录病毒的鉴定注释方法,其特征在于,所述命中区域输出具体过程如下:病毒序列在宿主基因组中的移码事件会导致出现许多连续化的命中片段,通过判断各个命中片段之间的距离、在宿主基因组上插入方向,识别可能发生过移码突变的内源性逆转录病毒片段,对连续命中片段输出一个合理的命中区域,并返回该命中区域在基因组上的定位。5.根据权利要求1所述用于内源性逆转录病毒的鉴定注释方法,其特征在于,所述侧翼序列的长度至少为15kb。6.根据权利要求1所述用于内源性逆转录病毒的鉴定注释方法,其特征在于,步骤2)中,鉴定长末端重复序列的具体方法为:对步骤1)获得的内源性逆转录病毒候选序列构建增强性的后缀索引数组,进行成对LTR序列...

【专利技术属性】
技术研发人员:葛行义周秩建叶生宝邱烨
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1