System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统技术方案

技术编号:39948201 阅读:8 留言:0更新日期:2024-01-08 23:05
本发明专利技术属于生物信息学技术领域,公开了一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统,旨在注释脊索动物基因组中的嗅觉受体基因,包括功能性嗅觉受体基因和嗅觉受体假基因。嗅觉受体是一类数量庞大的超基因家族,具有数量众多且差异大,假基因比率高等特点,这导致高质量地注释嗅觉受体基因比较困难。本发明专利技术采用嗅觉受体基因序列构建隐马尔可夫模型来定位基因组中嗅觉受体基因的坐标,并利用嗅觉受体特征和模式匹配来鉴定嗅觉受体基因,具有敏感度高、鲁棒性优和占用计算资源少等优势。本发明专利技术提供的嗅觉受体基因组注释方法和系统在提高嗅觉受体数据质量和挖掘致病相关的嗅觉受体基因等方面具有良好的推广价值。

【技术实现步骤摘要】

本专利技术属于生物信息学,具体涉及一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统


技术介绍

1、嗅觉在脊索动物的生存、繁衍和社交等方面起着至关重要的作用。嗅觉的实现依赖于嗅觉受体基因的表达。对于脊索动物来说,大部分的嗅觉受体基因在嗅觉组织或者器官内表达,用于识别环境中气味分子;也有部分在肌肉、大脑和皮肤等多种非嗅觉组织或器官中表达即异位表达,并被证明与多种疾病密切相关。近几年,越来越多的证据表明有些嗅觉受体基因在多种肿瘤组织中异常表达。这意味着嗅觉受体不仅可以作为嗅觉功能的执行者,还可以作为潜在的药物靶点,具有重要的研究价值和应用前景。

2、嗅觉受体基因在物种间的数量分布不均匀,通常来说从数十条到数千条不等,并且假基因比例很高。这些原因导致高质量地注释嗅觉受体基因这一工作相对比较困难。因此,目前公共数据库中收录的嗅觉受体数据存在着较为严重的数据质量问题。主要体现在数据缺失和数据不平衡两个方面。而这两方面的问题很大程度上是嗅觉受体基因注释方法的缺陷所造成的。

3、基因注释即在基因组序列上标定基因位置与组成结构等信息,基因注释对于识别基因、研究基因的表达调控机制、研究基因在生物体代谢途径中的地位、分析基因、基因产物之间的相互作用关系、预测和发现蛋白质功能以及揭示生命的起源和进化等具有重要的意义。基因注释是基因组学研究的一个必需步骤和基本前提,这通常包括从头注释、同源注释和基于转录组和蛋白质组的注释,注释结果的好坏直接影响到后续研究的有效性和准确性。

4、对于嗅觉受体基因注释的策略主要包括采用序列比对将待注释的基因序列与已知的基因序列进行比对,找出相似或相同的区域;采用数据库搜索将待注释的基因序列输入到基因数据库中,搜索与该基因序列相关的信息;采用基因注释工具对基因序列进行自动化注释;通过实验验证基因的功能,从而对基因进行注释。现有主流注释嗅觉受体基因的方法大都基于tblastn或者tfastx工具完成基因组搜索任务,但是这些方法存在以下几个问题:(1)搜索结果高度依赖于输入的查询序列,鲁棒性较差;(2)使用蛋白序列作为查询序列搜索整个基因组,需要扫描整个基因组的六个开放阅读框,严重地限制了注释的速度;(3)搜索敏感性差,导致嗅觉受体基因注释不全。虽然经过研究人员细心地调试,可以在一定程度上减少上述几个缺陷对注释结果的影响,但是这往往需要研究者对单个物种的注释投入大量的精力,很难大规模地应用。


技术实现思路

1、鉴于上述,本专利技术的目的是提供一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统,使用dna序列构建隐马尔可夫模型定位嗅觉受体基因的坐标,进一步提取序列片段并利用嗅觉受体序列特征和模式匹配来鉴定功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。本专利技术能够提高注释速度、敏感度、鲁棒性和普适性,适用于大规模的准确的注释脊索动物嗅觉受体基因的应用场景。

2、为实现上述专利技术目的,本专利技术提供的技术方案如下:

3、本专利技术实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释方法,包括以下步骤:

4、构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表;

5、从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组;

6、对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。

7、优选地,所述构建嗅觉受体基因的隐马尔可夫模型,包括:

8、从ncbi核酸数据库中获取所有嗅觉受体基因的编码dna序列;

9、根据dna序列所属的物种谱系关系对dna序列进行分类;

10、对dna序列去冗余后使用mafft- linsi算法对dna序列进行多序列比对数据;

11、根据多序列比对数据构建脊索动物各个演化分支的嗅觉受体基因的隐马尔可夫模型。

12、优选地,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:

13、向同源片段的5’和3’端分别延伸一段碱基片段;

14、识别延伸碱基片段后同源片段的起始密码子和终止密码子;

15、获取所有从起始密码子开始到终止密码子结束中间的序列片段构建潜在编码区域序列列表;

16、通过设置第一过滤条件从潜在编码区域序列列表排除非嗅觉受体编码基因片段,从而获得潜在功能性嗅觉受体基因列表组。

17、优选地,所述第一过滤条件,包括:

18、所有潜在的编码区域序列长度都小于750个核苷酸;所有潜在编码区域序列长度都不能被3整除;所有潜在编码区域序列中间都存在终止密码子;

19、未满足第一过滤条件中全部条件的序列片段将作为潜在功能性嗅觉受体基因编码区域,所有潜在功能性嗅觉受体基因编码区域最终生成潜在功能性嗅觉受体基因列表组;满足第一过滤条件中至少一个条件的序列片段将被分类为截短基因或嗅觉受体假基因。

20、优选地,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,包括:

21、构建多条典型的嗅觉受体序列作为模板序列,模版序列被准确的界定了包含n端、胞内环、胞外环、跨膜螺旋结构域和c端区域的边界;

22、将潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表中的基因序列与模板序列合并成新的序列集合,并进行序列比对,基于每个区域进行模式匹配打分,最终根据嗅觉受体的序列特征通过第二过滤条件鉴定出功能性嗅觉受体基因和嗅觉受体假基因。

23、优选地,所述第二过滤条件,包括:

24、潜在功能性嗅觉受体基因列表组中所有基因序列模式匹配分数都小于10;跨膜螺旋结构域的未比对位置总数都大于5;含未比对位置的跨膜螺旋结构域个数都大于2;

25、未满足第二过滤条件中全部条件的基因序列将被进一步鉴定为功能性嗅觉受体基因;满足第二过滤条件中至少一个条件的潜在功能性嗅觉受体基因列表中模式匹配分数最高的基因序列被鉴定为嗅觉受体假基因。

26、优选地,所述物种谱系为纲、亚纲和总目级别的谱系分类数据。

27、优选地,所述方法还包括:

28、对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果本文档来自技高网...

【技术保护点】

1.一种基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述构建嗅觉受体基因的隐马尔可夫模型,包括:

3.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:

4.根据权利要求3所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第一过滤条件,包括:

5.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,包括:

6.根据权利要求5所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第二过滤条件,包括:

7.根据权利要求2所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述物种谱系为纲、亚纲和总目级别的谱系分类数据。

8.根据权利要求1-7任一项所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述方法还包括:

9.一种基于隐马尔可夫模型的嗅觉受体基因注释系统,其特征在于,包括定位模块、搜索模块和鉴定模块;

10.根据权利要求9所述的基于隐马尔可夫模型的嗅觉受体基因注释系统,其特征在于,所述系统还包括迭代注释模块和批量注释模块;

...

【技术特征摘要】

1.一种基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述构建嗅觉受体基因的隐马尔可夫模型,包括:

3.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:

4.根据权利要求3所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第一过滤条件,包括:

5.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列...

【专利技术属性】
技术研发人员:韩伟赵素文黄行许
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1