一种基于多元化特征的基因序列分类方法及系统技术方案

技术编号:41631679 阅读:26 留言:0更新日期:2024-06-13 02:29
本发明专利技术涉及生物信息处理技术领域,具体公开了一种基于多元化特征的基因序列分类方法及系统,借助K‑mer和图生成的方式将基因序列转换为基因序列图,并对基因序列图进行多元化的特征提取,其中包括局部特征、全局特征和混合特征以及聚合特征。在局部特征提取和混合特征提取中采用了图自注意力机制,将需要重点关注的局部信息分配了较高的权重,在全局特征提取中采用了图卷积特征提取,在聚合特征提取中采用了图间的消息传递,捕获不同层级的特征。本发明专利技术在对序列的多元化特征提取时,保证了提取到基因序列中更加显著的特征同时避免了过平滑,同时使用孪生神经网络衡量输入样本的差异性,从而提高基因序列分类的准确度。

【技术实现步骤摘要】

本专利技术涉及生物信息处理,尤其涉及一种基于多元化特征的基因序列分类方法及系统


技术介绍

1、基因序列分类技术,是生物信息学的一个重要分支,主要使用生物学实验或计算机等手段来分类dna序列上的具有生物学特征的片段。这项技术涉及到的关键步骤包括从大量数据中提取出有用的基因信息,然后根据这些信息进行分类和预测。基因序列分类的关键挑战之一是如何分类同一种微生物之间具有的相似性。同一种的微生物通常具有较高的相似性,这主要体现在它们的基因组成上。在生物信息学领域基因序列的分类主要通过比对的方式,相比于自然语言处理技术,缺少了通过了上下文信息提高分类精度和不断学习和优化等优点。

2、同一种微生物的基因也会出现差异性,这些差异性来源于多个因素,包括基因突变、染色体畸变等。基于pcr的16s核糖体rna测序,将相似度97%以上的视为可能是同一个物种,这种基于相似度的分类方式本身就具有一定的不准确性。除了基于比对的方法,常用的自然语言方法是将基因序列做词嵌入,根据词向量的相似性进行分类,词向量的结果更多地受到整个序列上下文的信息的影响,对某一片段特征提取的能力本文档来自技高网...

【技术保护点】

1.一种基于多元化特征的基因序列分类方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤S4中,所述多元化特征分类模型的分类过程包括步骤:

3.根据权利要求2所述的一种基于多元化特征的基因序列分类方法,其特征在于,在步骤S41中,对基因序列图进行多元特征提取的具体过程包括步骤:

4.根据权利要求3所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤S4中,训练所述多元化特征分类模型的过程为:

5.根据权利要求4所述的一种基于多元化特征的基因序列分类方法,其特征在于,...

【技术特征摘要】

1.一种基于多元化特征的基因序列分类方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤s4中,所述多元化特征分类模型的分类过程包括步骤:

3.根据权利要求2所述的一种基于多元化特征的基因序列分类方法,其特征在于,在步骤s41中,对基因序列图进行多元特征提取的具体过程包括步骤:

4.根据权利要求3所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤s4中,训练所述多元化特征分类模型的过程为:

5.根据权利要求4所述的一种基于多元化特征的基因序列分类方法,其特征在于,所述损失函数构建为:

6.根据权利要求5所述的一种基于多元化特征的基因序列分类方法,其特征在于,交叉熵损失lt定义为:

7.根据权...

【专利技术属性】
技术研发人员:潘文杰卢燕回姜超英王笛高维常张得平杨晗罗肖辑宋峰全代璐涂祖贵
申请(专利权)人:中国烟草总公司广西壮族自治区公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1