【技术实现步骤摘要】
本专利技术涉及生物信息处理,尤其涉及一种基于多元化特征的基因序列分类方法及系统。
技术介绍
1、基因序列分类技术,是生物信息学的一个重要分支,主要使用生物学实验或计算机等手段来分类dna序列上的具有生物学特征的片段。这项技术涉及到的关键步骤包括从大量数据中提取出有用的基因信息,然后根据这些信息进行分类和预测。基因序列分类的关键挑战之一是如何分类同一种微生物之间具有的相似性。同一种的微生物通常具有较高的相似性,这主要体现在它们的基因组成上。在生物信息学领域基因序列的分类主要通过比对的方式,相比于自然语言处理技术,缺少了通过了上下文信息提高分类精度和不断学习和优化等优点。
2、同一种微生物的基因也会出现差异性,这些差异性来源于多个因素,包括基因突变、染色体畸变等。基于pcr的16s核糖体rna测序,将相似度97%以上的视为可能是同一个物种,这种基于相似度的分类方式本身就具有一定的不准确性。除了基于比对的方法,常用的自然语言方法是将基因序列做词嵌入,根据词向量的相似性进行分类,词向量的结果更多地受到整个序列上下文的信息的影响,对某
...【技术保护点】
1.一种基于多元化特征的基因序列分类方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤S4中,所述多元化特征分类模型的分类过程包括步骤:
3.根据权利要求2所述的一种基于多元化特征的基因序列分类方法,其特征在于,在步骤S41中,对基因序列图进行多元特征提取的具体过程包括步骤:
4.根据权利要求3所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤S4中,训练所述多元化特征分类模型的过程为:
5.根据权利要求4所述的一种基于多元化特征的基因序列分
...【技术特征摘要】
1.一种基于多元化特征的基因序列分类方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤s4中,所述多元化特征分类模型的分类过程包括步骤:
3.根据权利要求2所述的一种基于多元化特征的基因序列分类方法,其特征在于,在步骤s41中,对基因序列图进行多元特征提取的具体过程包括步骤:
4.根据权利要求3所述的一种基于多元化特征的基因序列分类方法,其特征在于,在所述步骤s4中,训练所述多元化特征分类模型的过程为:
5.根据权利要求4所述的一种基于多元化特征的基因序列分类方法,其特征在于,所述损失函数构建为:
6.根据权利要求5所述的一种基于多元化特征的基因序列分类方法,其特征在于,交叉熵损失lt定义为:
7.根据权...
【专利技术属性】
技术研发人员:潘文杰,卢燕回,姜超英,王笛,高维常,张得平,杨晗,罗肖辑,宋峰全,代璐,涂祖贵,
申请(专利权)人:中国烟草总公司广西壮族自治区公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。