一种基于深度学习的人类内源性逆转录病毒识别方法及系统技术方案

技术编号:46190315 阅读:11 留言:0更新日期:2025-08-22 18:48
本发明专利技术属于生物信学与人工智能领域,公开了一种基于深度学习的人类内源性逆转录病毒识别方法及系统,该方法包括:构建人类内源性逆转录病毒识别数据集,对采集的数据进行预处理构建训练数据集和独立测试数据集;将训练数据集和独立测试数据集中DNA序列数据进行one‑hot和k‑mer两种不同特征编码生成特征向量;基于卷积神经网络构建预测模型,使用训练数据集中特征向量对预测模型进行训练,通过5折交叉验证方式优化参数模型,通过独立测试数据集评估预测模型的性能;将该模型与已有模型性能进行比较,评估本模型的优越性。本发明专利技术突破传统模型依赖单一特征的局限性,增强特征表达能力,进一步优化了分类效果。

【技术实现步骤摘要】

本专利技术属于但不限于生物信学与人工智能,尤其涉及一种基于深度学习的人类内源性逆转录病毒识别方法及系统


技术介绍

1、人类内源性逆转录病毒(hervs)是通过逆转录病毒感染宿主基因组并长期遗传下来的病毒序列。hervs在人类基因组中占据了较大比例,虽然它们大多数是沉默的,但其激活与多种疾病的发生密切相关,包括癌症、免疫性疾病等。因此,识别与鉴定hervs对于了解其在遗传和疾病中的作用至关重要。通过识别hervs,可以帮助揭示它们在基因组中的功能及其与基因表达调控、免疫反应以及癌症等疾病的潜在关联。此外,hervs的鉴定可以为生物标志物的开发提供线索,帮助在早期诊断和治疗中发挥作用。然而,由于hervs的遗传变异性和多样性,且它们在不同个体和组织中的表达差异较大,现有的识别方法仍面临许多挑战。因此,开发更精准和高效的识别技术是未来研究的重要方向。

2、目前通过实验技术识别与鉴定hervs的方法多为基于高通量基因组学技术,例如rnaseq、chipseq技术等。尽管通过以上生物学实验的方法能够很好的在全基因组级别实现人内源性逆转录病毒的预测和鉴定本文档来自技高网...

【技术保护点】

1.一种基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤S1中,所述人类内源性逆转录病毒FASTA文件从https://herv.img.cas.cz/下载,得到阳性数据集中包含267743条内源性逆转录病毒序列,使用Bedtools工具获取等量的阴性数据集,将长度不一致的DNA序列通过在序列末端补充未知核苷酸N的方式统一至1000bp,并按4:1的比例划分为训练数据集与独立测试数据集。

3.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒...

【技术特征摘要】

1.一种基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s1中,所述人类内源性逆转录病毒fasta文件从https://herv.img.cas.cz/下载,得到阳性数据集中包含267743条内源性逆转录病毒序列,使用bedtools工具获取等量的阴性数据集,将长度不一致的dna序列通过在序列末端补充未知核苷酸n的方式统一至1000bp,并按4:1的比例划分为训练数据集与独立测试数据集。

3.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s2中,通过one-hot编码和k-mer编码分别对每条补齐后的dna序列进行特征提取,其中:

4.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s3中所述预测模型包括若干卷积层、池化层与全连接层,初始化参数后,将训练数据集中的融合特征向量以80%:20%的比例拆分为训练子集与测试子集进行训练,利用sigmoid函数输出hervs或非hervs的概率值。

5.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s4中,通过比对独立测试数据集中dna序列的真实标签与模型预测结果,计算hervs识别正确率tp、识别错误率fp、非hervs识别正确率tn以及非hervs识别错误率fn,并基于此进一步获...

【专利技术属性】
技术研发人员:赵建邦杜格琳
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1