【技术实现步骤摘要】
本专利技术属于但不限于生物信学与人工智能,尤其涉及一种基于深度学习的人类内源性逆转录病毒识别方法及系统。
技术介绍
1、人类内源性逆转录病毒(hervs)是通过逆转录病毒感染宿主基因组并长期遗传下来的病毒序列。hervs在人类基因组中占据了较大比例,虽然它们大多数是沉默的,但其激活与多种疾病的发生密切相关,包括癌症、免疫性疾病等。因此,识别与鉴定hervs对于了解其在遗传和疾病中的作用至关重要。通过识别hervs,可以帮助揭示它们在基因组中的功能及其与基因表达调控、免疫反应以及癌症等疾病的潜在关联。此外,hervs的鉴定可以为生物标志物的开发提供线索,帮助在早期诊断和治疗中发挥作用。然而,由于hervs的遗传变异性和多样性,且它们在不同个体和组织中的表达差异较大,现有的识别方法仍面临许多挑战。因此,开发更精准和高效的识别技术是未来研究的重要方向。
2、目前通过实验技术识别与鉴定hervs的方法多为基于高通量基因组学技术,例如rnaseq、chipseq技术等。尽管通过以上生物学实验的方法能够很好的在全基因组级别实现人内源性逆
...【技术保护点】
1.一种基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤S1中,所述人类内源性逆转录病毒FASTA文件从https://herv.img.cas.cz/下载,得到阳性数据集中包含267743条内源性逆转录病毒序列,使用Bedtools工具获取等量的阴性数据集,将长度不一致的DNA序列通过在序列末端补充未知核苷酸N的方式统一至1000bp,并按4:1的比例划分为训练数据集与独立测试数据集。
3.根据权利要求1所述的基于深度学习的
...【技术特征摘要】
1.一种基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s1中,所述人类内源性逆转录病毒fasta文件从https://herv.img.cas.cz/下载,得到阳性数据集中包含267743条内源性逆转录病毒序列,使用bedtools工具获取等量的阴性数据集,将长度不一致的dna序列通过在序列末端补充未知核苷酸n的方式统一至1000bp,并按4:1的比例划分为训练数据集与独立测试数据集。
3.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s2中,通过one-hot编码和k-mer编码分别对每条补齐后的dna序列进行特征提取,其中:
4.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s3中所述预测模型包括若干卷积层、池化层与全连接层,初始化参数后,将训练数据集中的融合特征向量以80%:20%的比例拆分为训练子集与测试子集进行训练,利用sigmoid函数输出hervs或非hervs的概率值。
5.根据权利要求1所述的基于深度学习的人类内源性逆转录病毒识别方法,其特征在于,所述步骤s4中,通过比对独立测试数据集中dna序列的真实标签与模型预测结果,计算hervs识别正确率tp、识别错误率fp、非hervs识别正确率tn以及非hervs识别错误率fn,并基于此进一步获...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。