基于门控循环单元神经网络的冠状病毒序列识别方法技术

技术编号:25954763 阅读:21 留言:0更新日期:2020-10-17 03:47
本发明专利技术涉及基于门控循环单元神经网络的冠状病毒序列识别方法,其包括如下步骤:S1:进行数据收集;S2:对所收集的数据进行预处理,从原始训练样本中进行数据抽取得到训练集、验证集和测试集;建立基于冠状病毒序列的独立测试集;S3:对S2中获得各数据集进行编码,建立训练冠状病毒序列的分类模型;S4:对该模型进行修正;S5:统计该模型对将冠状病毒序列与人的基因组序列合并以后的测试集的每条序列的输出分值;S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人基因组序列。

【技术实现步骤摘要】
基于门控循环单元神经网络的冠状病毒序列识别方法
本专利技术涉及神经网络、数据处理以及计算机模拟
,更为具体地是涉及一种基于门控循环单元神经网络的冠状病毒序列识别方法。
技术介绍
冠状病毒(Coronavirus,CoV)是一类具有包膜的单股正链RNA病毒,该病毒在哺乳动物和鸟类中引起多种疾病。部分冠状病毒在人类中具有很高的传染性、致病性和致死率,对国民健康、社会稳定和国家经济发展有着巨大的负面影响。实时逆转录聚合酶链式反应(Real-timeReverse-transcriptionPolymeraseChainReaction,RT-PCR)扩增方法是检测冠状病毒的首选方法。该方法具有实时监测、敏感度高、特异性高等优点,但也存在一些缺点,例如无法对新型和高变异株冠状病毒进行检测,对引物要求高,需要实验人员掌握相应实验操作技能等。对新发和高变异株冠状病毒,通常处理为分离出病毒,然后利用电子显微镜在细胞培养物中鉴定病毒。这在技术层面上要求很高,同时耗时长、敏感性低。而高通量测序数据分析的传统方法是序列比对,尽管已经有不少针对高通量测序序列特点的序列比对算法,但这些序列比对算法具有计算时间长、对计算资源要求高等缺点。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种基于门控循环单元神经网络的冠状病毒序列识别方法,其从NCBI中获得冠状病毒和人基因组数据。对收集到的序列进行数据预处理,构建冠状病毒感染者样品高通量测序模拟数据集,将其划分为训练集、验证集和测试集,在训练集上训练循环神经网络,在验证集和测试集上测试效果,并收集新型冠状病毒2019-nCoV基因组数据作为独立测试集。该循环神经网络模型能够灵敏、快速地从高通量测序数据中检测出冠状病毒序列,同时具有很好的泛化能力,能够对新发和高变异株冠状病毒序列进行准确地检测,为新发和高变异株冠状病毒的鉴定提供了新思路。本专利技术的本质在于提高对冠状病毒识别的准确率,即提高判断的精度,虽然本模型本质是对核酸序列进行分类,但是其结果不是为了获得诊断结果或健康状况,而只是一种获取作为中间结果的信息的方法,其中涉及对信息的处理方法。根据现有技术中的医学知识和本申请中公开的内容从所获得信息本身不能够直接得出疾病的诊断结果或健康状况,也就是说,其并不能直接用于对疾病的诊断。具体地,该模型只能对病毒样本测序的结果进行分类,但是测序样品结果的准确性会受到测序实验过程的影响,具有不稳定的因素。即使病毒样本中含有冠状病毒的序列,但是并不代表该病人已经患病,因为人体自身的免疫系统会抵抗病毒的入侵。另外,该模型的结果只能作为一种中间信息,知晓该模型的分类结果并不能直接获得疾病的诊断结果。疾病的诊断需要医生结合病人多方面的表现和结果,比如临床表现和测试化验结果。本专利技术的技术方案如下:一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:S1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;S2:对所收集的数据进行预处理:首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独立测试集,所述独立测试集用于建立模型后对模型的效果进行验证;S3:对S2中获得各数据集进行编码,建立冠状病毒序列的分类模型;S4:对该模型进行修正;S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列。具体地,一种基于门控循环单元神经网络的冠状病毒序列识别方法,其具体包括如下步骤:S1:进行数据收集,所收集的数据包括冠状病毒序列和人的参考基因组序列;S2:对所收集的数据进行预处理,首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独立测试集,所述独立测试集用于建立模型后对模型的效果进行验证,并对该独立测试集中的数据进行预处理;S3:对最终用于模型的训练集、验证集和测试集进行编码,使每条序列向量化;建立冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化;S4:对S3中所建立的模型进行修正;当其交叉熵小于第一阈值停止训练,或训练集的准确率达到第二阈值并且验证集的准确率能够达到第三阈值时停止训练;具体地,当其交叉熵小于0.001时停止训练,或训练集的准确率达到99.99%和验证集的准确率能够达到99.90%停止训练;更进一步地,当其交叉熵小于0.001时或训练集和验证集的准确率分别能够达到99.99%和99.90%以及验证集的敏感性和特异性分别达到99.92%和99.88%时,停止训练;也就是说,交叉熵小于0.001时停止训练。并列地,训练集的准确率达到99.99%和验证集的准确率能够达到99.90%时,停止训练;更进一步地,交叉熵小于0.001时停止训练,并列地,训练集的准确率达到99.99%和验证集的准确率能够达到99.90%时以及验证集的敏感性达到99.92%且和验证集的特异性达到99.88%停止训练;S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并以后的测试集的每条序列的输出分值;S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列;S8:在独立测试集上对训练完毕的模型和拒识区间进行验证。优选地,所述数据为冠状病毒完整的全基因组序列。优选地,所述数据还包括人的hg38参考基因组序列,由此构建冠状病毒感染者样本的模拟高通量测序数据。优选地,所述训练集、验证集和测试集的数据均包括冠状病毒序列片段和和人hg38基因组序列片段。优选地,S2中,获得冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集的方法步骤如下:步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分;步骤二、设置冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集内的冠状病毒序列片段的片段长度,将冠状病毒的训练集中的数据转化成连续的子序列,其中,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的序本文档来自技高网...

【技术保护点】
1.一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:/nS1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;/nS2:对所收集的数据进行预处理:/n首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人 的参考基因组序列合并后的训练集

【技术特征摘要】
1.一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:
S1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人
的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过
程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独
立测试集,所述独立测试集用于建立模型后对模型的效果进行验证;
S3:对S2中获得各数据集进行编码,建立冠状病毒序列的分类模型;
S4:对该模型进行修正;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列。


2.一种如权利要求1所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其具体步骤如下:
S1:进行数据收集,所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人
的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过
程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独
立测试集,所述独立测试集用于建立模型后对模型的效果进行验证,并对该独立测试集中
的数据进行预处理;
S3:对最终用于模型的训练集、验证集和测试集进行编码,使每条序列向量化;建立训练冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化;
S4:对S3中所建立的模型进行修正;
当其交叉熵小于第一阈值停止训练,或训练集的准确率达到第二阈值并且验证集的准确率能够达到第三阈值时停止训练;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列;
S8:在独立测试集上对训练完毕的模型和拒识区间进行验证。


3.如权利要求2所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,S2中,获得冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集的方法步骤如下:
步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分;
步骤二、设置冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集内的冠状病毒序列片段的片段长度,将冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集中的数据转化成连续的子序列,其中,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的序列上连续滑动取值,每个数据集内均获得多个长度为150个碱基的核酸序列,使其与模拟测序数据的序列长度相等;
步骤三、将步骤二中所获得的冠状病毒的各个数据集进...

【专利技术属性】
技术研发人员:应晓敏何振卢康胡朔枫
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1