【技术实现步骤摘要】
基于门控循环单元神经网络的冠状病毒序列识别方法
本专利技术涉及神经网络、数据处理以及计算机模拟
,更为具体地是涉及一种基于门控循环单元神经网络的冠状病毒序列识别方法。
技术介绍
冠状病毒(Coronavirus,CoV)是一类具有包膜的单股正链RNA病毒,该病毒在哺乳动物和鸟类中引起多种疾病。部分冠状病毒在人类中具有很高的传染性、致病性和致死率,对国民健康、社会稳定和国家经济发展有着巨大的负面影响。实时逆转录聚合酶链式反应(Real-timeReverse-transcriptionPolymeraseChainReaction,RT-PCR)扩增方法是检测冠状病毒的首选方法。该方法具有实时监测、敏感度高、特异性高等优点,但也存在一些缺点,例如无法对新型和高变异株冠状病毒进行检测,对引物要求高,需要实验人员掌握相应实验操作技能等。对新发和高变异株冠状病毒,通常处理为分离出病毒,然后利用电子显微镜在细胞培养物中鉴定病毒。这在技术层面上要求很高,同时耗时长、敏感性低。而高通量测序数据分析的传统方法是序列比对,尽管已经有不少针对高通量测序序列特点的序列比对算法,但这些序列比对算法具有计算时间长、对计算资源要求高等缺点。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种基于门控循环单元神经网络的冠状病毒序列识别方法,其从NCBI中获得冠状病毒和人基因组数据。对收集到的序列进行数据预处理,构建冠状病毒感染者样品高通量测序模拟数据集,将其划分为训练集、验证集和 ...
【技术保护点】
1.一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:/nS1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;/nS2:对所收集的数据进行预处理:/n首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人
的参考基因组序列合并后的训练集
【技术特征摘要】
1.一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:
S1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人
的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过
程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独
立测试集,所述独立测试集用于建立模型后对模型的效果进行验证;
S3:对S2中获得各数据集进行编码,建立冠状病毒序列的分类模型;
S4:对该模型进行修正;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列。
2.一种如权利要求1所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其具体步骤如下:
S1:进行数据收集,所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人
的参考基因组序列合并后的训练集、验证集和测试集,其中该测试集用于在训练过
程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独
立测试集,所述独立测试集用于建立模型后对模型的效果进行验证,并对该独立测试集中
的数据进行预处理;
S3:对最终用于模型的训练集、验证集和测试集进行编码,使每条序列向量化;建立训练冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化;
S4:对S3中所建立的模型进行修正;
当其交叉熵小于第一阈值停止训练,或训练集的准确率达到第二阈值并且验证集的准确率能够达到第三阈值时停止训练;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列;
S8:在独立测试集上对训练完毕的模型和拒识区间进行验证。
3.如权利要求2所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,S2中,获得冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集的方法步骤如下:
步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分;
步骤二、设置冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集内的冠状病毒序列片段的片段长度,将冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集中的数据转化成连续的子序列,其中,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的序列上连续滑动取值,每个数据集内均获得多个长度为150个碱基的核酸序列,使其与模拟测序数据的序列长度相等;
步骤三、将步骤二中所获得的冠状病毒的各个数据集进...
【专利技术属性】
技术研发人员:应晓敏,何振,卢康,胡朔枫,
申请(专利权)人:中国人民解放军军事科学院军事医学研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。