【技术实现步骤摘要】
一种基于深度学习算法的新型冠状病毒分类方法
本专利技术涉及新型冠状病毒分类
,一种基于深度学习算法的新型冠状病毒分类方法。
技术介绍
新型冠状病毒,是一类具有包膜、基因组为线性单股正链的RNA病毒,因为人群缺少对新型病毒株的免疫力,所以人群普遍易感。由于新型冠状病毒具有较长的潜伏期,所以迫切的需要阐明和分析病毒基因组序列,以便更好地了解这种新型病毒并且及时制定治疗方案。而现有的方法通过对序列数据进行相似性比较虽然已经找到了序列相似性。但是这种序列对比方法需要借助基因注释,以数据库作为参考,利用比对软件分析数据,在面对需要同时分析数千个细胞表观基因组序列时几乎是不可能的。传统的机器学习方法很难提取病毒序列的非线性抽象特征,只能提取低层特征,低层特征主要是对病毒序列局部信息的描述,并不能很好的描述病毒基因组序列的全部特征,在需要分析病毒基因组序列这种大数据的背景下,缺乏计算效率和预测准确性。
技术实现思路
本专利技术提出一种基于深度学习的方法来分类新型冠状病毒,此方法对于分析和处理病毒序列大数据场景时可 ...
【技术保护点】
1.一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:/n步骤1获取新型冠状病毒数据集,所述数据集为从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;/n步骤2预处理病毒序列数据集,得到特征向量;/n步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;/n步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型;/n步骤5使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签。/n
【技术特征摘要】
1.一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,所述数据集为从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型;
步骤5使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签。
2.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
步骤2.3根据所述幅值利用马氏距离构造特征向量。
3.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
步骤3.1为得到病毒序列特征,随机破坏所述特征向量的十分之一数据得到样本;
步骤3.2构建损失函数;
步骤3.3训练第一级自动编码器,得到第一层低维特征向量;
步骤3.4将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达。
4.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型,其步骤为:
步骤4.1将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
步骤4.2使用贝叶斯优化得到最佳超参数;
步骤4.3根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
步骤4.4判断是否所有数据均被划分过是验证集,若是,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型,若不是,重新选取所述训练集数据中没有划分为验证集过中的其中一份作为验证集,其余K-1份作为训练集,重复步骤4.2和步骤4.3。
5.根据权利要求2所述的一种基于深度学习算法的新型冠病毒分类方法,其特征在于,步骤2.1将所述病毒序列进行字符序列初步编码得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,所述编码字符为T/C=1,A/G=-1,经过...
【专利技术属性】
技术研发人员:马宝山,张树正,张新宇,高宗江,柴冰洁,侯晓宇,熊桐,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。