【技术实现步骤摘要】
本申请涉及宏病毒组数据处理领域,尤其涉及一种基于模糊控制优化的病毒宿主预测方法、系统及介质。
技术介绍
1、病毒是地球上最丰富和多样化的实体。其中真核病毒,尤其是真核rna病毒,更是感染了几乎所有真核生物的分类群,不仅会对人类健康与社会生产造成重大影响,也深度影响全球范围的生物地球化学循环。
2、随着下一代测序技术(ngs)的发展,有研究表明,几乎所有的病毒序列都已被测序,但都缺乏重要的宿主信息,这大大阻碍了人们对宏病毒组数据的进一步利用。目前的病毒宿主预测方法主要针对原核生物,其使用基于对比的方法,需要同时参考病毒和原核宿主的序列信息,处理的信息量大且效率较低;而针对真核生物,由于其序列庞大复杂,真核生物中内含子更是会给训练带来大量噪声,因此目前对于真核病毒宿主预测主要采用基于深度学习的无对比方法,但该方法预测范围非常有限且准确度较低。
技术实现思路
1、为解决上述技术问题,本专利技术的目的在于:提供一种预测范围大且准确度高的基于模糊控制优化的病毒宿主预测方法、系统及介质。<
...【技术保护点】
1.一种基于模糊控制优化的病毒宿主预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述获取病毒全基因组数据,统计所述病毒全基因组数据中各密码子的出现频率,根据所述出现频率得到密码子字典这一步骤,其具体包括:
3.根据权利要求1所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述使用所述密码子字典替换预设的大语言模型中的文本文件,并根据所述病毒全基因组数据训练替换后的所述大语言模型,得到病毒宿主预测模型这一步骤,其具体包括:
4.根据权利要求3所述的一种基于模
...【技术特征摘要】
1.一种基于模糊控制优化的病毒宿主预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述获取病毒全基因组数据,统计所述病毒全基因组数据中各密码子的出现频率,根据所述出现频率得到密码子字典这一步骤,其具体包括:
3.根据权利要求1所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述使用所述密码子字典替换预设的大语言模型中的文本文件,并根据所述病毒全基因组数据训练替换后的所述大语言模型,得到病毒宿主预测模型这一步骤,其具体包括:
4.根据权利要求3所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述根据所述训练集、所述验证集以及所述测试集对替换后的所述大语言模型进行训练,得到所述病毒宿主预测模型这一步骤,其具体包括:
5.根据权利要求1所述的一种基于模糊控制优化的病毒宿主预测方法,其特征在于,所述病毒宿主预测模型包括输入层、albert层以及分类层,所述将所述病毒序列输入所述病毒宿主预测模型,得到最优潜在宿主这一步骤,其具体包括:
6...
【专利技术属性】
技术研发人员:张蕾,原珂,黄碧,林里,栾天罡,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。