生物模型的训练方法及生物序列的处理方法技术

技术编号:42546677 阅读:35 留言:0更新日期:2024-08-27 19:48
本发明专利技术提供了一种生物模型的训练方法及生物序列的处理方法,可以应用于人工智能技术领域。该生物模型的训练方法包括:根据蛋白质序列数据集和核糖核酸序列数据集按照预设输入格式构建蛋白质‑核糖核酸序列对,蛋白质‑核糖核酸序列对包括预设提示词;利用预设分词器对蛋白质序列数据集和核糖核酸序列对进行分词处理,得到训练序列对;将训练序列对输入生物模型中,得到与训练序列对对应的预测序列对;根据预测序列对、训练序列对和预设提示词训练生物模型,得到训练后的生物模型。通过本方法可以实现同时理解和生成蛋白质及核糖核酸序列,为下游应用对接提供基础。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,具体机器学习、数据处理技术、生物信息学领域,更具体地涉及一种生物模型的训练方法及生物序列的处理方法


技术介绍

1、随着生物信息学和计算生物学的飞速发展,蛋白质序列和信使核糖核酸(mrna)编码序列分析已成为研究生物学的重要手段之一。蛋白质是执行大多数生命功能的执行者,而信使核糖核酸是从基因到蛋白质表达的信息媒介。了解和预测蛋白质序列的结构和功能,以及它们如何从核糖核酸序列翻译而来,对于新药开发、遗传病治疗、基因工程和基因编辑等领域具有重要意义。


技术实现思路

1、鉴于上述问题,本专利技术提供了生物模型的训练方法及生物序列的处理方法。

2、根据本专利技术的第一个方面,提供了一种生物模型的训练方法,包括:根据蛋白质序列数据集和核糖核酸序列数据集按照预设输入格式构建蛋白质-核糖核酸序列对,其中,蛋白质-核糖核酸序列对包括预设提示词;利用预设分词器对蛋白质序列数据集和核糖核酸序列对进行分词处理,得到训练序列对;将训练序列对输入生物模型中,得到与训练序列对对应的预测序列对;根据本文档来自技高网...

【技术保护点】

1.一种生物模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述训练序列对输入生物模型中,得到与所述训练序列对对应的预测序列对包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述训练序列对中预设比例的字词进行掩码处理,得到掩码后的训练序列对包括:

4.根据权利要求3所述的方法,其特征在于,所述生物模型包括注意力矩阵,所述注意力矩阵由第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵拼接而成,所述第一子矩阵位于第一象限、所述第二子矩阵位于第二象限、第三子矩阵位于第三象限和第四子矩阵位于第四象限;

...

【技术特征摘要】

1.一种生物模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述训练序列对输入生物模型中,得到与所述训练序列对对应的预测序列对包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述训练序列对中预设比例的字词进行掩码处理,得到掩码后的训练序列对包括:

4.根据权利要求3所述的方法,其特征在于,所述生物模型包括注意力矩阵,所述注意力矩阵由第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵拼接而成,所述第一子矩阵位于第一象限、所述第二子矩阵位于第二象限、第三子矩阵位于第三象限和第四子...

【专利技术属性】
技术研发人员:周丛照赵恒睿陈宇星
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1