【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体机器学习、数据处理技术、生物信息学领域,更具体地涉及一种生物模型的训练方法及生物序列的处理方法。
技术介绍
1、随着生物信息学和计算生物学的飞速发展,蛋白质序列和信使核糖核酸(mrna)编码序列分析已成为研究生物学的重要手段之一。蛋白质是执行大多数生命功能的执行者,而信使核糖核酸是从基因到蛋白质表达的信息媒介。了解和预测蛋白质序列的结构和功能,以及它们如何从核糖核酸序列翻译而来,对于新药开发、遗传病治疗、基因工程和基因编辑等领域具有重要意义。
技术实现思路
1、鉴于上述问题,本专利技术提供了生物模型的训练方法及生物序列的处理方法。
2、根据本专利技术的第一个方面,提供了一种生物模型的训练方法,包括:根据蛋白质序列数据集和核糖核酸序列数据集按照预设输入格式构建蛋白质-核糖核酸序列对,其中,蛋白质-核糖核酸序列对包括预设提示词;利用预设分词器对蛋白质序列数据集和核糖核酸序列对进行分词处理,得到训练序列对;将训练序列对输入生物模型中,得到与训练序列对对
...【技术保护点】
1.一种生物模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述训练序列对输入生物模型中,得到与所述训练序列对对应的预测序列对包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述训练序列对中预设比例的字词进行掩码处理,得到掩码后的训练序列对包括:
4.根据权利要求3所述的方法,其特征在于,所述生物模型包括注意力矩阵,所述注意力矩阵由第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵拼接而成,所述第一子矩阵位于第一象限、所述第二子矩阵位于第二象限、第三子矩阵位于第三象限和第四子矩阵位于第
...
【技术特征摘要】
1.一种生物模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述训练序列对输入生物模型中,得到与所述训练序列对对应的预测序列对包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述训练序列对中预设比例的字词进行掩码处理,得到掩码后的训练序列对包括:
4.根据权利要求3所述的方法,其特征在于,所述生物模型包括注意力矩阵,所述注意力矩阵由第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵拼接而成,所述第一子矩阵位于第一象限、所述第二子矩阵位于第二象限、第三子矩阵位于第三象限和第四子...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。