预测结果的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39242301 阅读:9 留言:0更新日期:2023-10-30 11:54
本申请公开了一种预测结果的生成方法、装置、设备、存储介质及程序产品,涉及生物信息技术领域。该方法包括:获取基因片段序列和任务指令,基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,任务指令用于指示多种预测任务类型中的至少一种;对基因片段序列和任务指令进行编码融合,得到第一编码序列;通过预先训练的基因语言模型对第一编码序列进行预测,得到预测结果,基因语言模型用于生成与任务指令中的至少一种预测任务类型对应的预测结果;对预测结果进行解码,得到目标结果,目标结果是按至少一种预测任务类型对基因片段序列进行预测得到的结果,能够提高模型的任务泛化性。任务泛化性。任务泛化性。

【技术实现步骤摘要】
预测结果的生成方法、装置、设备、存储介质及程序产品


[0001]本申请涉及生物信息
,特别涉及一种预测结果的生成方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]基于基因片段序列信息的研究可以分为基于统计学习的研究方法和基于机器学习的研究方法,由于对基因片段序列信息的深入研究,设计多种多样的研究任务。
[0003]相关技术中,通过采用基于非预训练深度学习的研究方法,针对不同的任务设计训练不同的深度学习模型。
[0004]然而,上述需要针对不同的任务类型特别设计对应的模型,模型对于任务的泛化性较差,预测效率较低。

技术实现思路

[0005]本申请实施例提供了一种预测结果的生成方法、装置、设备、存储介质及程序产品,能够提高模型的任务泛化性。所述技术方案如下。
[0006]一方面,提供了一种预测结果的生成方法,所述方法包括:
[0007]获取基因片段序列和任务指令,所述基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,所述任务指令用于指示多种预测任务类型中的至少一种;
[0008]对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,所述第一编码序列中包括所述基因片段序列对应的基因编码序列,以及所述任务指令对应的任务编码序列;
[0009]通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,所述基因语言模型用于生成与所述任务指令中的至少一种预测任务类型对应的预测结果;
[0010]对所述预测结果进行解码,得到目标结果,所述目标结果是按所述至少一种预测任务类型对所述基因片段序列进行预测得到的结果。
[0011]另一方面,提供了一种预测结果的生成装置,所述装置包括:
[0012]获取模块,用于获取基因片段序列和任务指令,所述基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,所述任务指令用于指示多种预测任务类型中的至少一种;
[0013]处理模块,用于对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,所述第一编码序列中包括所述基因片段序列对应的基因编码序列,以及所述任务指令对应的任务编码序列;
[0014]所述处理模块,还用于通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,所述基因语言模型用于生成与所述任务指令中的至少一种预测任务类型对应的预测结果;
[0015]所述处理模块,还用于对所述预测结果进行解码,得到目标结果,所述目标结果是
按所述至少一种预测任务类型对所述基因片段序列进行预测得到的结果。
[0016]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的预测结果的生成方法。
[0017]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的预测结果的生成方法。
[0018]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的预测结果的生成方法。
[0019]本申请实施例提供的技术方案带来的有益效果至少包括:
[0020]通过获取基因片段序列和任务指令,基因片段序列中包括蛋白组片段序列和转录组片段序列中的至少一种,任务指令用于指示多种预测任务类型中的至少一种,对基因片段序列和任务指令进行编码融合,得到第一编码序列,第一编码序列中包括基因片段序列对应的基因编码序列,以及任务指令对应的任务编码序列,通过预先训练的基因语言模型对第一编码序列进行预测,得到预测结果,基因语言模型用于生成与任务指令中的至少一种预测任务类型对应的预测结果,对预测结果进行解码,得到目标结果,目标结果是按至少一种任务类型对基因片段序列进行预测得到的结果,通过该基因语言模型实现了基于不同的任务编码序列直接生成对应的任务结果,能够适应于多种不同的预测任务类型,提高了模型对于预测任务的泛化性,提高了预测效率。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个示例性实施例提供的实施环境示意图;
[0023]图2是本申请一个示例性实施例提供的预测结果的生成方法的流程图;
[0024]图3是本申请一个示例性实施例提供的基因语言模型应用示意图;
[0025]图4是本申请一个示例性实施例提供的编码融合方法流程图;
[0026]图5是本申请一个示例性实施例提供的基因语言模型训练方法流程图;
[0027]图6是本申请一个示例性实施例提供的基因语言模型训练示意图;
[0028]图7是本申请一个示例性实施例提供的数据扩展方法流程图;
[0029]图8是本申请一个示例性实施例提供的基因语言模型结构示意图;
[0030]图9是本申请一个示例性实施例提供的预测结果的生成装置的结构框图;
[0031]图10是本申请一个示例性实施例提供的预测结果的生成装置模块的结构框图;
[0032]图11是本申请一个示例性实施例提供的终端的结构框图。
具体实施方式
[0033]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0034]应当理解,尽管在本公开可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一参数也可以被称为第二参数,类似地,第二参数也可以被称为第一参数。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0035]基于基因片段序列信息的研究可以分为基于统计学习的研究方法和基于机器学习的研究方法,由于对基因片段序列信息的深入研究,设计多种多样的研究任务。相关技术中,通过采用基于预训练深度学习的研究方法,使用大量数据对深度学习模型进行预训练,从而获得一个数据通用的深度学习模型。然而,上述方法虽然扩大了模型的数据泛化性,但针对不同的任务类型需要特别设计对应的任务分支,模型对于任务的泛化性较差。
[0036]本申请实施例中提供的预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测结果的生成方法,其特征在于,所述方法包括:获取基因片段序列和任务指令,所述基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,所述任务指令用于指示多种预测任务类型中的至少一种;对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,所述第一编码序列中包括所述基因片段序列对应的基因编码序列,以及所述任务指令对应的任务编码序列;通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,所述基因语言模型用于生成与所述任务指令中的至少一种预测任务类型对应的预测结果;对所述预测结果进行解码,得到目标结果,所述目标结果是按所述至少一种预测任务类型对所述基因片段序列进行预测得到的结果。2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,包括:将所述第一编码序列输入所述基因语言模型,通过迭代输出得到所述预测结果,其中,所述基因语言模型基于所述第一编码序列和前i个输出结果生成第i+1个输出结果,直到所述第i+1个输出结果符合预设的终止结果停止输出,i为正整数。3.根据权利要求1所述的方法,其特征在于,所述对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,包括:按照预设的片段长度对所述基因片段序列进行片段划分,得到多个单位基因片段序列,所述片段长度用于指示所述单位基因片段序列中的碱基数量;对所述多个单位基因片段序列和所述任务指令进行编码融合,得到所述第一编码序列,所述第一编码序列中包括所述多个单位基因片段序列对应的多个单位基因编码序列,以及所述任务指令对应的任务编码序列。4.根据权利要求3所述的方法,其特征在于,所述对所述多个单位基因片段序列和所述任务指令进行编码融合,得到所述第一编码序列,包括:获取预设的基因编码映射表,所述基因编码映射表中包括所述蛋白组片段序列与基因编码序列之间的对应关系,以及所述转录组片段序列与基因编码序列之间的对应关系;基于所述基因编码映射表对所述多个单位基因片段序列进行编码,得到所述多个单位基因编码序列;获取预设的任务编码映射表,所述任务编码映射表中包括不同预测任务类型的任务指令与任务编码序列之间的对应关系;基于所述任务编码映射表对所述任务指令进行编码,得到所述任务编码序列;对所述多个单位基因编码序列和所述任务编码序列进行融合,得到所述第一编码序列。5.根据权利要求1至4任一所述的方法,其特征在于,所述通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果之前,还包括:获取样本基因片段序列、样本任务指令和预设的任务结果;对所述样本基因片段序列、所述样本任务指令和预设的任务结果进行编码融合,得到样本编码序列,所述样本编码序列中包括所述样本基因片段序列对应的多个样本基因编码序列、所述样本任务指令对应的样本任务编码序列,以及所述预设的任务结果对应的任务
结果编码;通过候选基因语言模型基于第j个样本基因编码序列,生成第j...

【专利技术属性】
技术研发人员:秦陈陈张道安姚建华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1