预训练模型获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30783916 阅读:13 留言:0更新日期:2021-11-16 07:45
本公开提供了预训练模型获取方法、装置、电子设备及存储介质,涉及深度学习、自然语言处理、知识图谱以及智能语音等领域,其中的方法可包括:获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M;根据M个预训练任务对预训练模型进行联合预训练。应用本公开所述方案,可减少资源消耗及节省时间成本等。等。等。

【技术实现步骤摘要】
预训练模型获取方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及深度学习、自然语言处理、知识图谱以及智能语音等领域的预训练模型获取方法、装置、电子设备及存储介质。

技术介绍

[0002]问答是一种比检索更高级的信息获取形式,能够针对用户的问题直接给出答案,与其它自然语言处理任务不同的是,问答同时涉及问题、数据源以及二者之间的推理计算。根据数据源的不同,可包括文本问答、知识图谱问答、表格问答、图像问答和视频问答等多种问答形态。
[0003]近年来,预训练模型得到了广泛应用,相应地,也被应用到了问答任务中,比如,针对不同的问答形态,可分别训练得到对应的预训练模型。但这种方式得到的预训练模型仅适用于特定的问答形态,不具备普遍适用性,另外,由于需要针对不同的问答形态分别训练对应的预训练模型,因此需要耗费大量的资源及时间成本等。

技术实现思路

[0004]本公开提供了预训练模型获取方法、装置、电子设备及存储介质。
[0005]一种预训练模型获取方法,包括:
[0006]获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M;
[0007]根据所述M个预训练任务对所述预训练模型进行联合预训练。
[0008]一种预训练模型获取装置,包括:获取模块以及训练模块;
[0009]所述获取模块,用于获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M;
[0010]所述训练模块,用于根据所述M个预训练任务对所述预训练模型进行联合预训练。
[0011]一种电子设备,包括:
[0012]至少一个处理器;以及
[0013]与所述至少一个处理器通信连接的存储器;其中,
[0014]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0015]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0016]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0017]上述公开中的一个实施例具有如下优点或有益效果:将多种不同问答形态在同一框架下进行预训练,即实现了多种不同问答形态的联合预训练,从而可得到适用于不同问
答形态的预训练模型,进而减少了资源消耗及节省了时间成本等。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1为本公开所述预训练模型获取方法实施例的流程图;
[0021]图2为本公开所述预训练模型的预训练架构示意图;
[0022]图3为本公开所述预训练模型获取装置实施例300的组成结构示意图;
[0023]图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0026]图1为本公开所述预训练模型获取方法实施例的流程图。如图1所示,包括以下具体实现方式。
[0027]在步骤101中,获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M。
[0028]在步骤102中,根据M个预训练任务对预训练模型进行联合预训练。
[0029]可以看出,上述方法实施例所述方案中,可将多种不同问答形态在同一框架下进行预训练,即实现了多种不同问答形态的联合预训练,从而可得到适用于不同问答形态的预训练模型,进而减少了资源消耗及节省了时间成本等。
[0030]尽管不同问答形态的数据源不同,但它们之间在问题和数据源的理解以及推理计算等方面存在共性,因此可进行多种不同问答形态的联合预训练,从而可得到适用于不同问答形态的预训练模型,另外,某些问答形态如视频问答,通常难以获取足够多的训练样本,因此按照现有方式得到的对应的预训练模型的问答效果通常较差,而采用本公开所述方式后,可利用联合预训练来实现知识迁移,从而可利用训练样本丰富的问答形态来改进训练样本不足的问答形态的问答效果等。
[0031]所述预训练模型具体为何种模型不作限制。
[0032]为进行预训练模型的预训练,可首先获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务可包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M。
[0033]M和N的具体取值均可根据实际需要而定,若N等于M,说明预训练任务集合中仅包
括N个问答任务,若N小于M,说明预训练任务集合中除包括N个问答任务外,还包括至少一个其它任务。
[0034]比如,N的取值可为5,相应地,5个问答任务可包括:文本问答任务、知识图谱问答任务、表格问答任务、图像问答任务以及视频问答任务。
[0035]本公开的一个实施例中,预训练任务集合中可包括:问答预训练任务子集合,问答预训练任务子集合中可包括:N个问答任务,另外还可进一步包括以下之一或任意组合:问题与数据源匹配性判断任务、数据源中与问题相关部分检测任务、问题和/或数据源有效性判断任务。
[0036]可以看出,问答预训练任务子集合中的任务均为与问答相关的预训练任务。其中,问题与数据源匹配性判断任务,用于判断给定的数据源如文本、知识图谱、表格、图像或视频能否回答给定的问题,数据源中与问题相关部分检测任务,用于标识出给定的数据源中能够回答问题的部分,问题和/或数据源有效性判断任务,用于判断给定的问题是否是有效的信息获取类问题,和/或,判断给定的数据源是否可以支持信息获取类问题。
[0037]进一步结合上述的问题与数据源匹配性判断任务、数据源中与问题相关部分检测任务以及问题和/或数据源有效性判断任务对预训练模型进行联合预训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练模型获取方法,包括:获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M;根据所述M个预训练任务对所述预训练模型进行联合预训练。2.根据权利要求1所述的方法,其中,所述根据所述M个预训练任务对所述预训练模型进行联合预训练包括:在进行每轮的训练时,分别进行以下处理:确定本轮训练对应的预训练任务,作为当前预训练任务;获取所述当前预训练任务对应的损失函数;根据所述损失函数对所述当前预训练任务对应的模型参数进行更新;其中,所述M个预训练任务中的每一预训练任务均会被作为所述当前预训练任务。3.根据权利要求2所述的方法,其中,所述获取所述当前预训练任务对应的损失函数包括:获取所述当前预训练任务对应的L个损失函数,L为正整数;当所述L大于一时,所述根据所述损失函数对所述当前预训练任务对应的模型参数进行更新包括:根据所述L个损失函数确定出综合损失函数,根据所述综合损失函数对所述当前预训练任务对应的模型参数进行更新。4.根据权利要求1所述的方法,其中,所述预训练任务集合中包括:问答预训练任务子集合;所述问答预训练任务子集合中包括:所述N个问答任务,以及以下之一或任意组合:问题与数据源匹配性判断任务、数据源中与问题相关部分检测任务、问题和/或数据源有效性判断任务。5.根据权利要求1~4中任一项所述的方法,其中,所述预训练任务集合中还包括以下之一或全部:单模预训练任务子集合、多模预训练任务子集合;所述单模预训练任务子集合中包括:P个不同的单模预训练任务,P为正整数;所述多模预训练任务子集合中包括:Q个不同的多模预训练任务,Q为正整数。6.一种预训练模型获取装置,包括:获取模块以及训练模块;所述获取模块,用于获取由M个预训练任务组成的预训练任务集合,M为大于一的正整数,所述预训练任务包括:分别对应于不同问答形态的N个问答任务,N为大于一的正整数,且小于或等于M;所述训练模块,用于根...

【专利技术属性】
技术研发人员:姜文斌冯知凡冯欣伟吕雅娟朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1