预训练模型获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30783916 阅读：13 留言：0更新日期：2021-11-16 07:45

本公开提供了预训练模型获取方法、装置、电子设备及存储介质，涉及深度学习、自然语言处理、知识图谱以及智能语音等领域，其中的方法可包括：获取由M个预训练任务组成的预训练任务集合，M为大于一的正整数，所述预训练任务包括：分别对应于不同问答形态的N个问答任务，N为大于一的正整数，且小于或等于M；根据M个预训练任务对预训练模型进行联合预训练。应用本公开所述方案，可减少资源消耗及节省时间成本等。等。等。

全部详细技术资料下载

【技术实现步骤摘要】
预训练模型获取方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，特别涉及深度学习、自然语言处理、知识图谱以及智能语音等领域的预训练模型获取方法、装置、电子设备及存储介质。

技术介绍

[0002]问答是一种比检索更高级的信息获取形式，能够针对用户的问题直接给出答案，与其它自然语言处理任务不同的是，问答同时涉及问题、数据源以及二者之间的推理计算。根据数据源的不同，可包括文本问答、知识图谱问答、表格问答、图像问答和视频问答等多种问答形态。
[0003]近年来，预训练模型得到了广泛应用，相应地，也被应用到了问答任务中，比如，针对不同的问答形态，可分别训练得到对应的预训练模型。但这种方式得到的预训练模型仅适用于特定的问答形态，不具备普遍适用性，另外，由于需要针对不同的问答形态分别训练对应的预训练模型，因此需要耗费大量的资源及时间成本等。

技术实现思路

[0004]本公开提供了预训练模型获取方法、装置、电子设备及存储介质。
[0005]一种预训练模型获取方法，包括：
[0006]获取由M个预训练任务组成的预训练任务集合，M为大于一的正整数，所述预训练任务包括：分别对应于不同问答形态的N个问答任务，N为大于一的正整数，且小于或等于M；
[0007]根据所述M个预训练任务对所述预训练模型进行联合预训练。
[0008]一种预训练模型获取装置，包括：获取模块以及训练模块；
[0009]所述获取模块，用于获取由M个预训练任务组成的预训练任务集合，M为大于...

【技术保护点】

【技术特征摘要】
1.一种预训练模型获取方法，包括：获取由M个预训练任务组成的预训练任务集合，M为大于一的正整数，所述预训练任务包括：分别对应于不同问答形态的N个问答任务，N为大于一的正整数，且小于或等于M；根据所述M个预训练任务对所述预训练模型进行联合预训练。2.根据权利要求1所述的方法，其中，所述根据所述M个预训练任务对所述预训练模型进行联合预训练包括：在进行每轮的训练时，分别进行以下处理：确定本轮训练对应的预训练任务，作为当前预训练任务；获取所述当前预训练任务对应的损失函数；根据所述损失函数对所述当前预训练任务对应的模型参数进行更新；其中，所述M个预训练任务中的每一预训练任务均会被作为所述当前预训练任务。3.根据权利要求2所述的方法，其中，所述获取所述当前预训练任务对应的损失函数包括：获取所述当前预训练任务对应的L个损失函数，L为正整数；当所述L大于一时，所述根据所述损失函数对所述当前预训练任务对应的模型参数进行更新包括：根据所述L个损失函数确定出综合损失函数，根据所述综合损失函数对所述当前预训练任务对应的模型参数进行更新。4.根据权利要求1所述的方法，其中，所述预训练任务集合中包括：问答预训练任务子集合；所述问答预训练任务子集合中包括：所述N个问答任务，以及以下之一或任意组合：问题与数据源匹配性判断任务、数据源中与问题相关部分检测任务、问题和/或数据源有效性判断任务。5.根据权利要求1～4中任一项所述的方法，其中，所述预训练任务集合中还包括以下之一或全部：单模预训练任务子集合、多模预训练任务子集合；所述单模预训练任务子集合中包括：P个不同的单模预训练任务，P为正整数；所述多模预训练任务子集合中包括：Q个不同的多模预训练任务，Q为正整数。6.一种预训练模型获取装置，包括：获取模块以及训练模块；所述获取模块，用于获取由M个预训练任务组成的预训练任务集合，M为大于一的正整数，所述预训练任务包括：分别对应于不同问答形态的N个问答任务，N为大于一的正整数，且小于或等于M；所述训练模块，用于根...

【专利技术属性】
技术研发人员：姜文斌，冯知凡，冯欣伟，吕雅娟，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人