信息查询方法和信息生成模型的训练方法、装置制造方法及图纸

技术编号:37435872 阅读:8 留言:0更新日期:2023-05-06 09:07
本公开提供了一种信息查询方法和信息生成模型的训练方法、装置,涉及人工智能领域,具体涉及深度学习和自然语言处理等技术领域,可应用于智能搜索、智能查询和智能对话等场景。信息查询方法的具体实现方案为:采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本;采用第二预训练语言模型对预测答复文本进行处理,生成与预测答复文本对应的定位标识信息;以及确定预定文本库中与定位标识信息具有映射关系的目标文本,作为根据查询文本查询得到的答复文本。根据查询文本查询得到的答复文本。根据查询文本查询得到的答复文本。

【技术实现步骤摘要】
信息查询方法和信息生成模型的训练方法、装置


[0001]本公开涉及人工智能领域,具体涉及深度学习和自然语言处理等
,可应用于智能搜索、智能查询和智能对话等场景。

技术介绍

[0002]随着计算机技术和电子技术的发展,深度学习技术在自然语言处理等领域得到了广泛应用。预训练语言模型(Pre

trained Language Model,简称为PLM)通过从大规模语料学习普适性的语义表征,可以在应用于不同下游应用时仅进行微调,而无需大量训练,提高了深度学习技术的应用便利性。

技术实现思路

[0003]本公开旨在提供一种可解释性高且能充分利用语义信息的信息查询方法和信息生成模型的训练方法、装置、设备、介质。
[0004]根据本公开的第一方面,提供了一种信息查询方法,包括:采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本;采用第二预训练语言模型对预测答复文本进行处理,生成与预测答复文本对应的定位标识信息;以及确定预定文本库中与定位标识信息具有映射关系的目标文本,作为根据查询文本查询得到的答复文本。
[0005]根据本公开的第二方面,提供了一种信息生成模型的训练方法,其中,信息生成模型包括第一预训练语言子模型和第二预训练语言子模型,训练方法包括:采用第一训练样本对第一预训练语言子模型进行训练;每个第一训练样本包括预定文本库中的目标文本及与目标文本对应的查询文本;以及采用第二训练样本对第二预训练语言子模型进行训练;每个第二训练样本包括目标文本及与目标文本具有映射关系的定位标识信息。
[0006]根据本公开的第三方面,提供了一种信息查询装置,包括:文本生成模块,用于采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本;标识信息生成模块,用于采用第二预训练语言模型对预测答复文本进行处理,生成与预测答复文本对应的定位标识信息;以及答复文本确定模块,用于确定预定文本库中与定位标识信息具有映射关系的目标文本,作为根据查询文本查询得到的答复文本。
[0007]根据本公开的第四方面,提供了一种信息生成模型的训练装置,其中,信息生成模型包括第一预训练语言子模型和第二预训练语言子模型,训练装置包括:第一训练模块,用于采用第一训练样本对第一预训练语言子模型进行训练;每个第一训练样本包括预定文本库中的目标文本及与目标文本对应的查询文本;以及第二训练模块,用于采用第二训练样本对第二预训练语言子模型进行训练;每个第二训练样本包括目标文本及与目标文本具有映射关系的定位标识信息。
[0008]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的信息查询方法和/
或信息生成模型的训练方法。
[0009]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的信息查询方法和/或信息生成模型的训练方法。
[0010]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令在被处理器执行时实现本公开提供的信息查询方法和/或信息生成模型的训练方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的信息查询方法和信息生成模型的训练方法、装置的应用场景示意图;
[0014]图2是根据本公开实施例的信息查询方法的流程示意图;
[0015]图3是根据本公开实施例的生成预测答复文本的原理示意图;
[0016]图4是根据本公开实施例的信息查询方法的实现原理的示意图;
[0017]图5是根据本公开实施例的信息生成模型的训练方法的流程示意图;
[0018]图6是根据本公开实施例的生成第一训练样本的原理示意图;
[0019]图7是根据本公开实施例的信息查询装置的结构框图;
[0020]图8是根据本公开实施例的信息生成模型的训练装置的结构框图;以及
[0021]图9是用来实施本公开实施例的信息查询方法和/或信息生成模型的训练方法的示例电子设备的示意性框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在自然语言处理领域,几乎每项任务中都能看见预训练语言模型成功的身影。预训练语言模型例如可以包括基于Transformer网络架构构建的模型。该预训练语言模型可以使用自监督学习的方法来从大规模文本数据中学习普适性的语义表征。然后将学习到的知识迁移到下游任务中,以为下游任务提供优质的背景知识。
[0024]在智能搜索或智能查询等场景中,可以基于预训练语言模型进行信息的搜索或查询。信息搜索和信息查询的核心问题是:对于用户提出的问题(例如由用户输入的查询文本query表示),如何快速、准确地从海量文本中找出与问题相关的文档或文字片段(即答复文本)。例如,可以采用预训练语言模型在低维语义空间中表示查询文本的语义特征和海量文本中每个文本的语义特征,随后根据语义特征之间的相似度,确定海量文本中与查询文本的语义特征相似的文本为答复文本。例如,还可以采用预训练语言模型进行答复文本的端
到端生成,即将查询文本作为预训练语言模型的输入,由学习了海量文本中文本知识的预训练语言模型生成答复文本。
[0025]端到端生成答复文本的预训练语言模型通常采用基于序列到序列的编码器

解码器网络结构。模型首先通过编码器对输入的查询文本进行建模,提取出查询文本的语义信息。之后通过解码器直接输出与查询文本相关的文档标识符,或者通过解码器直接输出与查询文本相关的答复文本。其中,文档标识符通常为答复文本在预定文本库中的数字索引等。在将该模型应用于生成答复文本的场景时,通常需要使用多任务学习的方式来为模型增加根据文本生成文档标识符的训练流程,或者设计预训练任务来使得模型熟悉文本库中的文本,达到在训练中融入文本语义信息的目的。如此,训练阶段中模型需要同时对文本库中的文本和查询文本进行建模,而推理阶段中模型只需要对查询文本进行建模。此种情形下,容易使得训练任务与推理任务之间存在较大差异,不利于生成高质量的信息。
[0026]为了解决该问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息查询方法,包括:采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本;采用第二预训练语言模型对所述预测答复文本进行处理,生成与所述预测答复文本对应的定位标识信息;以及确定预定文本库中与所述定位标识信息具有映射关系的目标文本,作为根据所述查询文本查询得到的答复文本。2.根据权利要求1所述的方法,其中,所述采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本包括:将所述预测答复文本中的在前文本单元和所述查询文本的文本单元序列输入所述第一预训练语言模型,生成与所述预测答复文本中的当前文本单元对应的概率向量;所述概率向量包括多个预定文本单元分别为所述当前文本单元的概率值;以及采用束搜索的方法,根据所述概率向量更新所述在前文本单元,以生成与所述查询文本对应的多个预测答复文本,其中,所述在前文本单元的初始值为空值。3.根据权利要求2所述的方法,其中,所述将所述预测答复文本中的在前文本单元和所述查询文本的文本单元序列输入所述第一预训练语言模型,生成与所述预测答复文本中的当前文本单元对应的概率向量包括:响应于所述在前文本单元包括的文本单元的数量小于预定数量,将所述在前文本单元和所述文本单元序列输入所述第一预训练语言模型,生成与所述预测答复文本中的当前文本单元对应的概率向量。4.根据权利要求2所述的方法,其中,所述采用第二预训练语言模型对所述预测答复文本进行处理,生成与所述预测答复文本对应的定位标识信息包括:采用所述第二预训练语言模型对多个所述预测答复文本中的每个文本进行处理,生成与多个所述预测答复文本分别对应的多个定位标识信息。5.根据权利要求3所述的方法,还包括:采用第一预训练语言模型对查询文本进行处理,生成表示所述预测答复文本的主题信息的文本;其中,所述采用第二预训练语言模型对所述预测答复文本进行处理,生成与所述预测答复文本对应的定位标识信息包括:将表示所述主题信息的文本和所述预测答复文本输入所述第二预训练语言模型,生成与所述预测答复文本对应的定位标识信息。6.一种信息生成模型的训练方法,其中,所述信息生成模型包括第一预训练语言子模型和第二预训练语言子模型;所述方法包括:采用第一训练样本对所述第一预训练语言子模型进行训练;每个所述第一训练样本包括预定文本库中的目标文本及与所述目标文本对应的查询文本;以及采用第二训练样本对所述第二预训练语言子模型进行训练;每个所述第二训练样本包括所述目标文本及与所述目标文本具有映射关系的定位标识信息。7.根据权利要求6所述的方法,还包括:
根据所述预定文本库中所述目标文本的数量,确定所述第一预训练语言子模型和所述第二预训练语言子模型的网络结构,其中,所述网络结构包括的网络参数的数量与所述预定文本库中所述目标文本的数量正相关。8.根据权利要求6所述的方法,还包括:针对所述预定文本库中的每个目标文本,采用预定查询文本生成模型对每个所述目标文本进行处理,生成与每个所述目标文本对应的多个查询文本;以及根据所述多个查询文本中的每个查询文本和每个所述目标文本,生成与所述每个查询文本对应的第一训练样本。9.根据权利要求8所述的方法,其中,所述根据所述多个查询文本中的每个查询文本和每个所述目标文本,生成与所述每个查询文本对应的第一训练样本包括:根据每个所述目标文本的文本属性,确定表示每个所述目标文本的主题信息的文本;拼接表示所述主体信息的文本和每个所述目标文本,得到拼接文本;以及将所述拼接文本作为所述每个查询文本的标注信息,得到与所述每个查询文本对应的第一训练样本。10.一种信息查询装置,包括:文本生成模块,用于采用第一预训练语言模型对查询文本进行处理,生成与查询文本对应的预测答复文本;标识信息生成模块,用于采用第二预训练语言模型对所述预测答复文本进行处理,生成与所述预测答复文本对应的定位标识信息;以及...

【专利技术属性】
技术研发人员:任瑞阳曲瑛琪刘璟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1