基于生成式多语言模型的跨语言问答系统构建方法和装置制造方法及图纸

技术编号:36889883 阅读:64 留言:0更新日期:2023-03-15 21:51
本申请提出了一种基于生成式多语言模型的跨语言问答系统构建方法,其中,该方法包括:获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。本申请基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性。的多样性。的多样性。

【技术实现步骤摘要】
基于生成式多语言模型的跨语言问答系统构建方法和装置


[0001]本申请涉及问答系统
,尤其涉及一种基于生成式多语言模型的跨语言问答系统构建方法和装置。

技术介绍

[0002]目前的自动问答系统多聚焦于单一语言内部,即使有多语言问答的解决方案,也多是在不同语言各自的文本或知识内部实现各自单一语言的问答功能,无法实现文本和知识的跨语言共享问答。
[0003]目前的基于语言模型的问答系统使用的语言模型无法完成跨领域的零样本迁移学习,也无法完成跨语言的零样本迁移学习,模型的问答能力只能限制在训练语料所包含的领域内,这要求必须提供一个囊括所有领域的训练语料,但这是不现实的。同时模型的问答能力只能限制在训练语料限定的语言范围内,这要求必须为每一种语言提供充足的问答语料,但这也是不容易做的事情。
[0004]目前很多问答系统是基于语言或知识的检索模型。这种非生成类的模型所能生成的答案一定会出现在原文或原知识库中,这样会令答案缺少多样性,也难以实现复杂逻辑的回答。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本申请的第一个目的在于提出一种基于生成式多语言模型的跨语言问答系统构建方法,解决了现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性,实现高质量的问答效果。/>[0007]本申请的第二个目的在于提出一种基于生成式多语言模型的跨语言问答系统构建装置。
[0008]本申请的第三个目的在于提出一种计算机设备。
[0009]本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
[0010]为达上述目的,本申请第一方面实施例提出了一种基于生成式多语言模型的跨语言问答系统构建方法,包括:获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
[0011]可选地,在本申请的一个实施例中,获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,包括:
[0012]获取多语言文本数据;
[0013]针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
[0014]将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
[0015]根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
[0016]可选地,在本申请的一个实施例中,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,还包括:
[0017]通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
[0018]可选地,在本申请的一个实施例中,对多语言预训练模型进行微调训练,包括:
[0019]获取学习率和批大小;
[0020]采用学习率和批大小,基于损失缩放机制通过反向传播更新多语言预训练模型的参数,从而对多语言预训练模型进行训练。
[0021]可选地,在本申请的一个实施例中,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案,包括:
[0022]根据待识别文本和问题文本,通过生成式多语言模型生成候选词及其概率;
[0023]设置束大小为k,根据候选词概率在候选词中选取概率最大的k个候选词作为第一输出位置的词例;
[0024]基于第一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为第二输出位置的词例;
[0025]基于上一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为当前输出位置的词例,直至得到所有输出位置的词例,并将概率最大的词例作为生成的答案。
[0026]为达上述目的,本申请第二方面实施例提出了一种基于生成式多语言模型的跨语言问答系统构建装置,包括:
[0027]预训练模块,用于获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
[0028]训练样本构建模块,用于获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;
[0029]训练模块,用于根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
[0030]生成模块,用于获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
[0031]可选地,在本申请的一个实施例中,预训练模块,具体用于:
[0032]获取多语言文本数据;
[0033]针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本
序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
[0034]将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
[0035]根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
[0036]可选地,在本申请的一个实施例中,预训练模块,还用于:
[0037]通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
[0038]为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于生成式多语言模型的跨语言问答系统构建方法。
[0039]为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种基于生成式多语言模型的跨语言问答系统构建方法。
[0040]本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成式多语言模型的跨语言问答系统构建方法,其特征在于,包括以下步骤:获取多语言文本数据,基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对所述问答数据集进行处理,构建用于提示学习的训练样本;根据所述训练样本,基于提示学习对所述多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将所述待识别文本和问题文本输入所述生成式多语言模型,基于束检索生成所述问题文本对应的不同语言的答案。2.如权利要求1所述的方法,其特征在于,所述获取多语言文本数据,基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,包括:获取多语言文本数据;针对所述多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将所述文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;将所述损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;根据所述第一样本数据和第二样本数据,对所述通用语言模型进行预训练,得到多语言预训练模型。3.如权利要求2所述的方法,其特征在于,所述基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,还包括:通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对所述通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。4.如权利要求1所述的方法,其特征在于,对所述多语言预训练模型进行微调训练,包括:获取学习率和批大小;采用所述学习率和批大小,基于损失缩放机制通过反向传播更新多语言预训练模型的参数,从而对所述多语言预训练模型进行训练。5.如权利要求1所述的方法,其特征在于,将所述待识别文本和问题文本输入所述生成式多语言模型,基于束检索生成所述问题文本对应的不同语言的答案,包括:根据所述待识别文本和问题文本,通过所述生成式多语言模型生成候选词及其概率;设置束大小为k,根据候选词概率在所述候选词中选取概率最大的k个候选词作为第一输出位置的词例;基于第一输出位置的词例与候...

【专利技术属性】
技术研发人员:孙梦阳李天健杜政晓
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1