【技术实现步骤摘要】
一种用于电商直播场景的小样本多轮对话的生成模型
[0001]本专利技术属于对话系统
,更具体的说是涉及一种用于电商直播场景的小样本多轮对话的生成模型。
技术介绍
[0002]目前的对话系统,不论是闲聊系统(e.g.,Blender
‑
Bot)还是面向任务型对话系统(e.g.,MinTL)都需要较大的对话数据集在语言生成模型上进行微调。使用大的数据集微调这些生成模型花费是昂贵的,收集大量的特定领域的数据集要花费大量的人力和物力,还需要较大的计算资源和大量的时间。为了解决使用大量训练样本以及进行微调带来的开销的问题,我们采取了一种不需要对梯度进行微调,而是使用少量样本做为生成模型的上下文的来进行学习方式,即使用基于少量样本的prompt的学习方法。
[0003]现有的开放域的预训练生成模型基于像persona
‑
chat,DailyDialog,Wizard of Internet(WiT)等数据集进行的训练,没有包含电商直播场景的数据,导致这些预训练好的生成模型不能够很好的解决 ...
【技术保护点】
【技术特征摘要】
1.一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,使用一元语言模型构建包含字和词的中文词表,使用jieba参照该词表对输入文本进行分词,使用分词后得到的字和词对输入进行表征;字或词,角色,轮数和位置嵌入的和作为嵌入的表征输入到模型;模型一共包含12个Transformer块,每个块中将解码器和编码器融合在一起,实现上下文理解和生成回复能够实现参数共享;在每个块中使用两种自注意掩码的方式来控制当前词对上下文词的访问;处于上下文位置的词,能够看到所有的上下文的词,处于回复位置的词,只能看到其之前的词;在最后的一层输出每个字对应的隐状态。2.根据权利要求1所述的一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,模型包含12层,每层包含上下文理解和回复生成两部分。上下文理解部分采用编码器结构,当前字能够看到其前后的内容;在回复生成时采用是单向解码,每个字只能看到其之前的内容。3.根据权利要求1所述的一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,训练的目标函数为最小化负对数似然损失函数:其中θ代表对话生成模型的训练参数,D代表训练数据;对话的上下文c和目标回复r是成对输入到网络中的;其中T代表着生成目标回复r的长度,r
<t
代表第t个字之前生成回复的...
【专利技术属性】
技术研发人员:宫明,
申请(专利权)人:北京中科深智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。