一种利用微调和重排序策略的情感可控回复生成方法技术

技术编号:29330614 阅读:30 留言:0更新日期:2021-07-20 17:48
一种利用微调和重排序策略的情感可控回复生成方法,利用微调算法对大规模开放域语言预训练模型GPT‑2进行训练,即,使用带有情感类别标签的开放领域多轮对话语料训练GPT‑2,通过将对话语句与其对应情感类别标签混合训练的方式,使语言模型学习语义和情感的依赖关系,得到EmoGPT模型,利用EmoGPT模型,根据指定的情感类别标签,将生成的K个回复进行情感重排序,得到最终的生成回复,本发明专利技术解决了多轮对话情况下由于对话生成模型中缺乏情感控制方法导致的生成回复的情感与指定情感不一致的问题,实现了多轮对话的情感可控回复生成,提高了对话生成回复的情感一致性。

【技术实现步骤摘要】
一种利用微调和重排序策略的情感可控回复生成方法
本专利技术属于人工智能
,涉及情感对话生成,特别涉及一种利用微调和重排序策略的情感可控回复生成方法。
技术介绍
对话生成是指根据给定的对话上文,模型逐字或逐词生成回复语句。对于生成的回复语句最基本的要求是语法正确且语言表达自然流畅。情感对话生成则对模型生成的回复语句进行了更高的要求,除符合基本的语法和语言表达要求外,还需要富有情感。生成回复的情感可控性是目前情感对话生成的重要研究方向。以往的研究工作主要基于Seq2Seq模型,通过情感标签结合情感记忆、注意力机制、多任务学习和对抗学习等方式提升了对话模型生成回复的情感表达和控制能力。传统的基于Seq2Seq的对话生成模型存在一些明显缺陷,如生成回复的信息量少,模型倾向于生成低质量的通用回复等。随着Transformer在自然语言处理领域的卓越表现,基于Transformer的语言模型在自然语言生成类任务中得到广泛应用,并取得了良好的性能表现,GPT-2(GenerativePre-trainedTransformer,生成式的预训练Transformer)是最典型的模型之一。GPT-2在开放领域多轮对话的应用使得语言质量和内容相关性和多样性等方面均有显著提升,能够极大地缓解传统Seq2Seq模型的安全回复问题。然而,对于基于GPT-2的多轮对话生成,回复情感的控制是一个亟待解决的问题,在多轮对话中准确控制生成回复的情感,对于未来对多轮对话的动态情感回复策略的研究是十分必要的。专利技术内容为了克服上述现有技术的缺点,本专利技术的目的在于提供一种利用微调和重排序策略的情感可控回复生成方法,该方法主要针对现有基于Seq2Seq模型容易出现信息量少,低质量的安全回复,对话生成模型中缺乏情感控制方法导致的生成回复的情感与指定情感不一致的问题,将“预训练+微调”策略应用在情感可控回复生成中。为了实现上述目的,本专利技术采用的技术方案是:一种利用微调和重排序策略的情感可控回复生成方法,包括:步骤1,利用微调算法对大规模开放域语言预训练模型GPT-2进行训练,即,使用带有情感类别标签的开放领域多轮对话语料训练GPT-2,通过将对话语句与其对应情感类别标签混合训练的方式,使语言模型学习语义和情感的依赖关系,得到EmoGPT模型;步骤2,利用EmoGPT模型,根据指定的情感类别标签将生成的K个回复进行情感重排序,得到最终的生成回复其中,T表示对话上下文中对话轮次,为第T轮对话中回复语句的第j个词,t为RT的序列长度,即第T轮对话中回复语句的词的数量,K可由用户指定。所述大规模开放域语言预训练模型GPT-2是使用无情感标签的开放领域多轮对话语料训练得到的适用于开放领域多轮对话的语言模型。所述GPT-2模型由多个Transformer模块堆栈构成,EmoGPT模型的初始输入为对话上文Context和指定的情感类别标签的拼接序列模型逐词生成并输出符合指定情感的回复,直到生成语句结束符号[SEP]或达到最大长度时停止,其中,Context={U1,R1,U2,R2,…,Ui,Ri,…,UT},Ui表示第i轮对话中用户话语的词序列,为第i轮对话中用户话语的第j个词,为Ui的序列长度,Ri表示第i轮对话中回复语句的词序列,为第i轮对话中回复语句的第j个词,为Ri的序列长度,UT表示第T轮用户话语,所述Ui和Ri均以词序列的形式输入,每个词序列后加入一个[SEP]符号作为语句结束标签。将所述指定的情感类别标签拼接在初始输入序列后,得到长序列文本即包含情感标签的多轮对话序列,将EC和真实的回复语句输入EmoGPT模型,指定候选语句数量K,将对话上下文复制K份并行输入EmoGPT中,模型每轮次生成K个候选词,将生成的候选词对应地拼接到上轮次的输入对话序列后面,再次输入EmoGPT模型中生成下一轮次的K个候选词,以此循环迭代,直到生成语句结束符号[SEP]或达到最大长度时停止,根据将生成的K个回复序列进行情感重排序,得到最终的生成回复其中,表示第i轮对话中用户话语的情感标签,表示第i轮对话中回复语句的情感标签。通过最大化条件概率使EmoGPT模型不断地拟合真实数据中有显式情感的语言分布,最大化条件概率公式如下:EmoGPT模型通过学习情感类别标签和文本的共现关系,从而能够在生成阶段以情感类别标签引导的方式,实现对生成回复情感的控制。所述EmoGPT模型的循环迭代过程如下:(1),加载GPT-2语言预训练模型,模型的权重和偏置参数为θ;(2),前向传播得到生成的回复语句;(3),使用交叉熵损失函数计算损失;(4),反向传播更新θ;(5),保存EmoGPT模型参数。所述步骤2中,通过对EmoGPT模型同时生成的K句回复进行情感打分并重排序,选择与指定的情感类别最接近的回复语句作为最终的生成回复,从而保证生成回复的情感一致性。所述重排序的流程如下:(1)指定候选语句的数量K,将输入的多轮对话上文序列复制为K份;(2)将K份对话上文序列并行输入EmoGPT模型,EmoGPT模型使用核采样的解码方法,解码出K个候选语句;(3)根据指定的情感类别,使用训练好的情感分类器分别对K个候选语句计算损失值并排序;(4)损失值最小的候选语句即为与指定情感类别最接近的语句,将其作为最终的回复。与现有技术相比,本专利技术的有益效果是:1)多轮对话场景下情感可控回复生成低信息,低质量的安全回复问题缓解:EmoGPT底层利用大规模开放域语言预训练模型GPT-2。GPT-2大规模预训练模型在无监督多任务情况下拥有很好的表现,具备强大的语言建模能力,它经过微调和重排序能够根据指定的情感类别和多轮对话上文,进行较为可控的情感回复生成。对话上下文和情感类别标签进入GPT-2,然后GPT-2每一个模块逐词生成回复。通过微调算法的训练可以极大程度上缓解传统Seq2Seq带来的低信息,低质量的安全回复问题。2)多轮对话场景下情感可控回复生成指定情感类别概率提高:EmoGPT使用情感标签引导回复生成的方式来控制回复的情感,显著提升模型生成指定类情感的概率。3)多轮对话场景下情感可控回复生成指定情感类别一致性得到可靠保证:情感重排序策略,通过对EmoGPT同时生成的多句回复进行情感打分,选择与指定的情感类别最接近的回复语句作为最终的生成回复,可有效地保证生成回复的情感一致性。比起传统模型,EmoGPT能够显式地抽取对话语句的情感信息,有效控制生成回复的情感,避免生成回复的情感存在较大随机性;能够显著提高语言质量和情感一致性,且生成符合指定情感类别的高质量回复。附图说明图1为微调算法流程图。图2为ER算法流程图。图3为EmoGPT模型框架示意图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。本专利技术为一本文档来自技高网...

【技术保护点】
1.一种利用微调和重排序策略的情感可控回复生成方法,其特征在于,包括:/n步骤1,利用微调算法对大规模开放域语言预训练模型GPT-2进行训练,即,使用带有情感类别标签的开放领域多轮对话语料训练GPT-2,通过将对话语句与其对应情感类别标签混合训练的方式,使语言模型学习语义和情感的依赖关系,得到EmoGPT模型;/n步骤2,利用EmoGPT模型,根据指定的情感类别标签

【技术特征摘要】
1.一种利用微调和重排序策略的情感可控回复生成方法,其特征在于,包括:
步骤1,利用微调算法对大规模开放域语言预训练模型GPT-2进行训练,即,使用带有情感类别标签的开放领域多轮对话语料训练GPT-2,通过将对话语句与其对应情感类别标签混合训练的方式,使语言模型学习语义和情感的依赖关系,得到EmoGPT模型;
步骤2,利用EmoGPT模型,根据指定的情感类别标签将生成的K个回复进行情感重排序,得到最终的生成回复其中,T表示对话上下文中对话轮次,为第T轮对话中回复语句的第j个词,t为RT的序列长度,即第T轮对话中回复语句的词的数量。


2.根据权利要求1所述利用微调和重排序策略的情感可控回复生成方法,其特征在于,所述大规模开放域语言预训练模型GPT-2是使用无情感标签的开放领域多轮对话语料训练得到的适用于开放领域多轮对话的语言模型。


3.根据权利要求1所述利用微调和重排序策略的情感可控回复生成方法,其特征在于,所述GPT-2模型由多个Transformer模块堆栈构成,EmoGPT模型的初始输入为对话上文Context和指定的情感类别标签的拼接序列模型逐词生成并输出符合指定情感的回复,直到生成语句结束符号[SEP]或达到最大长度时停止,其中,Context={U1,R1,U2,R2,…,Ui,Ri,…,UT},Ui表示第i轮对话中用户话语的词序列,为第i轮对话中用户话语的第j个词,为Ui的序列长度,Ri表示第i轮对话中回复语句的词序列,为第i轮对话中回复语句的第j个词,为Ri的序列长度,UT表示第T轮用户话语,所述Ui和Ri均以词序列的形式输入,每个词序列后加入一个[SEP]符号作为语句结束标签。


4.根据权利要求3所述利用微调和重排序策略的情感可控回复生成方法,其特征在于,将所述指定的情感类别标签拼接在初始输入序列后,得到长序列文本即包含情感标签的多轮对话序列,将EC和真实的回复语句输入EmoGPT模型,指定候选语句数量K,将对话上下文复制K份并行输入EmoGPT中,模型每轮次生成K个候选词...

【专利技术属性】
技术研发人员:杜宝祥马志强王春喻贾文超
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1