【技术实现步骤摘要】
一种训练藏字诗生成模型的方法、藏字诗生成方法及装置
本文涉及自然语言处理
,尤其涉及一种训练藏字诗生成模型的方法、藏字诗生成方法及装置。
技术介绍
随着2014年seq2seq模型在机器翻译中的成功应用,使文本生成技术获得了很大的发展,诗词自动生成便是其中的一种常见应用。在诗词自动生成应用中,通过用户指定固定数量的字,将这些字藏入到诗的句首或者句尾,自动生成诗词,为用户带来了更多的有趣体验。在相关技术中,设置主题词及藏头字,根据主题词及藏头字,使用预先构建的自动作诗模型生成诗。在首句生成的时候,利用主题词和首句藏头字生成首句;在进行非首句生成的时候,利用主题词、当前非首句的藏头字以及上一句的句向量生成当前非首句。使用此方法在生成每个非首句的时候,一般利用此非首句的藏头字、主题词向量以及前一句的句向量共同作为初始向量输入循环神经网络(RecurrentNeuralNetwork,RNN)解码器,但由于RNN具有梯度消逝的现象,所以句向量信息在传递到后面时刻的时候就会减弱,甚至句尾无法学习到韵脚信息,导致句子与句子之间的关联效果和对仗效果较差。
技术实现思路
为克服相关技术中存在的问题,本文提供一种训练藏字诗生成模型的方法、藏字诗生成方法及装置。根据本文实施例的第一方面,提供了一种训练藏字诗生成模型的方法,包括:确定用于生成藏字诗生成模型的机器学习神经网络;使用样本集合中的样本藏字诗对藏头诗生成模型进行多轮如下训练直至所述藏字诗生成模型收敛:将样本藏字诗首 ...
【技术保护点】
1.一种训练藏字诗生成模型的方法,其特征在于,包括:/n确定用于生成藏字诗生成模型的机器学习神经网络;/n使用样本集合中的样本藏字诗对藏头诗生成模型进行多轮如下训练直至所述藏字诗生成模型收敛:/n将样本藏字诗首句中的字依次输入所述神经网络,得到所述样本藏字诗首句的输出;并/n将所述样本藏字诗中非首句中的字依次输入所述神经网络,并基于所述神经网络的输出和非首句中每个字与该字所在诗句之前诗句的关联程度,得到所述藏字诗非首句的输出;/n基于首句的输出以及非首句的输出分别与所述样本藏字诗中对应首句和非首句之间的差异对所述神经网络的参数进行调整,以便在下轮训练中使用调整后的参数。/n
【技术特征摘要】
1.一种训练藏字诗生成模型的方法,其特征在于,包括:
确定用于生成藏字诗生成模型的机器学习神经网络;
使用样本集合中的样本藏字诗对藏头诗生成模型进行多轮如下训练直至所述藏字诗生成模型收敛:
将样本藏字诗首句中的字依次输入所述神经网络,得到所述样本藏字诗首句的输出;并
将所述样本藏字诗中非首句中的字依次输入所述神经网络,并基于所述神经网络的输出和非首句中每个字与该字所在诗句之前诗句的关联程度,得到所述藏字诗非首句的输出;
基于首句的输出以及非首句的输出分别与所述样本藏字诗中对应首句和非首句之间的差异对所述神经网络的参数进行调整,以便在下轮训练中使用调整后的参数。
2.如权利要求1所述的训练藏字诗生成模型的方法,其特征在于,所述藏字诗所藏字在所在诗句的头部或者尾部;
将样本藏字诗首句中的字依次输入所述神经网络,得到所述藏字诗首句的输出,包括:
基于样本藏字诗所藏字生成初始输入变量;
将所述初始输入变量和该样本藏字诗首句所藏字对应的字向量输入神经网络,得到第一输出;
将该所藏字的紧邻字作为当前字,将所述第一输出作为当前字上一个字的输出,循环执行如下第一输入步骤:
将上一个字的输出,与当前字的字向量输入所述神经网络,得到第二输出;若当前字不是该首句的最后一个字,则将与当前字紧邻的下一个字作为新的当前字,将第二输出作为新的当前字上一个字的输出,执行所述第一输入步骤;得到所述藏字诗首句的输出。
3.如权利要求2所述的训练藏字诗生成模型的方法,其特征在于,基于该样本藏字诗所藏字生成初始输入变量,包括:
生成该样本藏字诗所藏字对应的字向量,以及所藏字在该样本藏字诗中位置对应的位置向量;
将所述字向量和对应位置向量分别进行叠加,得到每个所藏字对应的隐向量;
将得到的隐向量进行加权平均,得到藏头向量;
基于所述藏头向量对高斯模型分布进行表征;并
从所表征的高斯模型中采样,得到初始输入变量。
4.如权利要求2所述的训练藏字诗生成模型的方法,其特征在于,将所述样本藏字诗中非首句中的字依次输入所述神经网络,并基于所述神经网络的输出和非首句中每个字与该字所在诗句之前诗句的关联程度,得到所述藏字诗非首句的输出,包括:
将该样本藏字诗中非首句中所藏字对应的字向量输入所述神经网络,得到第三输出;
将所述第三输出与该非首句之前诗句中的每个字对应的字向量分别通过注意力机制进行关联度处理,得到第四输出;
将该所藏字的紧邻字作为当前字,将所述第四输出作为当前字上一个字的输出,循环执行如下第二输入步骤:
将上一个字的输出与当前字的字向量输入所述神经网络,得到第五输出;将所述第五输出与该非首句的之前诗句中的每个字对应的字向量分别通过注意力机制进行关联处理,得到第六输出;若当前字不是该非首句的最后一个字,则将与当前字紧邻的下一个字作为新的当前字,将第六输出作为新的当前字上一个字的输出,执行所述第二输入步骤;得到所述藏字诗非首句的输出。
5.如权利要求3所述的训练藏字诗生成模型的方法,其特征在于,基于首句的输出以及非首句的输出分别与所述样本藏字诗中对应首句和非首句之间的差异对所述神经网络的参数进行调整,以便在下轮训练中使用调整后的参数,包括:
确定首句和非首句中每个字的输出与所述样本藏字诗对应字的交叉熵的平均,得到第一损失;以及
确定所述藏头向量表征的高斯分布与标准高斯分布的KL散度;并
根据所述KL散度确定第二损失;
根据所述第一损失和所述第二损失对所述神经网络的参数进行调整。
6.一种藏字诗生成方法,其特征在于,包括:
获取已训练成功的藏字诗生成模型;
将首句用藏字输入至所述藏字诗生成模型,得到藏字诗首句;
将非首句用藏字输入至所述藏字诗生成模型,并基于所述藏字诗生成模型的生成字和所述生成字与当前非首句之前诗句的关联程度,得到藏字诗非首句。
7.如权利要求6所述的藏字诗生成方法,其特征在于,将首句用藏字输入至所述藏字诗生成模型,得到藏字诗首句,包括:
基于设定藏字生成初始输入变量;
将所述初始输入变量和首句用藏字对应的字向量输入藏字诗生成模型,得到首句用藏字的紧邻字;
将所述首句用藏字的紧邻字作为当前字,循环执行如下第三输入步骤:
将当前字输入所述藏字诗生成模型,得到当前字的紧临字,将当前字的紧临字作为当前字;直至当前字是该藏字诗首句的最后一个字,得到藏字诗首句。
8.如权利要求7所述的藏字诗生成方法,其特征在于,基于设定藏字生成初始输入变量,包括:
生成设定藏字对应的字向量,以及设定藏字在待生成藏字诗中位置对应的位置向量;
将所述字向量和对应位置向量分别进行叠加,得到每个所藏字对应的隐向量;
将得到的隐向量进行加权平均,得到藏头向量;
基于所述藏头向量对高斯模型分布进行表征;并
从所表征的高斯模型中采样,得到初始输入变量。
9.如权利要求7所述的藏字诗生成方法,其特征在于,将非首句用藏字输入至所述藏字诗生成模型,并基于所述藏字诗生成模型的生成字和所述生成字与当前非首句之前诗句的关联程度,得到藏字诗非首句,包括:
将非首句用藏字输入至所述藏字诗生成模型,得到所述非首句用藏字的紧邻字;
将所述非首句用藏字的紧邻字与当前非首句的之前已生成诗句中的每个字对应的字向量分别通过注意力机制进行关联度处理,得到第七输出;
将所述非首句藏字的紧邻字作为当前字,将所述第七输出作为当前字上一字的输出,循环执行如下第四输入步骤:
将当前字上一字的输出与当前字的字向量输入所述藏字诗生成模型,得到当前字的紧邻字,将当前字的紧邻字与当前非首句的上一已生成诗句中的每个字对应的字向量分别通过注意力机制进行关联度处理,得到第八输出;若当前字的紧邻字不是该非首句的最后一个字,将当前字的紧邻字作为新的当前字,将第八输出作为新的当前字上一个字的输出,执行所述第四输入步骤;得到藏字诗非首句。
10.一种训练藏字诗生成模型的装置,其特征在于,包括:
确定模块,用于确定用于生成藏字诗生成模型的...
【专利技术属性】
技术研发人员:崔志,肖克聪,宁洪珂,
申请(专利权)人:北京松果电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。