基于BERT句子向量输入的诗词生成方法及装置制造方法及图纸

技术编号:26971302 阅读:28 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及计算机生成诗句领域,具体为基于BERT句子向量输入的诗词生成方法及装置。解决了目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面的问题。其方法为:首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word‑to‑Line模型和下文生成的Context‑to‑Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word‑to‑Line模型对前1‑2个主题词学习分析得到诗词第一句,通过Context‑to‑Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。本方法增加了诗句之间的关系理解,提高了生成诗歌的质量,使生成的诗歌不仅满足格律、用韵等格式要求,而且在流畅性,主题一致性等方面均有明显的改进。

【技术实现步骤摘要】
基于BERT句子向量输入的诗词生成方法及装置
本专利技术涉及计算机生成诗句领域,具体为基于BERT句子向量输入的诗词生成方法及装置。
技术介绍
但随着计算机技术和机器学习的发展,使诗词的创作方式和生成手段发生了前所未有的改变,特别是随着深度学习的再次崛起和技术革新,大大提高了生成诗歌的质量。然而,目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面,主要体现在模型的编码层在将文本转换为空间向量时缺失动态的语义信息。因为目前将文本转化为嵌入式矢量的工具主要为wordembedding,它不是根据上下文实时计算输出特征矢量,它输出的是一个静态的矢量。另外,wordembedding的输入是词级,这就意味着首先要对句子进行分词,然后通过词来获取其对应的词向量,那么分词结果的不准确直接影响输出的特征矢量的涵义有偏差。
技术实现思路
本专利技术提供了一种基于BERT句子向量输入的诗词生成方法,解决了目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面的问题,以及根据方法衍生的诗句生成装置,采取新的预训练方式形成不同的诗句生成模块,增加了诗句之间的关系理解,大大提高了生成诗歌的质量,使生成的诗歌不仅满足格律、用韵等格式要求,而且在流畅性,主题一致性等方面均有明显的改进。本专利技术的目的之一是基于BERT句子向量输入的诗词生成方法,首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word-to-Line模型和下文生成的Context-to-Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word-to-Line模型对前1-2个主题词学习分析得到诗词第一句,通过Context-to-Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。所述对诗词语料库中的原始语料预处理和主题词提取包括:将原始语料整理成不包含题目和符号的单独诗句格式;对单独诗句进行主题词提取。所述主题词提取方法为:利用TextRank中文分词工具对诗句进行分词、词性标注以及停用词过滤,保留名词、动词和形容词作为初步候选主题词;利用词的共现关系构建候选主题词图;利用计算主题词权重;对主题词权重倒序排序,得到若干个词最终候选主题词,并保留在原诗句中的顺序。所述Word-to-Line模型为:BERT提取出输入主题词序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;通过LSTM编码对正反向隐藏状态向量结合,形成最终的隐藏状态向量;利用Decoder的解码端根据当前的状态和最终隐藏状态向量并结合Attention机制,以字符的形式生成诗句。所述Context-to-Line模型为:BERT提取出输入对应诗句的主题词和已有诗句序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;通过LSTM编码对正反向隐藏状态向量结合,形成的最终隐藏状态向量;利用Decoder的解码端根据当前的状态和最终隐藏状态向量并结合Attention机制,以字符的形式生成诗句。所述利用TextRank算法提取出主题词时,当提取主题词大于4个时,进行诗词生成;当提取主题词小于4个时,利用BERT的预训练模型,根据输入的语句,预测出与其语义相关的下一句,扩展至若干语句,后对若干语句利用TextRank算法提取出主题词,每句至少提取1-2主题词。所述Word-to-Line模型生成的第一句诗词仅且由主题词分析生成。本专利技术的另一目的是提供利用BERT句子向量输入的诗词生成方法的装置,包括:输入模块:用户进行语音输入或者字符输入;主题词提取模块:利用TextRank算法提取输入模块中用户输入语句的主题词;Word-to-Line模型模块:对主题词分析生成诗词第一句;Context-to-Line模型模块:对主题词和已有生成诗句分析生成其余诗句。本专利技术的有益效果为:1、诗词生成方式的创新:本文提出了基于句子的诗生成模型,以更准确地描述作者的思想和情感。即作者将表达自己情感的句子作为输入,模型通过对句子的扩展从中提取出多个关键词,然后借助诗生成模型完成符合主题思想的诗词创作。2.主题词的提取与扩展,不同于传统诗词生成过程每句诗只提取一个主题词的思想,考虑到词性的不同对于句子语义的影响程度不同,本文方法提取或扩展至2个名词、动词或形容词作为一句诗的主题词。另外,对应基于句子的诗生成方法,主题词的提取与扩展可以通过句子及句子的扩展完成。3.采用基于词的BERT预训练作为诗生成模型的输入,表征了诗句中字词的深层次,以及包含左右两侧语境的语义信息,能使模型更充分地学习到输入序列丰富的字、词及语义信息。另外,充分利用BERT预训练模型的fine-tuning参数调整功能完成诗句的预测,更好地解决了因诗词的训练数据缺乏而影响模型的训练质量问题。附图说明图1是本专利技术流程示意图;图2是本专利技术Context-to-Line模型结构;图3是BERT结构模型图;具体实施方式下面结合附图并通过具体的实施例进一步的说明本专利技术的技术方案:实施例一一种基于BERT句子向量输入的诗词生成方法,即通过输入一个短句,模型对该句子进行扩展,后提取每个句子中对应的主题词,最后生成相应主题的诗。其主要内容包括模型的训练和诗生成两部分。其中模型的训练主要有诗词语料的收集和预处理,主题词的提取与扩展,训练数据的生成及模型的训练等几部分,具体如下:1)利用互联网收集大量的诗词语料,对搜集的原始语料进行预处理,将其整理成不包含题目和符号的单独诗句格式。2)主题词的提取,首先利用TextRank中文分词工具对诗句进行分词和词性标注,过滤停用词。考虑到词性对句子语义的重要性,仅保留名词、动词和形容词作为初步候选主题词。后利用词的共现关系构建候选主题词图,即G=(V,E)。借助迭代计算各初步候选主题词权重。最后对初步候选主题词权重进行倒序排序,从而得到最重要的T个词作为最终候选主题词,并保留其在原诗句中的顺序。3)主题词的扩展主要是为了方便创作诗,其原理是:用户在创作诗词时输入语句。当输入句子较短而无法提取出足够的主题词时,调用BERT的预训练模型,在已知输入句子情况下,预测出与其语义相关的下一句,扩展至四个句子。后利用TextRank算法提取出T个主题词。当输入的句子行量大时,则直接利用TextRank算法提取出相应数量的主题词即可。4)训练数据的生成,将诗词训练数据处理为关键词加上下文的形式,然后利用训练数据训练诗生成模型。5)诗句的生成。诗句的生成模型本文档来自技高网...

【技术保护点】
1.基于BERT句子向量输入的诗词生成方法,其特征在于:首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word-to-Line模型和下文生成的Context-to-Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word-to-Line模型对前1-2个主题词学习分析得到诗词第一句,通过Context-to-Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。/n

【技术特征摘要】
1.基于BERT句子向量输入的诗词生成方法,其特征在于:首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word-to-Line模型和下文生成的Context-to-Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word-to-Line模型对前1-2个主题词学习分析得到诗词第一句,通过Context-to-Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。


2.根据权利要求1所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述对诗词语料库中的原始语料预处理和主题词提取包括:
将原始语料整理成不包含题目和符号的单独诗句格式;
对单独诗句进行主题词提取。


3.根据权利要求2所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述主题词提取方法为:
利用TextRank中文分词工具对诗句进行分词、词性标注以及停用词过滤,保留名词、动词和形容词作为初步候选主题词;
利用词的共现关系构建候选主题词图;
利用计算主题词权重;
对主题词权重倒序排序,得到若干个词最终候选主题词,并保留在原诗句中的顺序。


4.根据权利要求1所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述Word-to-Line模型为:
BERT提取出输入主题词序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;
将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;
通过LSTM编码对正反向隐藏状态向量结合,形成最终的隐藏状态向量;
利用Decoder的解码端根据当前的...

【专利技术属性】
技术研发人员:杨婉霞杨小平王咏梅周蓓蓓刘柯楠
申请(专利权)人:甘肃农业大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1