一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法技术

技术编号：26924377 阅读：22 留言：0更新日期：2021-01-01 22:49

本发明专利技术涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，包括以下步骤：1)获取关键词进行预处理；2)输入关键词，基于LSTM和注意力机制的歌词生成模型结合后处理操作，依次生成句中词和结尾词，完成一句歌词的生成；3)重复执行步骤1)‑步骤2)，直至生成一篇完整的歌词。与现有技术相比，本发明专利技术具有生成歌词可读性强、语义通顺、对仗工整等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法
本专利技术涉及自然语言处理领域，尤其是涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是当今人工智能技术的重要分支，其目标是计算机能学习、理解并能够生成人的语言。语言生成是NLP领域的重要任务，涉及语义解析、语义编码、语言模型等多方面技术。传统NLP技术聚焦于语言本身的规则，企图使机器像人一样学习详细的语法规则，构建语法解析树，进而完全掌握自然语言。然而，随着语料库扩大，语法解析树会以指数速率膨胀到令人难以接受的程度，语言本身的多样性、奇异性和上下文相关性也让语言规则的总结工作变成不可能完成的任务。近年来，基于统计模型的机器学习方法成为主流。该流派不在意语言深层的意义，直接从符号层面入手让计算机统计语言的规律，从而建立合理的语言模型。人工神经网络的出现促进了统计模型的发展，让人们有能力模拟极其复杂的概率分布。现有的语言生成方案往往使用循环神经网络(RecurrentNeuralNetwork,RNN)作为基础，通过大量的学习来模拟语言的分布规律。然而，简单的RNN网络存在严重的梯度消失问题，很难生成长句与长文章，单阶段的生成方式也无法体现句与句之间复杂的关系。此外，中文语言处理有一些特殊的问题，例如分词、消岐等，这些是主流的英文语料库与英文模型无法处理的，针对中文歌词进行特定研究的更是少之又少。因此，本专利技术提出了一种新...

【技术保护点】
1.一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，包括以下步骤：/n1)获取关键词进行预处理；/n2)输入关键词，基于LSTM和注意力机制的歌词生成模型并结合后处理操作，/n依次生成句中词和结尾词，完成一句歌词的生成；/n3)重复执行步骤1)-步骤2)，直至生成一篇完整的歌词。/n

【技术特征摘要】
1.一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，包括以下步骤：
1)获取关键词进行预处理；
2)输入关键词，基于LSTM和注意力机制的歌词生成模型并结合后处理操作，
依次生成句中词和结尾词，完成一句歌词的生成；
3)重复执行步骤1)-步骤2)，直至生成一篇完整的歌词。

2.根据权利要求1所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的关键词包括控制关键词和上一句歌词；
当生成的歌词为首句歌词时，所述的输入关键词为控制关键词；当生成的歌词为后续歌词时，所述的输入关键词为上一句歌词，所述的控制关键词包括歌词风格、歌词剧场、歌词韵脚。

3.根据权利要求1所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型包括编码器和解码器，所述的编码器为双向LSTM编码器，所述的解码器为单向LSTM加注意力机制解码器。

4.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型生成歌词的步骤具体包括：
201)双向LSTM编码器将输入的关键词编码成语义编码向量；
202)注意力机制计算状态向量和语义编码向量的匹配程度，获取注意力权值，加权求得语义向量；
203)将上一时刻状态、上一时刻输出和当前语义向量作为输入，解码得到当前时刻输出词的概率分布；
所述的注意力机制为Bahdanau注意力算法，所述的状态向量包括解码器状态向量和编码器状态向量。

5.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的后处理操作包括类束搜索、添加结束位置符、添加情绪引导词和多元启发搜索。

6.根据权利要求5所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，...

【专利技术属性】
技术研发人员：陈启军，何宗涛，刘成菊，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人