文本生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：22166894 阅读：22 留言：0更新日期：2019-09-21 10:34

本申请涉及一种文本生成方法、装置、计算机设备及存储介质，该方法包括：获取当前文本序列；将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列。本申请的方案，能够提高生成的文本序列的信息量。

Text Generation Method, Device, Computer Equipment and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
文本生成方法、装置、计算机设备及存储介质
本专利技术涉及计算机
，特别是涉及一种文本生成方法、装置、计算机设备及存储介质。
技术介绍
随着科学技术的飞速发展，大量先进技术不断涌现，自然语言处理技术即为其中一个非常重要的技术。在自然语言处理技术的广泛应用中，机器自动生成文本成为一个研究的热点问题。传统方法中，机器自动生成文本时，仅从实质意义出发，并未考虑情感表达，所以生成的文本比较局限，缺乏多样化，因此，传统方法生成的缺乏多样化的文本能够传达的信息量比较低。
技术实现思路
基于此，有必要针对传统文本生成方法传达的信息量比较低的问题，提供一种文本生成方法、装置、计算机设备及存储介质。一种文本生成方法，所述方法包括：获取当前文本序列；将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列。一种文本生成装置，所述装置包括：获取模块，用于获取当前文本序列；编码模块，用于将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；解码模块，用于根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列。一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：获取当前文本序列；将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文...

【技术保护点】
1.一种文本生成方法，所述方法包括：获取当前文本序列；将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列。

【技术特征摘要】
1.一种文本生成方法，所述方法包括：获取当前文本序列；将所述当前文本序列编码为语义向量；获取所述当前文本序列的待生成的后一文本序列的修辞类型向量；根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列。2.根据权利要求1所述的方法，其特征在于，所述当前文本序列为待生成的文学作品中的语句；所述后一文本序列是所述当前文本序列在所述文学作品中的待生成的后一语句；所述方法还包括：将生成的所述后一文本序列作为当前文本序列，返回所述将所述当前文本序列编码为语义向量的步骤进行迭代处理，直至生成的后一文本序列为所述文学作品中的结束语句时停止迭代。3.根据权利要求2所述的方法，其特征在于，所述获取当前文本序列包括：当所述当前文本序列为所述文学作品的首句时，获取输入的主题线索词；检索与所述主题线索词匹配的语句；通过自动编码改写所述检索得到的语句，生成作为所述文学作品中首句的当前文本序列。4.根据权利要求1所述的方法，其特征在于，所述获取所述当前文本序列的待生成的后一文本序列的修辞类型向量包括：将所述语义向量输入预先训练得到的修辞分类模型中，输出所述当前文本序列的待生成的后一文本序列的修辞类型向量；或者，获取针对所述当前文本序列的待生成的后一文本序列自定义的修辞类型向量。5.根据权利要求4所述的方法，其特征在于，所述修辞分类模型的生成步骤包括：获取多组样本数据；同组样本数据中包括相邻的前一样本文本序列和后一样本文本序列，以及所述后一样本文本序列的修辞类型标签；在每轮次的机器学习训练时，将对同组样本数据中的前一样本文本序列编码所得到的语义向量输入当前轮次训练的修辞分类模型中，预测出与所述前一样本文本序列同组的后一样本文本序列的修辞类型向量；根据预测出的修辞类型向量所表征的修辞类型和所述后一样本文本序列的修辞类型标签所表征的修辞类型之间的差异情况，调整当前轮次训练的修辞分类模型的模型参数，并迭代地进行下一轮次的机器学习训练，直至达到迭代停止条件时，得到最终的修辞分类模型。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：以所述修辞类型向量为条件向量，对所述语义向量编码得到隐变量向量；所述根据所述修辞类型向量和所述语义向量进行解码，生成所述当前文本序列的所述后一文本序列包括：根据所述修辞类型向量、所述语义向量和所述隐变量向量进行解码，生成所述当前文本序列的所述后一文本序列。7.根据权利要求6所述的方法，其特征在于，所述根据所述修辞类型向量、所述语义向量和所述隐变量向量进行解码，生成所述当前文本序列的所述后一文本序列包括：组合所述修辞类型向量、所述语义向量和所述隐变量向量；对组合后得到的向量进行循环解码，确定候选词语集合中各词语在每次解码时的输出概率；选取每次解码时输出概率最大的词语进行输出；按照输出的先后顺序，将各输出的词语组合生成所述当前文本序列的后一文本序列。8.根据权利要求7所述的方法，其特征在于，所述对组合后得到的向量进行循环解码，确定候选词语...

【专利技术属性】
技术研发人员：刘志强，牛成，谭翊章，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人