文本生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:22166894 阅读:22 留言:0更新日期:2019-09-21 10:34
本申请涉及一种文本生成方法、装置、计算机设备及存储介质,该方法包括:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。本申请的方案,能够提高生成的文本序列的信息量。

Text Generation Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
文本生成方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,特别是涉及一种文本生成方法、装置、计算机设备及存储介质。
技术介绍
随着科学技术的飞速发展,大量先进技术不断涌现,自然语言处理技术即为其中一个非常重要的技术。在自然语言处理技术的广泛应用中,机器自动生成文本成为一个研究的热点问题。传统方法中,机器自动生成文本时,仅从实质意义出发,并未考虑情感表达,所以生成的文本比较局限,缺乏多样化,因此,传统方法生成的缺乏多样化的文本能够传达的信息量比较低。
技术实现思路
基于此,有必要针对传统文本生成方法传达的信息量比较低的问题,提供一种文本生成方法、装置、计算机设备及存储介质。一种文本生成方法,所述方法包括:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。一种文本生成装置,所述装置包括:获取模块,用于获取当前文本序列;编码模块,用于将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;解码模块,用于根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。一种文本生成方法,所述方法包括:获取当前文本序列;发送所述当前文本序列至服务器;所述当前文本序列,用于指示所述服务器获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列;获取所述服务器返回的生成的所述后一文本序列。一种文本生成装置,所述装置包括:获取模块,用于获取当前文本序列;发送模块,用于发送所述当前文本序列至服务器;所述当前文本序列,用于指示所述服务器获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列;获取模块还用于获取所述服务器返回的生成的所述后一文本序列。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取当前文本序列;发送所述当前文本序列至服务器;所述当前文本序列,用于指示所述服务器获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列;获取所述服务器返回的生成的所述后一文本序列。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取当前文本序列;发送所述当前文本序列至服务器;所述当前文本序列,用于指示所述服务器获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列;获取所述服务器返回的生成的所述后一文本序列。上述文本生成方法、装置、计算机设备及存储介质,将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量。进而,根据所述语义向量和修辞类型向量进行解码,生成当前文本序列的所述后一文本序列。由于修辞类型向量表征了一定的修辞类型特征,所以,解码时相当于考虑了修辞类型这一控制条件,那么,解码生成的后一文本序列则具有修辞手法,使得生成文本更加多样,更加准确,从而提高了生成文本的信息量。附图说明图1为一个实施例中文本生成方法的应用场景图;图2为一个实施例中文本生成方法的流程示意图;图3为一个实施例中文本生成方法的效果示意图;图4为一个实施例中文本生成模型框架的示意图;图5为另一个实施例中文本生成模型框架的示意图;图6为一个实施例中传统方法的文本生成示意图;图7为另一个实施例中传统方法的文本生成示意图;图8为另一个实施例中文本生成方法的流程示意图;图9为一个实施例中文本生成处理的流程简示图;图10为一个实施例中文本生成装置的框图;图11为另一个实施例中文本生成装置的框图;图12为一个实施例中计算机设备的框图;图13为另一个实施例中计算机设备的框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中文本生成方法的应用场景图。参照图1,该应用场景中包括终端110和服务器120。终端可以是智能电视机、智能音箱、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。终端110可以发送当前文本序列至服务器120。服务器120可以获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。服务器120可以将生成的后一文本序列返回至终端110。终端110可以将接收的后一文本序列进行输出。可以理解,这里的输出可以是语音输出也可以是显示输出,对输出的具体方式不做限定。需要说明的是,服务器120还可以在生成一个后一文本序列后,不将其返回至终端110,而是将生成的后一文本序列当作当前文本序列,返回将所述当前文本序列编码为语义向量的步骤继续执行,直至输出的后一文本序列为结束文本序列。服务器可以将生成的后一文本序列统一返回至终端110。具体根据实际场景来确定,这里对此不做限定。图2为一个实施例中文本生成方法的流程示意图。本实施例主要以该文本生成方法应用于计算机设备为例进行举例说明,该计算机设备可以为图1中的服务器120。参照图2,该方法具体包括如下步骤:S202,获取当前文本序列。其中,文本序列,是文本形式的序列。当前文本序列,是指在生成后一个未知文本序列时作为参照的已知文本序列。比如,已知文本序列为“初雪无暇”,需要参照“初雪无暇”生成下一个文本序列。那么,“初雪无暇”即为当前文本序列。可以理解,文本序列可以为句子、词语和段落等中的至少一种。这里并不限定文本序列的长度。在一个实施例中,当前文本序列可以是待生成的文学作品中的语句。其中,文学作品,是指以语言文字为工具,形象化地反映客观现实或表现作家心灵世本文档来自技高网...

【技术保护点】
1.一种文本生成方法,所述方法包括:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。

【技术特征摘要】
1.一种文本生成方法,所述方法包括:获取当前文本序列;将所述当前文本序列编码为语义向量;获取所述当前文本序列的待生成的后一文本序列的修辞类型向量;根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列。2.根据权利要求1所述的方法,其特征在于,所述当前文本序列为待生成的文学作品中的语句;所述后一文本序列是所述当前文本序列在所述文学作品中的待生成的后一语句;所述方法还包括:将生成的所述后一文本序列作为当前文本序列,返回所述将所述当前文本序列编码为语义向量的步骤进行迭代处理,直至生成的后一文本序列为所述文学作品中的结束语句时停止迭代。3.根据权利要求2所述的方法,其特征在于,所述获取当前文本序列包括:当所述当前文本序列为所述文学作品的首句时,获取输入的主题线索词;检索与所述主题线索词匹配的语句;通过自动编码改写所述检索得到的语句,生成作为所述文学作品中首句的当前文本序列。4.根据权利要求1所述的方法,其特征在于,所述获取所述当前文本序列的待生成的后一文本序列的修辞类型向量包括:将所述语义向量输入预先训练得到的修辞分类模型中,输出所述当前文本序列的待生成的后一文本序列的修辞类型向量;或者,获取针对所述当前文本序列的待生成的后一文本序列自定义的修辞类型向量。5.根据权利要求4所述的方法,其特征在于,所述修辞分类模型的生成步骤包括:获取多组样本数据;同组样本数据中包括相邻的前一样本文本序列和后一样本文本序列,以及所述后一样本文本序列的修辞类型标签;在每轮次的机器学习训练时,将对同组样本数据中的前一样本文本序列编码所得到的语义向量输入当前轮次训练的修辞分类模型中,预测出与所述前一样本文本序列同组的后一样本文本序列的修辞类型向量;根据预测出的修辞类型向量所表征的修辞类型和所述后一样本文本序列的修辞类型标签所表征的修辞类型之间的差异情况,调整当前轮次训练的修辞分类模型的模型参数,并迭代地进行下一轮次的机器学习训练,直至达到迭代停止条件时,得到最终的修辞分类模型。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:以所述修辞类型向量为条件向量,对所述语义向量编码得到隐变量向量;所述根据所述修辞类型向量和所述语义向量进行解码,生成所述当前文本序列的所述后一文本序列包括:根据所述修辞类型向量、所述语义向量和所述隐变量向量进行解码,生成所述当前文本序列的所述后一文本序列。7.根据权利要求6所述的方法,其特征在于,所述根据所述修辞类型向量、所述语义向量和所述隐变量向量进行解码,生成所述当前文本序列的所述后一文本序列包括:组合所述修辞类型向量、所述语义向量和所述隐变量向量;对组合后得到的向量进行循环解码,确定候选词语集合中各词语在每次解码时的输出概率;选取每次解码时输出概率最大的词语进行输出;按照输出的先后顺序,将各输出的词语组合生成所述当前文本序列的后一文本序列。8.根据权利要求7所述的方法,其特征在于,所述对组合后得到的向量进行循环解码,确定候选词语...

【专利技术属性】
技术研发人员:刘志强牛成谭翊章
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1