当前位置: 首页 > 专利查询>山东大学专利>正文

自然语言控制的文本生成方法及系统技术方案

技术编号:38583988 阅读:11 留言:0更新日期:2023-08-26 23:27
本发明专利技术公开一种自然语言控制的文本生成方法及系统,属于自然语言处理的技术领域,本发明专利技术针对描述性控制变量约束下的可控文本生成场景,针对如何有效表示自由灵活的描述性控制变量问题,引入了文本语义哈希方法,使用哈希码表示描述性控制变量。同时,本发明专利技术通过将描述性控制变量编码为哈希码、通过哈希码重构描述性变量这两个过程,增强哈希码对描述性控制变量核心语义的表示能力,同时使其包容描述性控制变量的多样性表达。性控制变量的多样性表达。性控制变量的多样性表达。

【技术实现步骤摘要】
自然语言控制的文本生成方法及系统


[0001]本专利技术公开一种自然语言控制的文本生成方法及系统,属于自然语言处理的


技术介绍

[0002]可控文本生成是指在给定约束条件下生成满足语义需求的自然语言文本,具有重要的实用价值。近几年,对可控文本生成的研究已经在情感、风格等方面取得突出成就。但是,现有的大多数的模型针对如“积极”、“消极”等和文本外在属性相关的类别变量,无法满足现实应用场景下对文本内容灵活多样的控制需求,而且,人们更倾向于使用自然语言来表达对生成文本的约束,而非类别变量。我们定义自然语言控制的文本生成任务为以描述语义需求的自然语言为控制变量,生成满足语义约束的文本,如在机器自动写作任务中,以对人物、场景的简要描述为控制变量,生成符合给定人物和场景的小说片段,其中描述语义需求的自然语言在本专利技术中称为描述性控制变量。
[0003]由于自然语言的表达多样性、语义歧义性等内在特征,描述性控制变量约束下的文本生成面临两个主要的挑战:一是描述性控制变量在内容和形式上自由灵活,难以映射到一个固定的类别,因此,需要探索如何获取描述性控制变量的表示,从而包容描述性控制变量的多样性,同时也能区分语义上的核心差异;二是如何建立描述性控制变量和生成文本的关联,实现对内容的控制。
[0004]针对上述技术问题,现有
公开了以下专利文献:中国专利文献CN115600582A提出了基于判别器的可控文本生成方法,以预训练模型为基础生成框架,分别引入主题判别器、情感判别器和写作风格判别器。在文本生成过程中,由预训练语言模型生成候选词汇的预测概率,由三类判别器依据已生成文本预测候选词符合给定属性的属性概率,随后,累乘属性概率和预测概率得到最终的候选词汇采样概率。
[0005]中国专利文献CN114510924A提出一种基于预训练语言模型的文本生成方法,通过引入一个能动态调节控制器权重的加权解码框架,解决现有的基于加权解码的可控生成方法无法在保证生成文本质量的前提下达到控制理想风格强度的问题。该专利技术中,控制器的作用是更改预训练模型输出的词汇分布,使整个生成文本符合特定风格。如果当前解码步不适合生成包含目标风格词语时,该方法通过调节权重使控制器失效,从而选择预训练模型输出的词汇。
[0006]上述方法均以有限数量的类别变量作为控制条件,应用场景较为局限,难以适用现实场景下以自然语言为控制变量的文本生成需求。

技术实现思路

[0007]本专利技术公开了一种自然语言控制的文本生成方法。
[0008]本专利技术还公开了一种实现上述生成方法的系统。
[0009]专利技术概述:本专利技术针对描述性控制变量约束下的可控文本生成场景,针对如何有效表示自由灵活的描述性控制变量问题,引入了文本语义哈希方法,使用哈希码表示描述性控制变量。同时,本专利技术通过将描述性控制变量编码为哈希码、通过哈希码重构描述性变量这两个过程,增强哈希码对描述性控制变量核心语义的表示能力,同时使其包容描述性控制变量的多样性表达。
[0010]本专利技术以变分自编码器为基础的生成框架,添加条件编码器建立描述性控制变量和文本内在生成因素即隐变量的关联。整体的生成框架包括:一是语义哈希自编码器,该自编码器首先编码描述性控制变量,得到哈希码,随后,基于哈希码重构输入的描述性控制变量。哈希码作为描述性控制变量的表示,在后续过程中,用于控制文本生成。
[0011]二是可控文本变分自编码器,该自编码器基于变分自编码器结构,额外引入一个条件编码器实现描述性控制变量对文本生成过程的控制。训练阶段,可控文本变分自编码器以描述性控制变量和符合该变量的文本为输入,通过重构符合描述性变量的文本建模控制变量约束下的可控文本生成过程;使用阶段,给定描述性控制变量,编码得到对应的哈希码,由哈希码约束文本生成过程生成符合控制变量语义的文本。
[0012]技术术语解释:1.描述性控制变量:描述一段语义控制需求的自然语言文本。
[0013]2.文本语义哈希:根据文本语义,将文本映射为二进制哈希码,同时保留文本本身相似性的检索方法。
[0014]3.变分自编码器,英文Variational Auto Encoder:是一种基于变分贝叶斯推断的生成式网络结构,包括编码器和解码器两个主要部分,常用于建模文本内在生成因素到文本的生成过程,文本内在生成因素在变分自编码器中称为隐变量。变分自编码器通过最大化数据集中所有样本的生成概率训练神经网络编码器和解码器,是文本生成领域的常用框架。
[0015]本专利技术的技术方案如下:一种自然语言控制的文本生成方法,其特征在于,包括:所述生成方法是基于语义哈希自编码器和可控文本变分自编码器执行的;所述语义哈希自编码器包括:语义编码器和语义解码器,所述语义编码器和语义解码器分别用于对描述性控制变量编码和重构,以获取描述性控制变量所对应的哈希码;所述可控文本变分自编码器包括:文本编码器、条件编码器和文本解码器,可控文本变分自编码器在描述性控制变量约束下编码和重构符合描述性变量语义的文本,从而能够建模描述性变量控制下的文本生成过程,具体包括如下步骤:S1:使用语义哈希自编码器编码和重构描述性控制变量,所述语义哈希自编码器通过语义编码器编码描述性控制变量获取位的哈希码:(1.)在公式(1)中,哈希码用于表达描述性控制变量的核心语义;为语义编码器;
语义解码器基于哈希码重构描述性控制变量:(2.)在公式(2)中,为重构后的描述性控制变量;为语义解码器;在公式(1)和公式(2)所描述的编码和重构描述性控制变量的方式是一种无监督的学习方法,这使得语义哈希自编码器可以在大规模语料预训练,从而进一步提升语义编码器和语义解码器对描述性控制变量的编码和解码能力;在对描述性控制变量编码时,描述性控制变量包括文本形式、TF

IDF向量,英文Term Frequency

Inverse Document Frequency,或词袋向量等多种表示方式;S2:使用可控文本变分自编码器建模描述性控制变量约束下的文本生成,通常的变分自编码器包括文本编码器和文本解码器两个部分,分别对输入文本编码和重构,但是,由于缺少控制变量的融入,较难建模控制变量约束下的文本生成过程,因此,本专利技术在变分自编码器的基础上,添加了一个条件编码器,建模描述性控制变量对文本生成过程的控制;所述条件编码器以描述性控制变量对应的哈希码为输入,编码得到隐变量先验分布,其中为符合分布的隐变量,代表文本隐式生成因素;为以均值、为方差的正态分布,为单位矩阵;和通过下式得到:(3.)在公式(3)中,表示条件编码器;所述文本编码器以描述性控制变量和符合语义的文本为输入,编码得到描述性控制变量和文本条件下的隐变量后验分布,其中为符合分布的隐变量;为以均值、为方差的正态分布,为单位矩阵;和通过下式得到:(4.)在公式(4)中,表示文本编码器;所述文本解码器以采样自分布的隐变量为输入,生成重构的文本:(5.)在公式(5)中,表示文本解码器;S3:模型训练,利用大规模语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言控制的文本生成方法,其特征在于,包括:所述生成方法是基于语义哈希自编码器和可控文本变分自编码器执行的;所述语义哈希自编码器包括:语义编码器和语义解码器,所述语义编码器和语义解码器分别用于对描述性控制变量编码和重构,以获取描述性控制变量所对应的哈希码;所述可控文本变分自编码器包括:文本编码器、条件编码器和文本解码器,在描述性控制变量约束下编码和重构符合描述性变量语义的文本,具体包括如下步骤:S1:使用语义哈希自编码器编码和重构描述性控制变量,所述语义哈希自编码器通过语义编码器编码描述性控制变量获取位的哈希码:(1)在公式(1)中,哈希码用于表达描述性控制变量的核心语义;为语义编码器;语义解码器基于哈希码重构描述性控制变量:(2)在公式(2)中,为重构后的描述性控制变量;为语义解码器;在对描述性控制变量编码时,或以文本的形式作为语义编码器的输入,或将描述性控制变量转为TF

IDF向量,英文Term Frequency

Inverse Document Frequency,或者以描述性控制变量对应的词袋向量作为语义编码器的输入;S2:使用可控文本变分自编码器建模描述性控制变量约束下的文本生成,所述条件编码器以描述性控制变量对应的哈希码为输入,编码得到以哈希码为条件的隐变量先验分布,其中为符合分布的隐变量,代表文本隐式生成因素;为以均值、为方差的正态分布,为单位矩阵;和通过下式得到:(3)在公式(3)中,表示条件编码器;所述文本编码器以描述性控制变量和符合描述性控制变量语义的文本为输入,编码得到描述性控制变量和文本条件下的隐变量后验分布,其中为符合分布的隐变量;为以均值、为方差的正态分布,为单位矩阵;和通过下式得到:(4)在公式(4)中,表示文本编码器;所述文本解码器以隐变量为输入,生成重构的文本:(5)在公式(5)中,表示文本解码器;S3:模型训练,以满足在给定一段描述性控制变量的条件下,生成符合描述性控制变量语义约束的文本:S31:利用大规模语料预训练语义哈希自编码器,以获取包含语义信息的哈希码;所述语义哈希自编码器以描...

【专利技术属性】
技术研发人员:孙宇清王舰龚斌
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1