基于要素简图的可控多样性专业文本生成方法及系统技术方案

技术编号:38199313 阅读:12 留言:0更新日期:2023-07-21 16:38
本发明专利技术公开一种基于要素简图的可控多样性专业文本生成方法及系统,属于自然语言处理的技术领域。本发明专利技术通过构建一个条件编码器建立观点和语义特征的关联,实现观点对文本语义的控制,并且通过随机采样不同的表达特征实现文本表达的多样性。要素简图的引入使得本发明专利技术能够直接且明确地建模观点和文本语义的关联关系,而且由于一个要素简图能够代表同一观点的多个专业文本的语义,利用较少量的数据训练模型即可实现观点对文本语义的强控制;本发明专利技术融合语义特征和表达特征的文本生成过程,实现了在语义约束下的多样性文本生成,防止生成文本只追求多样性而忽略了语义;本发明专利技术在生成专业文本的同时生成所依赖的要素简图,实现了生成过程的可解释性。成过程的可解释性。成过程的可解释性。

【技术实现步骤摘要】
基于要素简图的可控多样性专业文本生成方法及系统


[0001]本专利技术公开一种基于要素简图的可控多样性专业文本生成方法及系统,属于自然语言处理的


技术介绍

[0002]可控文本生成是在给定控制变量条件下,生成满足控制变量约束的文本,是自然语言处理领域的前沿问题。专业文本是指特定领域依据知识点和背景描述表达个体观点的文本,由于认知差异,专业文本中的观点存在差异,表达形式也有很大区别:例如“名义股东李某未经实际出资人张某同意质押股权导致损失,李某理应赔偿张某”或“李某是名义上股东,有权对甲公司的股权进行质押,无需赔偿”等。针对特定知识点和背景描述,专业文本依据观点差异可以分为有限个类别,上述例子中对应的知识点是“名义股东处分股权造成实际出资人损失,实际出资人请求名义股东承担赔偿责任的,人民法院应予支持”,背景描述为“李某是名义股东,张某实际出资并享有投资权益,未经张某同意李某将其在甲公司的股权进行质押造成了损失”,观点分为“理应赔偿”或“无需赔偿”等。
[0003]由上可知,专业文本的语义通过一系列概念或者实体及其关联关系决定,我们定义这些概念和实体为观点要素。观点可控的多样性专业文本生成以观点作为控制变量,生成语义符合给定观点、表达多样的专业文本,生成的文本不仅涉及多个观点要素的逻辑关系,也体现不同观点所对应的观点要素复杂关系的不同变化和细微差异,同时反映多样性语言表达方式,这些因素使得观点可控的专业文本生成任务非常困难,具有重要理论价值。同时,在深度学习方法广泛应用的智能时代,数据稀缺问题突出,使得在观点可控的多样性文本生成技术更具应用价值。
[0004]为此,现有
公开了以下专利文献:中国专利文献CN114297382A提出基于生成式预训练模型参数精调的可控文本生成方法,首先在生成式预训练模型的词嵌入层自定义条件编码,再将控制文本作为提示进行参数精调整,更新控制文本参数,该文献通过监督数据建模控制变量和生成文本的关联规律。
[0005]中国专利文献CN114510924A提出基于预训练语言模型的文本生成方法,该文献是在模型解码阶段引入一个控制器进行词汇级别的控制,实现对文本生成结果的控制。
[0006]上述两类方法可以控制一些简单属性如情感、主题,但难以感知和控制观点要素间的细粒度差异,且生成结果缺少多样性。
[0007]中国专利文献CN113254604A公开一种基于参考规范的专业文本生成方法,所述可控方法采用多个生成器结构,针对一个控制变量单独训练一个生成器,每个生成器生成符合一类控制变量的文本。该类方法模型结构复杂,在训练阶段存在非常大的计算和时间开销。
[0008]除此之外,语言的多样性使得文本空间巨大,上述三篇文献分别所记载的方法通常难以在较小的标注数据下实现模型的有效训练,而且其文本生成过程缺少可解释性,限
制了使用场景。
[0009]针对观点可控的专业文本生成任务的另一个需求:文本叙述形式的多样性,以下文献也有涉及:中国专利文献CN111339749A公开了一种无条件文本生成方法,是通过预训练的过滤器过滤和真实多样性文本差距较大的句子实现的。
[0010]中国专利文献CN111597779A公开了一种文本生成方法、装置、设备以及存储介质,通过增加用词的随机性提升文本多样性。
[0011]专业文本的生成过程是观点类别决定的内在语义和外显的表达方式共同参与的过程,上述方法均没有顾及语义对生成结果的影响,无法同时满足观点可控性和表达多样性的生成目标。

技术实现思路

[0012]针对现有技术的不足,本专利技术公开一种基于要素简图的可控多样性专业文本生成方法。
[0013]本专利技术还公开一种实现上述生成方法的系统。
[0014]专利技术概述本专利技术引入要素简图作为专业文本中观点语义的抽象描述,从而能够表达观点要素间长距离的依赖关系。基于观点类别决定文本语义、语言表达决定文本叙述模式的思想,本专利技术提出以变分自编码器结构为基础的模型,在隐式空间解耦文本语义和语言表达,包括模型训练和模型使用两个阶段:在训练阶段,使用图变分自编码器编码和重构要素简图,获取语义隐变量,在此过程中,通过重构损失、对比学习等技术实现观点类别对语义隐变量的控制;使用文本变分自编码器编码和重构专业文本获取表达隐变量,以反应数据集中文本表达特征的分布规律,表达隐变量联合语义隐变量生成最终的专业文本;引入多角度的判别器评估生成文本语言流畅性、领域相关性以及和观点类别的一致性,并形成反馈信息指导两类变分自编码器的更新。
[0015]在使用阶段,由观点类别控制语义隐变量,语义隐变量联合随机采样的表达隐变量,实现文本观点可控性和表达多样性,同时由语义隐变量生成一个要素简图,作为生成结果的可解释依据。要素简图的引入提升了观点类别对文本语义的约束能力。同时,在文本生成过程中生成要素简图,提升了模型可解释性。
[0016]技术术语解释背景文本:在本专利技术中指描述一段事实事件及其所产生影响的文本。
[0017]专业文本:在本专利技术中指针对背景文本,表达个体认知和对事实判定观点的文本。
[0018]观点类别:在本专利技术中指包含背景文本和观点,用于控制生成文本的变量。
[0019]要素:本专利技术中指专业文本中表达语义的核心概念或者实体。
[0020]要素简图:本专利技术中指专业文本中描述要素及其关联关系的有向图,其中顶点为要素,边表示要素间的关联。例如,在描述公司法人和股权关系的一个要素简图中,顶点包括法定持股人、实际持股人、股东等概念,关系包括投资、股份代持、造成损失等关系。
[0021]表达隐变量:本专利技术中指能够决定文本表达方式的变量。
[0022]语义隐变量:本专利技术中指能够决定文本语义的变量。
[0023]本专利技术的技术方案如下:一种基于要素简图的可控多样性专业文本生成方法,其特征在于,包括:建立变分自编码器框架模型,如图1,包括:图变分自编码器、文本变分自编码器和多个判别器;其中,所述图变分自编码器包括图编码器、图解码器、条件编码器;所述文本变分自编码器包括文本编码器和文本解码器;所述判别器包括类别一致性判别器、领域相关性判别器和语言模型;利用变分自编码器框架模型对给定观点类别的专业文本进行处理:首先,获取专业文本对应的要素简图;其次,使用图编码器编码所述要素简图及观点类别,得到语义隐变量的后验分布;使用条件编码器编码观点类别获取语义隐变量先验分布,使用文本编码器得到表达隐变量后验分布,同时假定表达隐变量先验分布为标准正态分布;训练阶段:从编码得到的语义隐变量的后验分布和表达隐变量后验分布中,分别采样语义隐变量和表达隐变量,将所述语义隐变量和表达隐变量拼接并输入文本解码器重构输入文本;同时,将语义隐变量输入图解码器重构要素简图;训练阶段的训练目标包括:一方面是最小化语义和表达隐变量对应的先验分布和后验分布的KL散度(Kullback

Leibler Divergence),一方面是最大化重构输入文本和要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于要素简图的可控多样性专业文本生成方法,其特征在于,包括:建立变分自编码器框架模型,包括:图变分自编码器、文本变分自编码器和判别器;其中,所述图变分自编码器包括图编码器、图解码器、条件编码器;所述文本变分自编码器包括文本编码器和文本解码器;所述判别器包括类别一致性判别器、领域相关性判别器和语言模型;利用变分自编码器框架模型对给定观点类别的专业文本进行处理:首先,获取专业文本对应的要素简图;其次,使用图编码器编码所述要素简图及观点类别,得到语义隐变量的后验分布;使用条件编码器编码观点类别获取语义隐变量先验分布,使用文本编码器得到表达隐变量后验分布,同时假定表达隐变量先验分布为标准正态分布;训练阶段:从编码得到的语义隐变量的后验分布和表达隐变量后验分布中,分别采样语义隐变量和表达隐变量,将所述语义隐变量和表达隐变量拼接并输入文本解码器生成文本;同时,将语义隐变量输入图解码器重构要素简图;应用阶段:给定观点类别,从语义隐变量先验分布、表达隐变量先验分布中,分别采样语义隐变量和表达隐变量,将所述语义隐变量和表达隐变量输入文本解码器符合观点类别的文本;同时,采样的语义隐变量输入图解码器生成要素简图,作为对生成文本的可解释性依据。2.根据权利要求1所述的一种基于要素简图的可控多样性专业文本生成方法,其特征在于,所述表达隐变量,是指在向量空间能够决定文本表达方式的变量,用于生成不同观点类别、语言表达相近的文本;所述语义隐变量,是指在向量空间能够决定文本语义的变量,用于生成观点类别一致、语言表达具有差异性的文本。3.根据权利要求1所述的一种基于要素简图的可控多样性专业文本生成方法,其特征在于,所述专业文本生成方法,具体包括:步骤S1:获取专业文本对应的要素简图:针对已获得的所有专业文本形成的语料库构造要素集合和关系集合,并获取要素集合和关系集合的初始特征矩阵;其中,所述构造要素集合和关系集合的方法,包括:融合专业文本语料库中词频统计特征和分词工具,形成要素集合,其中所述为要素,所述为要素集合中要素数量;专家定义关系集合,其中,所述为关系集合中的元素,所述为关系集合中关系的数量;所述获取要素集合和关系集合的初始特征矩阵的方法,包括:通过中文预训练词向量工具包ngram2vec获取要素和关系的特征向量,进而形成初始的要素集合和关系集合的特征矩阵:,其中,为要素特征矩阵;为关系特征矩阵;为要素集合中要素数量,为要素特征向量的维数;为关系集合中关系的数量;为关系特征向量的维数;所述获取专业文本对应的要素简图方法,包括:
针对语料库中的少量专业文本,人工标注这些文本中要素间的关系,形成“专业文本,要素

要素

关系”格式的标注数据;基于上述标注数据训练关系预测模型,所述关系预测模型以专业文本为输入,针对专业文本包含的任意两个要素,输出一个维向量,表示预测的这两个要素的关系在个关系类型上的概率;要素的特征向量为其包含的词汇特征向量取均值得到;为了进一步预测专业文本中两个要素间的关系类型,将两个要素的特征向量拼接输入一个MLP(Multilayer Perceptron)网络,输出一个维的向量,表示预测的两个要素间的关系在个关系类型上的概率;针对语料库中剩余的未人工标注要素关系的专业文本,利用上述训练好的关系预测模型预测这些专业文本中的要素两两间的关联,由此,针对每一个专业文本,形成要素简图:(1)在公式(1)中,所述为维的邻接张量,表达了个要素两两间的关系类型;的第维和第维是一个维的向量,表示第个要素和第个要素间关系在个关系类型上的概率;步骤S2:编码所述要素简图和所述观点类别,得到语义隐变量后验分布,在此分布中采样语义隐变量重构要素简图;使用条件编码器编码观点类别得到语义隐变量先验分布;图变分自编码器的输入包括观点类别、要素简图,输出为重构后的要素简图,其中,表示背景描述,表示观点;所述图变分自编码器包括图编码器、图解码器和条件编码器:图编码器对要素简图和观点类别编码,得到语义隐变量的后验分布,表示单位矩阵,均值和方差通过下式得到:(2)在公式(2)中,表示图编码器;随后,从中采样语义隐变量;图解码器依据语义隐变量生成重构的要素简图;为重构后的要素简图对应的邻接张量;的第维和第维 为一个维向量,表示第个要素和第个要素之间的关系在个关系类型上的概率;由图解码器
ꢀꢀ
依据要素的内容及语义隐变量预测得到:(3)条件编码器用于获取观点类别下的语义隐变量先验分布;假定服从均值和方差的高斯分布;表示单位矩阵;和通过下式得到:
(4)步骤S3:编码专业文本得到表达隐变量后验分布,在此分布中采样表达隐变量;表达隐变量和语义隐变量重构专业文本;此步骤的目标是建立文本语义和表达到生成文本的关联关系,由文本变分自编码器完成,其输入为专业文本、上一步采样得到的语义隐变量,输出为重构的专业文本;所述文本变分自编码器包括文本编码器和文本解码器;所述编码专业文本得到表达隐变量后验分布的方法,包括:文本编码器编码输入的专业文本,得到表达隐变量的后验分布,为单位矩阵,其均值和方差通过下式计算:(5)在公式(5)中,表示文本编码器...

【专利技术属性】
技术研发人员:孙宇清王舰马磊袁峰邢金宝
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1