基于要素简图的可控多样性专业文本生成方法及系统技术方案

技术编号：38199313 阅读：12 留言：0更新日期：2023-07-21 16:38

本发明专利技术公开一种基于要素简图的可控多样性专业文本生成方法及系统，属于自然语言处理的技术领域。本发明专利技术通过构建一个条件编码器建立观点和语义特征的关联，实现观点对文本语义的控制，并且通过随机采样不同的表达特征实现文本表达的多样性。要素简图的引入使得本发明专利技术能够直接且明确地建模观点和文本语义的关联关系，而且由于一个要素简图能够代表同一观点的多个专业文本的语义，利用较少量的数据训练模型即可实现观点对文本语义的强控制；本发明专利技术融合语义特征和表达特征的文本生成过程，实现了在语义约束下的多样性文本生成，防止生成文本只追求多样性而忽略了语义；本发明专利技术在生成专业文本的同时生成所依赖的要素简图，实现了生成过程的可解释性。成过程的可解释性。成过程的可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
基于要素简图的可控多样性专业文本生成方法及系统

[0001]本专利技术公开一种基于要素简图的可控多样性专业文本生成方法及系统，属于自然语言处理的

技术介绍

[0002]可控文本生成是在给定控制变量条件下，生成满足控制变量约束的文本，是自然语言处理领域的前沿问题。专业文本是指特定领域依据知识点和背景描述表达个体观点的文本，由于认知差异，专业文本中的观点存在差异，表达形式也有很大区别：例如“名义股东李某未经实际出资人张某同意质押股权导致损失，李某理应赔偿张某”或“李某是名义上股东，有权对甲公司的股权进行质押，无需赔偿”等。针对特定知识点和背景描述，专业文本依据观点差异可以分为有限个类别，上述例子中对应的知识点是“名义股东处分股权造成实际出资人损失，实际出资人请求名义股东承担赔偿责任的，人民法院应予支持”，背景描述为“李某是名义股东，张某实际出资并享有投资权益，未经张某同意李某将其在甲公司的股权进行质押造成了损失”，观点分为“理应赔偿”或“无需赔偿”等。
[0003]由上可知，专业文本的语义通过一系列概念或者实体及其关联关系决定，我们定义这些概念和实体为观点要素。观点可控的多样性专业文本生成以观点作为控制变量，生成语义符合给定观点、表达多样的专业文本，生成的文本不仅涉及多个观点要素的逻辑关系，也体现不同观点所对应的观点要素复杂关系的不同变化和细微差异，同时反映多样性语言表达方式，这些因素使得观点可控的专业文本生成任务非常困难，具有重要理论价值。同时，在深度学习方法广泛应用的智能时代，数据稀缺问题突出，使得...

【技术保护点】

【技术特征摘要】
1.一种基于要素简图的可控多样性专业文本生成方法，其特征在于，包括：建立变分自编码器框架模型，包括：图变分自编码器、文本变分自编码器和判别器；其中，所述图变分自编码器包括图编码器、图解码器、条件编码器；所述文本变分自编码器包括文本编码器和文本解码器；所述判别器包括类别一致性判别器、领域相关性判别器和语言模型；利用变分自编码器框架模型对给定观点类别的专业文本进行处理：首先，获取专业文本对应的要素简图；其次，使用图编码器编码所述要素简图及观点类别，得到语义隐变量的后验分布；使用条件编码器编码观点类别获取语义隐变量先验分布，使用文本编码器得到表达隐变量后验分布，同时假定表达隐变量先验分布为标准正态分布；训练阶段：从编码得到的语义隐变量的后验分布和表达隐变量后验分布中，分别采样语义隐变量和表达隐变量，将所述语义隐变量和表达隐变量拼接并输入文本解码器生成文本；同时，将语义隐变量输入图解码器重构要素简图；应用阶段：给定观点类别，从语义隐变量先验分布、表达隐变量先验分布中，分别采样语义隐变量和表达隐变量，将所述语义隐变量和表达隐变量输入文本解码器符合观点类别的文本；同时，采样的语义隐变量输入图解码器生成要素简图，作为对生成文本的可解释性依据。2.根据权利要求1所述的一种基于要素简图的可控多样性专业文本生成方法，其特征在于，所述表达隐变量，是指在向量空间能够决定文本表达方式的变量，用于生成不同观点类别、语言表达相近的文本；所述语义隐变量，是指在向量空间能够决定文本语义的变量，用于生成观点类别一致、语言表达具有差异性的文本。3.根据权利要求1所述的一种基于要素简图的可控多样性专业文本生成方法，其特征在于，所述专业文本生成方法，具体包括：步骤S1：获取专业文本对应的要素简图：针对已获得的所有专业文本形成的语料库构造要素集合和关系集合，并获取要素集合和关系集合的初始特征矩阵；其中，所述构造要素集合和关系集合的方法，包括：融合专业文本语料库中词频统计特征和分词工具，形成要素集合，其中所述为要素，所述为要素集合中要素数量；专家定义关系集合，其中，所述为关系集合中的元素，所述为关系集合中关系的数量；所述获取要素集合和关系集合的初始特征矩阵的方法，包括：通过中文预训练词向量工具包ngram2vec获取要素和关系的特征向量，进而形成初始的要素集合和关系集合的特征矩阵：，其中，为要素特征矩阵；为关系特征矩阵；为要素集合中要素数量，为要素特征向量的维数；为关系集合中关系的数量；为关系特征向量的维数；所述获取专业文本对应的要素简图方法，包括：
针对语料库中的少量专业文本，人工标注这些文本中要素间的关系，形成“专业文本，要素
‑
要素
‑
关系”格式的标注数据；基于上述标注数据训练关系预测模型，所述关系预测模型以专业文本为输入，针对专业文本包含的任意两个要素，输出一个维向量，表示预测的这两个要素的关系在个关系类型上的概率；要素的特征向量为其包含的词汇特征向量取均值得到；为了进一步预测专业文本中两个要素间的关系类型，将两个要素的特征向量拼接输入一个MLP(Multilayer Perceptron)网络，输出一个维的向量，表示预测的两个要素间的关系在个关系类型上的概率；针对语料库中剩余的未人工标注要素关系的专业文本，利用上述训练好的关系预测模型预测这些专业文本中的要素两两间的关联，由此，针对每一个专业文本，形成要素简图：（1）在公式（1）中，所述为维的邻接张量，表达了个要素两两间的关系类型；的第维和第维是一个维的向量，表示第个要素和第个要素间关系在个关系类型上的概率；步骤S2：编码所述要素简图和所述观点类别，得到语义隐变量后验分布，在此分布中采样语义隐变量重构要素简图；使用条件编码器编码观点类别得到语义隐变量先验分布；图变分自编码器的输入包括观点类别、要素简图，输出为重构后的要素简图，其中，表示背景描述，表示观点；所述图变分自编码器包括图编码器、图解码器和条件编码器：图编码器对要素简图和观点类别编码，得到语义隐变量的后验分布，表示单位矩阵，均值和方差通过下式得到：（2）在公式（2）中，表示图编码器；随后，从中采样语义隐变量；图解码器依据语义隐变量生成重构的要素简图；为重构后的要素简图对应的邻接张量；的第维和第维为一个维向量，表示第个要素和第个要素之间的关系在个关系类型上的概率；由图解码器
ꢀꢀ
依据要素的内容及语义隐变量预测得到：（3）条件编码器用于获取观点类别下的语义隐变量先验分布；假定服从均值和方差的高斯分布；表示单位矩阵；和通过下式得到：
（4）步骤S3：编码专业文本得到表达隐变量后验分布，在此分布中采样表达隐变量；表达隐变量和语义隐变量重构专业文本；此步骤的目标是建立文本语义和表达到生成文本的关联关系，由文本变分自编码器完成，其输入为专业文本、上一步采样得到的语义隐变量，输出为重构的专业文本；所述文本变分自编码器包括文本编码器和文本解码器；所述编码专业文本得到表达隐变量后验分布的方法，包括：文本编码器编码输入的专业文本，得到表达隐变量的后验分布，为单位矩阵，其均值和方差通过下式计算：（5）在公式（5）中，表示文本编码器...

【专利技术属性】
技术研发人员：孙宇清，王舰，马磊，袁峰，邢金宝，
申请(专利权)人：山东山大鸥玛软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人