一种不同分面观点演化趋势引导的文本生成方法技术

技术编号:24353584 阅读:31 留言:0更新日期:2020-06-03 02:05
本发明专利技术公开了一种不同分面观点演化趋势引导的文本生成方法,(1)构造分面分类器和观点分类器:收集社交网络中特定热点事件的全部博文作为源语料集,根据专家知识或舆情事件管理需要,确定舆情事件的重要分面并给出分面描述;根据语料子句与分面描述的语义距离实现源语料集中不同分面的子句提取,以此训练分面分类器;利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,利用聚类后的语料训练观点分类器。(2)生成对抗观点文本:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。

A text generation method guided by the evolution trend of different perspectives

【技术实现步骤摘要】
一种不同分面观点演化趋势引导的文本生成方法
本专利技术属于多分面舆情事件中观点演化趋势的对抗引导文本生成领域,特别涉及一种不同分面观点演化趋势引导的文本生成方法。
技术介绍
如今各种各样的自媒体平台快速发展,网络成为人们获取信息、参与公共事务、发表个人观点的主要场所。但是由于网络具有匿名性、传播快的特点,各种不实、负面的信息和言论充斥网络,尤其对于关乎法律民生,公众道德的社会事件,恶意煽动网民情绪、传播不实消息会严重危害社会稳定。网络舆情已经成为影响社会稳定的重要因素,在建立正确舆论导向的基础上加强网络舆情监测、进行舆论的引导,对于有效疏导和控制负面舆情,为主流意识形态网络话语的传播营造清朗的网络舆论环境有重要意义。网络上的信息繁杂多样且传播迅速,给网络舆情引导带来很大挑战。面对网络热点事件中的恶意、不实评论,需要有针对性地进行反驳、澄清和引导,以减轻其对网民的影响,因此本专利技术提出了一种面向多分面舆情事件的观点对抗型引导文本生成方法。该方法用于对网络热点事件中负面、过激甚至恶意评论的引导,能够自动地生成针对性的对抗观点且符合该热点事件的语境和语言规律,具有高效、准确的优点。针对文本生成方法,有以下现有技术:现有技术1提出的文本生成方法包括:获得文本生成模型和调用文本生成模型两个阶段。第一阶段包括数据预处理;深度学习算法模型构建;训练深度学习模型;获得文本生成模型。第二阶段包括:接受用户输入的文本;提取用户输入文本的特征信息;调用文本生成模型;生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法模型,使得训练过程更加自动化,免去了过多的人工干预,训练过程采用一系列训练策略,使得文本生成模型生成的文本可读性更强。第二阶段,对用户输入信息进行分类,识别用户意图,跟据用户的意图生成出用户想要的文本。现有技术2提出了一种文本生成方法,该方法包括:使用基于LSTM学习的NLG技术,通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合,并后期通过特定词替换等方法,生成与社交网络几乎一致的生动、通顺、富于变化的高质量评论文本。现有技术3提出一种基于循环卷积注意力模型的文本生成方法及装置,该方法包含:采集互联网文本数据作为样本数据库;将样本数据库作为循环卷积注意力模型的输入和输出,训练循环卷积注意力模型,其中,循环卷积注意力模型包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块,长短期记忆网络模块包含若干个LSTM长短期记忆网络节点;将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试,将循环卷积注意力模型输出即为该待处理文本主题的生成文本。现有技术1只实现了通用的文本生成方法,现有技术2立足社交网络,生成具有社交网络特点的文本,但是不能生成观点对抗的文本,现有技术3可以生成特定主题的文本,但也不是针对舆情事件中不同观点的引导,没有实现舆情事件分面提取、观点识别及生成对抗观点文本。
技术实现思路
本专利技术的目的在于提供一种不同分面观点演化趋势引导的文本生成方法,以解决上述问题。为实现上述目的,本专利技术采用以下技术方案:一种不同分面观点演化趋势引导的文本生成方法,包括以下步骤:步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。进一步的,构造分类器具体为:收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。进一步的,构造分类器过程包括:1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料。进一步的,观点对抗文本生成过程包括:(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。进一步的,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判本文档来自技高网
...

【技术保护点】
1.一种不同分面观点演化趋势引导的文本生成方法,其特征在于,包括以下步骤:/n步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;/n步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。/n

【技术特征摘要】
1.一种不同分面观点演化趋势引导的文本生成方法,其特征在于,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。


2.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。


3.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面...

【专利技术属性】
技术研发人员:秦涛王熙凤郑庆华罗敏楠张玉哲王伟帆王浩年
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1