【技术实现步骤摘要】
一种基于互信息和对抗神经网络的增强主题多样性方法
[0001]本专利技术属于自然语言处理
,具体的说是一种基于互信息和对抗神经网络的增强主题多样性方法
。
技术介绍
[0002]主题模型是文本挖掘的重要工具,挖掘语料里隐藏信息,并且在主题聚合
、
从非结构化文本中提取信息
、
特征选择等场景有广泛的用途
。
其中隐式狄利克雷分配是其最具代表性的模型,来推测文本的主题分布
。
可是由于模型求解复杂,过于有微小的调整,科研人员就需要为此设计对应的理论方法,不利于对后续在应用层面的主题建模
。
[0003]为了解决传统主题模型的不足,基于近些年生成式神经网络的迅速发展,神经主题模型在文本挖掘
、
自然语言处理领域受到诸多学者的关注并进行了深入的研究,例如:基于对抗训练提出对抗
‑
神经主题模型和双向对抗神经主题模型
。
模型采用狄利克雷分布作为主题空间的先验分布进行建模,编码器和生成器生成更逼真的数据分布和更准确的主题表示,却忽略生成数据分布和真实数据分布之间有价值的信息,导致多样性不足
。
技术实现思路
[0004]为了解决上述技术问题,本专利技术提供了一种基于互信息和对抗神经网络的增强主题多样性方法,能够让文本中隐含主题信息服从狄利克雷分布,并在对抗神经主题建模框架下融入互信息最大化机制来提升模型挖掘出的主题的多样性
。
[0005]为了达 ...
【技术保护点】
【技术特征摘要】
1.
一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:所述增强主题多样性方法包括如下步骤:步骤
1、
对社交平台在线文本进行数据预处理获得真实文本,将真实文本使用词袋模型表示成真实文本
‑
词分布向量;步骤
2、
将步骤1中的多个所述真实文本
‑
词分布向量放在同一个批次中作为编码器的输入,得到真实文本
‑
主题分布向量,将真实文本
‑
词分布向量与对应的主题分布构成真实分布对,再将真实文本
‑
词分布向量批内打乱与真实文本
‑
主题分布向量拼接构成负样本分布对;步骤
3、
从狄利克雷分布随机采样出主题向量作为假文本
‑
主题分布并输入生成器中,得到假文本
‑
词分布向量,假文本
‑
词分布向量与假文本
‑
主题分布构成假分布对;步骤
4、
判别器接收步骤2得到的真实分布对和步骤3生成的假分布对作为判别器输入,计算两者的损失,来区分真实数据分布对和生成数据分布对,引入统计网络,所述统计网络接收真实分布对和负样本分布对作为输入,计算它们之间的互信息,互信息的正则化损失被添加到判别器的损失中,以增判别器的感知能力,提高生成样本的质量和多样性;步骤
5、
训练中使用对抗训练来近似估计真实分布对和假分布对之间的推土机距离与真实分布对和负样本分布对之间的詹森香农距离,通过对抗训练的优化目标和迭代模型,直至损失函数收敛
。2.
根据权利要求1所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤2中的编码器训练真实文本
‑
词分布向量到真实文本
‑
主题分布向量的映射关系,包括维文本
‑
词分布层
、
维语义
‑
隐含表示层和维文本
‑
主题分布层,具体包括步骤:步骤2‑
1、
以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本
‑
词分布表示作为输入,编码器将其映射到维隐含语义空间,再将得到的维隐含语义空间映射到维文本
‑
主题分布层,采用如下公式得到:,其中,和为文本
‑
词分布层到语义
‑
隐含表示层的权重矩阵,为文本
‑
词分布层到语义
‑
隐含表示层的权重矩阵的偏置项,为
LeakyReLU
激活函数的参数,为批归一化,为语义
‑
隐含表示层到文本
‑
主题分布层的权重矩阵,为语义
‑
隐含表示层到文本
‑
主题分布层的偏置项目,是真实文本对应的文本
‑
主题分布且第维表示第个主题在真实文本中所占的比重;步骤2‑
2、
随后将真实维词分布向量与真实维主题分布向量拼接为真实分布对,将批内打乱的真实文本
‑
词分布向量表示为,将批内不匹配的主题分布与词分布构成负样本分布对
。3.
根据权利要求2所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其
特征在于:步骤3中生成器生成一个文本
‑
主题分布到文本
‑
词分布的映射关系,包括维文本
‑
主题分布层
、
维语义
‑
隐含表示层和维文本
‑
词分布层,使用参数为的狄利克雷分布作为假文本
‑
主题分布的先验,采用如下公式得到:,其中,参数为狄利克雷分布的概率密度,主题为该模型的主题参数,表示文本中每个词属于每个主题的概率;步骤3‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。