一种基于互信息和对抗神经网络的增强主题多样性方法技术

技术编号:39808686 阅读:11 留言:0更新日期:2023-12-22 02:43
本发明专利技术属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练

【技术实现步骤摘要】
一种基于互信息和对抗神经网络的增强主题多样性方法


[0001]本专利技术属于自然语言处理
,具体的说是一种基于互信息和对抗神经网络的增强主题多样性方法


技术介绍

[0002]主题模型是文本挖掘的重要工具,挖掘语料里隐藏信息,并且在主题聚合

从非结构化文本中提取信息

特征选择等场景有广泛的用途

其中隐式狄利克雷分配是其最具代表性的模型,来推测文本的主题分布

可是由于模型求解复杂,过于有微小的调整,科研人员就需要为此设计对应的理论方法,不利于对后续在应用层面的主题建模

[0003]为了解决传统主题模型的不足,基于近些年生成式神经网络的迅速发展,神经主题模型在文本挖掘

自然语言处理领域受到诸多学者的关注并进行了深入的研究,例如:基于对抗训练提出对抗

神经主题模型和双向对抗神经主题模型

模型采用狄利克雷分布作为主题空间的先验分布进行建模,编码器和生成器生成更逼真的数据分布和更准确的主题表示,却忽略生成数据分布和真实数据分布之间有价值的信息,导致多样性不足


技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种基于互信息和对抗神经网络的增强主题多样性方法,能够让文本中隐含主题信息服从狄利克雷分布,并在对抗神经主题建模框架下融入互信息最大化机制来提升模型挖掘出的主题的多样性

[0005]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0006]本专利技术是一种基于互信息和对抗神经网络的增强主题多样性方法,包括以下步骤:
[0007]S1
:对社交平台在线文本进行数据预处理获得真实文本,将真实文本使用词袋模型表示成真实文本

词分布向量;
[0008]S2
:将多个真实文本

词分布向量放在一个批次中作为编码器的输入,得到真实文本

主题分布向量,将真实文本

词分布向量与对应的主题分布构成真实分布对,再将真实文本

词分布向量批内打乱与真实文本

主题分布构成负样本分布对;
[0009]S3
:从狄利克雷分布随机采样出主题向量作为假文本

主题分布并输入生成器中,得到假文本

词分布向量与假文本

主题分布构成假分布对;
[0010]S4
:真实分布对与假分布对作为对抗生成网络输入,真实分布对与负样本对作为统计网络输入,在对抗训练的过程中,通过对抗产生的信号训练编码器与生成器,以互信息的正则化损失最大为目标,对模型进行训练

[0011]S5
:训练时为了近似估计两个高纬度分布之间的推土机距离和詹森

香农距离,对抗训练过程中反复优化和迭代训练目标,直至损失函数收敛

[0012]本专利技术的进一步改进在于:步骤2中的编码器训练真实文本

词分布向量到真实文本

主题分布向量的映射关系,包括维文本

词分布层

维语义

隐含表示层和维文


主题分布层,具体包括步骤:
[0013]S2.1
以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本

词分布表示作为输入,编码器将其映射到维隐含语义空间,再将得到的维隐含语义空间映射到维文本

主题分布层:
[0014]其中,和为文本

词分布层到语义

隐含表示层的权重矩阵,为文本

词分布层到语义

隐含表示层的权重矩阵的偏置项,为
LeakyReLU
激活函数的参数,为批归一化,为语义

隐含表示层到文本

主题分布层的权重矩阵,为语义

隐含表示层到文本

主题分布层的偏置项目,是真实文本对应的文本

主题分布且第维表示第个主题在真实文本中所占的比重;
[0015]S2.2
随后将真实维词分布向量与真实维主题分布向量拼接成为真实分布对,将真实文本

词分布向量批内打乱表示为,将批内不匹配的主题分布与词分布构成负样本分布对

[0016]步骤3中生成器生成一个文本

主题分布到文本

词分布的映射关系,包括维文本

主题分布层

维语义

隐含表示层和维文本

词分布层,使用参数为的狄利克雷分布作为假文本

主题分布的先验,采用如下公式得到:
[0017][0018]其中,参数为狄利克雷分布的概率密度,主题为该模型的主题参数,表示文本中每个词属于每个主题的概率

[0019]S3.1
生成器利用如下变换先将假文本

主题分布转换到维语义

隐含表示层,再将得到的维隐含语义空间映射到维文本

词分布层:
[0020][0021]其中,为文本

主题分布层到语义

隐含表示层的权重矩阵,为文本

主题分布层到语义

隐含表示层的偏置项,为
LeakyReLU
激活函数的参数,为批归一化,是语义

隐含表示层到文本

词分布层的权重矩阵,是语义

隐含表示层到文本

词分布层的偏置项目,是真实文本对应的文本

主题分布且第维表示第个主题在真实文本中所占的比重;
[0022]S3
‑2随即将假文本

主题分布与假文本

词分布拼接成假分布对

[0023]S4.1
步骤4中真实分布对和假分布对视为由两个
+
维联合分布对和中采样出来的随机样本,其中和均为由一个维狄利克雷分布对和一个维狄利克雷分布对构成的联合分布,对抗生成网络训练目标是让假联合分布逼近真实联合分布,统计网络利用真实样本对和负样本对估计文本

词分布空间与文本

主题分布空间之间的互信息并将其最大化提升主题多样性,当训练完成时编码器和生成器便可完成文本

主题分布与文本

词分布之间的双向映射关系和内在互信息最大化关系,具体包括如下步骤:
[0024]S4.2
判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:所述增强主题多样性方法包括如下步骤:步骤
1、
对社交平台在线文本进行数据预处理获得真实文本,将真实文本使用词袋模型表示成真实文本

词分布向量;步骤
2、
将步骤1中的多个所述真实文本

词分布向量放在同一个批次中作为编码器的输入,得到真实文本

主题分布向量,将真实文本

词分布向量与对应的主题分布构成真实分布对,再将真实文本

词分布向量批内打乱与真实文本

主题分布向量拼接构成负样本分布对;步骤
3、
从狄利克雷分布随机采样出主题向量作为假文本

主题分布并输入生成器中,得到假文本

词分布向量,假文本

词分布向量与假文本

主题分布构成假分布对;步骤
4、
判别器接收步骤2得到的真实分布对和步骤3生成的假分布对作为判别器输入,计算两者的损失,来区分真实数据分布对和生成数据分布对,引入统计网络,所述统计网络接收真实分布对和负样本分布对作为输入,计算它们之间的互信息,互信息的正则化损失被添加到判别器的损失中,以增判别器的感知能力,提高生成样本的质量和多样性;步骤
5、
训练中使用对抗训练来近似估计真实分布对和假分布对之间的推土机距离与真实分布对和负样本分布对之间的詹森香农距离,通过对抗训练的优化目标和迭代模型,直至损失函数收敛
。2.
根据权利要求1所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤2中的编码器训练真实文本

词分布向量到真实文本

主题分布向量的映射关系,包括维文本

词分布层

维语义

隐含表示层和维文本

主题分布层,具体包括步骤:步骤2‑
1、
以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本

词分布表示作为输入,编码器将其映射到维隐含语义空间,再将得到的维隐含语义空间映射到维文本

主题分布层,采用如下公式得到:,其中,和为文本

词分布层到语义

隐含表示层的权重矩阵,为文本

词分布层到语义

隐含表示层的权重矩阵的偏置项,为
LeakyReLU
激活函数的参数,为批归一化,为语义

隐含表示层到文本

主题分布层的权重矩阵,为语义

隐含表示层到文本

主题分布层的偏置项目,是真实文本对应的文本

主题分布且第维表示第个主题在真实文本中所占的比重;步骤2‑
2、
随后将真实维词分布向量与真实维主题分布向量拼接为真实分布对,将批内打乱的真实文本

词分布向量表示为,将批内不匹配的主题分布与词分布构成负样本分布对
。3.
根据权利要求2所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其
特征在于:步骤3中生成器生成一个文本

主题分布到文本

词分布的映射关系,包括维文本

主题分布层

维语义

隐含表示层和维文本

词分布层,使用参数为的狄利克雷分布作为假文本

主题分布的先验,采用如下公式得到:,其中,参数为狄利克雷分布的概率密度,主题为该模型的主题参数,表示文本中每个词属于每个主题的概率;步骤3‑

【专利技术属性】
技术研发人员:王睿郝仁刘星黄海平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1