System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向热点话题的基于自监督表示学习的观点挖掘方法技术_技高网

一种面向热点话题的基于自监督表示学习的观点挖掘方法技术

技术编号:40870140 阅读:4 留言:0更新日期:2024-04-08 16:36
本发明专利技术属于自然语言处理技术领域,公开了一种面向热点话题的基于自监督表示学习的观点挖掘方法,包括:获取文本语料库并进行数据预处理;语料中的文本用词袋模型进行表示;对文档的词袋表示进行数据增强得到成对的相似文档向量表示;将成对的相似文档向量表示输入编码器网络得到输出,作为输入文档的观点分布的向量表示;从狄利克雷分布中采样获得观点分布的先验;最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失,以此进行模型的训练。本发明专利技术利用自监督学习的优势,得到了文档的观点表示,获得了高质量的观点,挖掘出了多样的观点表示。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体的说是涉及一种面向热点话题的基于自监督表示学习的观点挖掘方法


技术介绍

1、主题模型作为数据挖掘的工具,具备从大量非结构化语料中自动挖掘潜在主题的能力。这些语料通常是无标注的,并且常常包含各种噪音,例如语法错误和拼写问题。这些特点为主题挖掘带来了一系列挑战。研究人员致力于设计出一种能够克服以上问题,期望在不同领域数据集上都能获得较高的主题一致性和主题多样性的模型。研究方向之一是在模型训练之前对语料进行有效的预处理,以清除噪音、处理拼写问题,并提高文本质量,这有助于提升主题模型对文本的理解和建模能力;另一方面,研究人员还在模型架构和算法方面进行创新,以更好地适应非结构化、噪音丰富的语料。

2、主题建模的目标是通过自动分析文档中的词语共现关系,识别出这些潜在主题,并为每个文档分配相关的主题权重。基于概率的传统主题模型代表有隐含狄利克雷分布(latent dirichlet allocation,简称lda),它的假设中认为文档的生成是由主题分布和词分布组成,这个方法有效的挖掘出语料中的隐含主题。然而,就模型来说,在求解过程中需要复杂的数学推导,且存在模型不易扩展的问题。随着神经主题模型的提出,现有两种主题模型的主要研究方向:基于vae和gan的模型。前者因为对主题分布使用了不合适的先验约束,这通常会导致学习到的主题表示可解释性不足;后者进行对抗训练,模型优化方向不稳定,容易出现主题坍塌问题,如主题多样性不足,导致原始语料的关键信息丢失。


技术实现思路>

1、为了解决现有研究中出现的问题,本专利技术提供了一种面向热点话题的基于自监督表示学习的观点挖掘方法,此方法基于主题模型对热点事件下的观点进行挖掘,利用狄利克雷分布作为先验约束,使学习到的表示能够捕获文本中的多峰语义,在训练过程中采用自监督学习方式,结合损失优化提升观点表示的多样性。

2、为了达到上述目的,本专利技术是通过以下技术方案实现的:

3、本专利技术是一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述观点挖掘方法包括以下步骤:

4、步骤1、对获取到的社交媒体评论文本进行数据预处理,根据词袋模型得到文档采用tf-idf表示法的词袋模型表示;

5、步骤2、将步骤1中得到的词袋模型表示进行数据增强,以获得成对的相似文档向量表示;

6、步骤3、将步骤2获得的增强后的成对的相似文档向量表示作为编码器网络的输入,得到编码器网络的输出,该输出表示为输入文档的观点分布的向量表示;

7、步骤4、通过最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失,约束模型的参数变化,不断迭代至损失函数收敛,以确保模型的稳定性和观点挖掘的准确性。

8、本专利技术的进一步改进在于:步骤1具体包括以下步骤:

9、步骤1-1、数据预处理:从社交媒体平台收集公众评论的内容结构,解析收集内容中有意义的评论实体,去除不符合语言类别要求的文本、对文本的单词进行词形还原和拼写检查、移除文本中的停用词、筛选出小于设定的文档长度阈值的文本并剔除;

10、步骤1-2、文档表示的获取:对于一篇文档中的一个单词t,计算单词t在文档d中的出现次数与文档d中所有单词的总数之比,即单词t在文档中出现的词频,计算该词对于整个语料库的重要性即逆文档频率,将语料库中文档总数与包含单词t的文档总数自增一之后的比值取对数,该单词在此文档和语料库中的权重的计算方式为词频和逆文档频率的乘积,对于给定文档,得到一个由所有单词t其对应的权重构成的词袋模型表示。

11、本专利技术的进一步改进在于:步骤2中对步骤1中得到的词袋模型表示进行数据增强具体为:假定词袋模型表示是维向量,向量维数与语料的词表大小相等,设定概率,并得到向量中个数值上最小的单词表示,对于词袋模型表示的数据增强根据随机概率性选择如下三种数据增强方式:

12、a)以概率减少单词t数值的%;

13、b)以概率增加单词t数值的%;

14、c)以概率将单词的t数值置为零。

15、本专利技术的进一步改进在于:所述步骤3中的编码器网络利用如下的全连接层变换,增强后的成对的相似文档向量表示作为输入,推断出文本的观点表示,具体实现步骤包括:

16、步骤3.1、从步骤2得到的语料中进行随机采样,得到维成对的相似文档向量表示,输入编码器网络,经过如下两层线性变换映射到维隐含语义空间:

17、

18、其中,表示一层的权重矩阵,是表示二层的权重矩阵,和是偏置项,和表示层的隐状态,和表示层激活后的表示向量,是谱归一化,是激活函数;

19、步骤3.2、将步骤3.1中的表示向量经过全连接层变换,将其映射为维的文档观点分布:

20、

21、

22、其中,和是此层的权重矩阵和偏置项,是文档观点分布层的隐状态,为成对的相似文档向量表示对应的维文档观点分布,且第多项式分布表示第k个观点在成对的相似文档向量表示所占的比重。

23、本专利技术的进一步改进在于:所述步骤4中通过最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失,具体包括如下步骤:

24、步骤4.1、对于增强后成对的相似文档向量表示,经过映射后是相似的,计算不变性正则化损失进行约束,给定推断出来的观点分布和,损失的计算方式如下:

25、

26、其中,表示批次大小,为上式中求和过程对成对的相似文档向量表示的遍历索引,和表示成对的相似文档向量表示的成对观点分布;

27、步骤4.2、为防止观点映射出现同一性,使用方差损失函数解决模型坍塌问题,计算方式如下:

28、

29、

30、其中,,是由观点分布中所有观点分布中第k维上的每个值组成的向量,是为了数据稳定性的微小标量,表示文档观点数,表示一般性数据;

31、步骤4.3、利用协方差损失进行约束,计算方式如下:

32、

33、

34、其中,,表示矩阵中第列,表示矩阵转置运算;

35、步骤4.4、综合步骤4.1、步骤4.2和步骤4.3计算公式得到三项正则化损失为:

36、

37、其中,是不同的超参数;

38、步骤4.5、通过计算推断得到的文档观点分布和狄利克雷先验分布的最大平均偏差,来约束编码器网络的输出分布。

39、本专利技术的进一步改进在于:步骤4.5通过计算推断得到的文档观点分布和狄利克雷先验分布的最大平均偏差,来约束编码器网络的输出分布,具体包括如下步骤:

40、步骤4.5.1、给定推断的观点分布集合,从参数为的狄利克雷分布中进行随机采样,获得的先验分布,具体使用的公式如下:

41、

42、其中,k为此模型训练所使用的观点数设本文档来自技高网...

【技术保护点】

1.一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述观点挖掘方法包括以下步骤:

2.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤1具体包括以下步骤:

3.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:步骤2中对步骤1中得到的词袋模型表示进行数据增强具体为:假定词袋模型表示是维向量,向量维数与语料的词表大小相等,设定概率,并得到向量中个数值上最小的单词表示,对于词袋模型表示的数据增强根据随机概率性选择如下三种数据增强方式:

4.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤3中的编码器网络利用如下的全连接层变换,增强后的成对的相似文档向量表示作为输入,推断出文本的观点表示,具体实现步骤包括:

5.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤4中通过最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失,具体包括如下步骤:

6.根据权利要求5所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤4.5通过计算推断得到的文档观点分布和狄利克雷先验分布的最大平均偏差,来约束编码器网络的输出分布,具体包括如下步骤:

7.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤4中约束模型的参数变化,不断迭代至损失函数收敛,其中模型训练具体流程如下:

...

【技术特征摘要】

1.一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述观点挖掘方法包括以下步骤:

2.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤1具体包括以下步骤:

3.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:步骤2中对步骤1中得到的词袋模型表示进行数据增强具体为:假定词袋模型表示是维向量,向量维数与语料的词表大小相等,设定概率,并得到向量中个数值上最小的单词表示,对于词袋模型表示的数据增强根据随机概率性选择如下三种数据增强方式:

4.根据权利要求1所述的一种面向热点话题的基于自监督表示学习的观点挖掘方法,其特征在于:所述步骤3中的编码器网络利用如下的全连接层变换,增强...

【专利技术属性】
技术研发人员:王睿刘星任鹏王延安常舒予黄海平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1