一种基于主题增强的中文社交媒体少样本立场检测方法技术

技术编号：41074711 阅读：11 留言：0更新日期：2024-04-24 11:32

本发明专利技术涉及网络安全技术领域，公开一种基于主题增强的中文社交媒体少样本立场检测方法。该方法分为主题增强预训练和基于提示学习的多任务微调模块；首先通过目标语用权重算法得到不同目标的主题词组，而后通过掩码语言模型任务提高模型对目标主题的感知能力，得到主题增强预训练模型。然后，引入提示学习来捕获TRPM中的主题信息，并搭建多任务学习网络MT‑TRPM捕获情感知识，增强立场检测的性能。本发明专利技术能够为主题信息在立场检测领域的应用提供理论基础和研究思路。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全，具体为一种基于主题增强的中文社交媒体少样本立场检测方法。

技术介绍

1、随着社交媒体的快速发展，人们对于不同目标发表的观点日益增长。立场检测是一项能够从观点文本中自动判断发表者对于给定目标态度的任务。这些态度通常为：支持、反对或中立。与情感分析领域对文本中的方面或实体的情绪进行检测不同，立场分析旨在挖掘人们对于特定目标的基本观点，该目标可能不会明确出现在文本中。通过立场检测研究，能够获取到公众对热门话题的立场倾向。

2、早期的立场检测工作主要集中于在线辩论，其检测方法包括基于手工特征的机器学习方法和基于主题特征的方法。而后，人们对在社交媒体上进行立场检测研究越来越感兴趣。近期的研究通常采用深度学习方法来对博文文本和立场目标进行建模。他们通常使用lstm(long short-term memory)、cnn(convolutional neural networks)、gru(gaterecurrent unit)和注意力网络来深度挖掘文本和目标的语义内容，并建立两者的联系。

3、同时，传统的立场检测任务都是针对中等大小的样本数据进行处理。然而，由于立场目标涉及的领域十分广泛，且随着时间的变化，新的目标层出不穷，为每个目标提供足够规模的标记数据是不现实的。最近的研究将提示学习应用于立场检测任务中来解决样本不足的问题以提高检测性能。同时大多数的研究都是针对英文社交媒体，而对中文社交媒体上的研究较少。因此，亟需一个能在少样本场景下自动化判定面向中文社交媒体文本的立场检测模型。

<br/>

技术实现思路

1、针对上述问题，本专利技术的目的在于提供一种基于主题增强的中文社交媒体少样本立场检测方法，在少样本场景能够更有效检测文本立场，且在样本量较少的时候有优秀的性能提升能力和泛化能力。技术方案如下：

2、一种基于主题增强的中文社交媒体少样本立场检测方法，包括以下步骤：

3、步骤1：对大规模语料进行清洗与预处理，通过目标语用权重算法提取出与目标高度相关的主题词；

4、步骤2：将主题词添加到分词器词典中进行汉语分词，再通过随机掩码预训练来构建基于词的多目标语料的预训练语言模型mt-bert(multi-target bert多目标bert)；

5、步骤3：进行主题词增强预训练，来加强模型对目标的感知能力，得到主题增强预训练模型；

6、步骤4：针对立场任务和情感任务构建不同的提示模板输入：将原始文本与提示模板后缀按照nsp(next sentence prediction下一句预测)任务的输入格式分为上下句，通过主题增强预训练模型获得立场信息嵌入向量和情感信息嵌入向量；

7、步骤5：通过基于提示学习的多任务立场检测模型，进行立场检测为主，情感分析为辅的分类任务，具体为：将立场信息嵌入向量和情感信息嵌入向量生成两个具有上下文关系的词向量，再两个词向量进行拼接，通过全连接层进行变换后提取出立场掩码向量，再通过点乘来衡量该掩码向量与不同立场标签向量之间的距离，最后利用softmax函数获得标签预测值。

8、进一步的，所述步骤1具体包括：

9、步骤1.1：将未标注语料与训练语料作为模型预训练的最终语料c，对语料c进行预处理，包括过滤人名、繁体中文转换为简体和删除网页链接操作；

10、步骤1.2：从语料c中识别一系列指向目标的关键主题词，所述主题词为在特定目标的立场表达中占据主导地位的词；

11、基于每个词w在当前目标语料库和其他目标语料库中出现的次数，来计算第k个词wk在当前目标下的语用权重α(wk)：

12、

13、

14、其中，代表词wk在当前目标语料的词频占所有语料词频的比重；εt(wk)代表词wk在当前目标语料下的词频，εo(wk)代表词wk在其他目标语料下的词频；和分别代表词频比重的最小值和最大值；

15、针对每个目标都提取出了一组主题词组：

16、

17、其中，vt表示当前目标的词表大小，t代表当前目标。

18、更进一步的，所述步骤2中，汉语分词具体过程如下：

19、步骤2.1：将提取出的主题词添加到词汇表v；在预分词过程中，使用带有自定义词典的jieba分词模块将句子s分割成词组；

20、步骤2.2：循环遍历词组中的词语，并确定词语是否被包含在词汇表v中；如果能够在v上找到，则保留这个词语，否则使用roberta的原生分词器再次分割短语；

21、步骤2.3：将所有分词结果进行拼接，形成最终的分词结果。

22、更进一步的，所述步骤3中，主题增强训练具体过程如下：

23、步骤3.1：对原始输入文本进行主题掩码嵌入，即判断每个token是否属于主题词组ot；如果属于主题词组ot，则将掩码的token进行替换，否则就判断下一个；

24、步骤3.2：掩码输入构建结束后根据多目标语料的预训练语言模型mt-bert的词汇表v进行token嵌入，并进行掩码语言模型任务，以提高主题词的语境权重。

25、更进一步的，所述步骤3.1中，限定掩码数量大小为原句大小的40％。即当原句中包含的主题词数量大于原句大小的40％时，将忽略超出的部分，而当主题数量小于原句的40％时，将采用随机掩码的策略来达成限定条件。

26、更进一步的，所述步骤4具体为：

27、设计一个描述中文立场检测任务的立场提示模板pt，以及描述情感分类任务的情感

28、提示模板ps，对于每一对输入x＝(text,target)，定义下面两种提示模板：

29、pt(text,target)＝[cls]＜text＞[sep]w1t,w2t,...,wit＜target＞wi+1t,wi+2t,...,wnt[mask][sep]

30、ps(text,target)＝[cls]＜text＞[sep]w1s,w2s,...,wls[mask][sep]

31、其中，[cls]、[sep]和[mask]为bert(bidirectional encoder representationfrom transformers双向transformer的编辑器)原始语料库的特定标识符；

32、从而得到立场信息嵌入向量tt＝[t1t,t2t,...,tnt]，将其作为立场检测任务的输入；并得到情感信息嵌入向量ts＝[t1s,t2s,...,tls]，将其作为情感分析的输入。

33、更进一步的，所述步骤5具体包括：

34、步骤5.1：通过词汇表将tt＝[t1t,t2t,...,tnt]和ts＝[t1s,t2s,...,tls]转换为id，并通过主题增强预训练模型进行编码，生成具有上下文关系的词向量ht＝[h1t,h2t,...,hnt]和hs＝[h1s,h2s,...,hls]；所述本文档来自技高网...

【技术保护点】

1.一种基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤2中，汉语分词具体过程如下：

4.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤3中，主题增强训练具体过程如下：

5.根据权利要求4所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤3.1中，限定掩码数量大小为原句大小的40％，即当原句中包含的主题词数量大于原句大小的40％时，将忽略超出的部分，而当主题数量小于原句的40％时，将采用随机掩码的策略来达成限定条件。

6.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤4具体为：

7.根据权利要求6所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤5具体包括：

...

【技术特征摘要】

1.一种基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤2中，汉语分词具体过程如下：

4.根据权利要求1所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤3中，主题增强训练具体过程如下：

5.根据权利要求4所述的基于主题增强的中文社交媒体少样本立场检测方法，其特征在于，所述步骤3.1中，限定掩码数量大小为原句大小的40％，即当原句中包含的主题词数量大于原句大小的40％...

【专利技术属性】
技术研发人员：王海舟，王森，陈兴蜀，周利均，张沛然，王文贤，唐瑞，柯亮，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人