基于主题信息增强的弱监督方面类别检测方法技术

技术编号:34491606 阅读:63 留言:0更新日期:2022-08-10 09:10
本发明专利技术涉及基于主题信息增强的弱监督方面类别检测方法,属于自然语言处理技术领域。面向产品评论的方面类别检测,需要人工映射方面词与方面类别之间的关系,人工的介入极大的影响了方面识别的性能,对此本发明专利技术利用主题聚类自动选取句子向量,让更靠近相应主题的句子向量参与训练,以减少噪声数据对模型的影响;然后,为了更好的表征句子向量,弥补短文本缺乏的信息,利用主题信息为句子进行数据增强。在Restaurant和Amozon两个产品评论数据集的方面类别检测的实验结果表明,本发明专利技术提出的融合主题信息的弱监督方面类别检测方法是有效的。的。的。

【技术实现步骤摘要】
基于主题信息增强的弱监督方面类别检测方法


[0001]本专利技术涉及基于主题信息增强的弱监督方面类别检测方法,属于自然语言处理


技术介绍

[0002]面向产品评论的方面类别检测是自然语言处理的关键问题之一。随着信息化进程的推进,互联网上产生了海量的质量与风格参差不齐的产品评论数据,从中准确获取评价对象及对应用户观点难上加难。面向产品评论的方面类别检测是挖掘用户评价对象的一种重要技术,是进行方面级情感分析的关键前置任务,该任务旨在对产品评论段进行分析,识别出其中包含的评价对象所属的类别。面向产品评论的方面类别检测(Aspect Classification Detection)的具体任务为:检测评论句子属于哪个预定义的类别,其中预定义类别可能没有明确的在句子中出现,例如,给定句子“The rice is very chewy”,应该提取“Food”作为方面类别。方面类别检测有两个优势:1)ACD检测出的类别往往是多个方面项的集合,因此,ACD的检测结果可以看作是一个综合的预测,更加简洁的表达意见目标。2)ACD即使在句子中没有明确提到意本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下:Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类,通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签,由此得到伪标签数据,通过聚类还能得到每个评论段对应的主题信息;Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集,相比步骤Step1得到的伪标签数据,该伪标签的子集置信度更高;Step3、找出给定句子与类别之间的相似度,对于每个类别,将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值;Step4、将语料库主题信息与预先训练的文本特征融合,将句子和其对应的类别信息编码,进行句子表征增强;Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强,用于训练分类器。2.根据权利要求1所述的基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述Step1中,首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息;通过主题建模获得对应数据集的域内信息,包括对应产品评论属于相应类别的概率和每个类别的主题信息,即主题词,将评论段r
i
={t1,t2,...,t
n
}传递给主题模型,以推断产品评论所属类别及其对应的主题信息,具体计算过程如公式(1)、(2)所示;P
c
=TopicModel(t1,t2,...,t
n
)∈R
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)W
c
=TopicModel(t1,t2,...,t
n
)∈R
T
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中T表示主题数量,R
T
表示评论句子的向量,P
c
为主题的归一化权值,其中每个权值表示输入评论句子属于某个主题的概率,W
c
表示某个主题最具代表性的主题词。3.根据权利要求1所述的基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述Step2中,将产品评论输入BERT时,在首部加入[CLS]标识,在句子A和句子B之间加入[SEP]作为分隔符号,然后,取[CLS]的输出即完成两个句子的相似度计算。4.根据权利要求1所述的基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述Step3中,筛选伪标签的...

【专利技术属性】
技术研发人员:相艳刘威余正涛施敬磊
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1