【技术实现步骤摘要】
基于对比学习的自监督舆情评论观点对象分类方法
[0001]本专利技术涉及基于对比学习的自监督舆情评论观点对象分类方法,属于自然语言处理
技术介绍
[0002]由于新闻极易在网络上迅速引起公众注意,并对新闻发表意见,造成舆论传播发酵,新闻评论摘要有助于相关部门把控全局,全面了解舆情动向,其中将全部评论按观点对象进行分类,是评论摘要的关键步骤。观点对象分类这一任务对信息化平台建设具有重要作用,利于相关工作人员了解案件新闻评论关注的主体并有效地检索他们感兴趣方面的全部评论部分,对领域舆情分析的下游任务方面级观点摘要和属性级评论情感分析具有重要意义。
[0003]微博评论观点对象分类任务具有以下两个特点:一是讽刺句和显示情感句表达相似,意思相反,在缺少背景的前提下很难判别;二是微博评论内容不仅与其对应微博正文相关,也与同一个案件的其他微博正文相关。微博在描述同一个案件中,存在多个不同表达的微博正文,这些同一案件的微博正文一起能表征完整案件,构成一个对案件的完整描述。从获取的舆情数据中检测出讽刺句,能正确地引导舆情, ...
【技术保护点】
【技术特征摘要】
1.基于对比学习的自监督舆情评论观点对象分类方法,其特征在于:所述方法的具体步骤如下:Step1、通过爬虫技术爬取近年来多个涉及到案件的微博评论,并对数据进行清洗过滤;Step2、利用Word2Vec对新闻微博评论训练词向量,通过K
‑
means对词向量进行聚类初始化方面向量;引入注意力机制获得微博评论句向量表征和评论句方面表征,对评论句的这两种向量表征构建正负例,分别计算余弦相似度,计算正例的对比损失函数,模型推断及映射评论句子到观点对象类别中。2.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法,其特征在于:所述Step1的具体步骤为:Step1.1、采用基于Scrapy框架的爬虫爬取热点案件的评论;Step1.2、对微博正文及评论进行过滤筛选,过滤筛选的方式如下所示:(1)、删除微博评论里“回复@+用户名”的结构,且删除无关超链接广告(2)、根据标点符号进行分句后去除标点符号,利用jieba分词工具进行分词,并去停止词;(3)、删除微博评论中的表情符号;Step1.3、人工标注微博评论观点对象分类数据集
‑
测试集和验证集:对每一条微博评论进行标注,属于某机构,标注为1;属于某名称,标注为2;属于当事人,标注为3;属于其他,标注为4。3.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法,其特征在于:所述Step2的具体步骤如下:Step2.1、对微博评论引入注意力机制,使其能够关注句子中词级更关键信息,得到引入注意力机制的评论s
x,E
;;其中,w
t
表示评论句子中的单词,t∈[0,T
‑
1],T表示微博评论句子的最大长度,q为一个评论句平均词向量,在此处为查询向量,λ表示平滑系数,W
E
为参数矩阵,b
E
是偏置项,是训练参数,u
t
是单词级上下文向量,α
t
为评论句中单词的权重矩阵,x表示评论句子,E表示单词嵌入空间矩阵,s
x,E
为加权求和的评论句向量,E∈R
V*M
,V为词表大小;Step2.2、由K
‑
means簇心初始化方面向量矩阵A,将方面映射到单词嵌入空间矩阵E;A与E计算相似矩阵G后推断出句子最具代表性的前若干个关键词来表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。