System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于方面级情感分析的舆情监测方法、设备、存储介质技术_技高网

基于方面级情感分析的舆情监测方法、设备、存储介质技术

技术编号:41227835 阅读:2 留言:0更新日期:2024-05-09 23:45
本发明专利技术涉及一种基于方面级情感分析的舆情监测方法、设备、存储介质,方法包括如下步骤:获取预处理后的输入序列,提取所述输入序列中的所有候选实体,利用基于模板微调的BART模型,从所述候选实体中抽取方面词;以所述方面词的上下文和预先构建的问题作为输入,利用基于阅读理解的BART‑CRF模型抽取上下文中的观点词;以所述方面词和所述观点词作为输入,利用基于对比学习的BART模型输出情感极性、所述观点词和所述方面词形成的三元组,基于所述三元组实现舆情监测。与现有技术相比,本发明专利技术能够实现舆情的高效识别和监控。

【技术实现步骤摘要】

本专利技术涉及舆情监测,尤其是涉及一种基于方面级情感分析的舆情监测方法、设备、存储介质


技术介绍

1、当今互联网环境下信息传播的特点主要是信息量大、传播范围广、传播速度快。网民对某个话题所产生的负面评论可能会煽动其他网民也参与其中,从而产生舆情,舆情的生命周期一般分为引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期等。舆情如果不加管控传播速度非常迅速且难以管控,所产生的后果或者损失是难以估量的,因此,舆情处理手段最有效的手段是在舆情的引发期或酝酿期处理好舆情。

2、传统的情感分析方法通常是给出给定句子的情感极性,即消极或积极,但对于某些场景下句子级别的情感分析粒度是不够细致的,例如在:“这个产品倒是不错,就是营销员的态度太差了”一句中,传统的情感分析方法仅给出消极或积极的判定是不合适的。

3、在舆情分析领域,除人工分析方法外,主要有基于浅层机器学习方法以及基于深度学习的方法两种。浅层机器学习方法主要是利用浅层机器学习算法例如支持向量机(svm)等作为分类器对句子进行情感分类。深度学习方法中主要是使用以循环神经网络(rnn)作为基础网络模型进行建模并将待分类句子作为输入进行特征提取。

4、对于基于浅层机器学习的方法来说,需要事先手动设计大量特征,且传统机器学习算法提取效果不佳,特别是舆情分析这种需要识别方面词并根据上下文分析出其情感极性的复杂任务。在深度学习方法中使用循环神经网络进行特征提取的方法对于较长句子或者依赖于上下文语境进行分析的场景容易丢失长距离依赖信息,最终影响提取效果,且循环神经网络并未解决神经网络训练时容易出现的梯度消失与梯度爆炸问题。

5、综上,当前缺少一种舆情监测方法,已解决或部分解决前述问题。


技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于方面级情感分析的舆情监测方法、设备、存储介质,实现高效的舆情识别和监测。

2、本专利技术的目的可以通过以下技术方案来实现:

3、本专利技术的一个方面,提供了一种基于方面级情感分析的舆情监测方法,包括如下步骤:

4、获取预处理后的输入序列,提取所述输入序列中的所有候选实体,利用基于模板微调的bart模型,从所述候选实体中抽取方面词;

5、以所述方面词的上下文和预先构建的问题作为输入,利用基于阅读理解的bart-crf模型抽取上下文中的观点词;

6、以所述方面词和所述观点词作为输入,利用基于对比学习的bart模型输出情感极性、所述观点词和所述方面词形成的三元组,基于所述三元组实现舆情监测。

7、作为优选的技术方案,从所述候选实体中抽取方面词的过程包括:

8、针对所有候选实体,将各个候选实体填入预设的模板中,对bart模型进行微调;

9、利用微调后的bart模型计算各个候选实体的分值,选取分值最高的候选实体作为所述方面词,其中,所述分值基于候选实体的条件概率计算得到。

10、作为优选的技术方案,所述分值采用下式计算:

11、scorei,j=log p(tc|t1:c-1,x)

12、

13、其中,scorei,j表示输入序列终起止下标i,j的候选实体的分值,p(tc|t1:c-1,x)表示候选实体tc的条件概率,x为候选实体,为bart模型解码器部分的输出,wlm与blm为解码器的可训练参数矩阵。

14、作为优选的技术方案,所述模板包括实体模板和非实体模板,其中,所述非实体模板用于验证候选实体是否为命名实体。

15、作为优选的技术方案,所述观点词的抽取过程包括:

16、利用crf层计算各个标签序列的分值,并计算各个标签序列的概率,基于概率最大的标签序列抽取观点词。

17、作为优选的技术方案,所述预先构建的问题为:

18、q=c-a

19、其中,q为构建的问题,c为所述方面词对应的上下文,a为待抽取的观点词。

20、作为优选的技术方案,所述基于对比学习的bart模型采用基于对比学习的r-drop方法训练,通过计算输出分布之间的双向kl-散度更新基于对比学习的bart模型的参数。

21、作为优选的技术方案,基于所述三元组判断是否为负面信息,若是则更新所述方面词对应的负面信息数量,当所述方面词对应的负面信息数量超过预设值时发出预警。

22、本专利技术的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于方面级情感分析的舆情监测方法的指令。

23、本专利技术的另一个方面,提供了一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述基于方面级情感分析的舆情监测方法的指令。

24、与现有技术相比,本专利技术至少具有以下有益效果:

25、实现舆情的高效识别和监控:本申请基于bart模型,首先利用模板方法从输入序列中抽取方面词,然后以方面词的上下文和基于阅读理解构建的问题作为输入,利用crf抽取观点词,最后基于对比学习实现情感极性的分类,输出最终识别的方面词、观点词和情感极性三元组,为后续的处理做准备,相较于传统的方案,本申请具有更佳的提取效果。

本文档来自技高网...

【技术保护点】

1.一种基于方面级情感分析的舆情监测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,从所述候选实体中抽取方面词的过程包括:

3.根据权利要求2所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述分值采用下式计算:

4.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述模板包括实体模板和非实体模板,其中,所述非实体模板用于验证候选实体是否为命名实体。

5.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述观点词的抽取过程包括:

6.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述预先构建的问题为:

7.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述基于对比学习的BART模型采用基于对比学习的R-drop方法训练,通过计算输出分布之间的双向KL-散度更新基于对比学习的BART模型的参数。

8.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,基于所述三元组判断是否为负面信息,若是则更新所述方面词对应的负面信息数量,当所述方面词对应的负面信息数量超过预设值时发出预警。

9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于方面级情感分析的舆情监测方法的指令。

10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于方面级情感分析的舆情监测方法的指令。

...

【技术特征摘要】

1.一种基于方面级情感分析的舆情监测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,从所述候选实体中抽取方面词的过程包括:

3.根据权利要求2所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述分值采用下式计算:

4.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述模板包括实体模板和非实体模板,其中,所述非实体模板用于验证候选实体是否为命名实体。

5.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述观点词的抽取过程包括:

6.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其特征在于,所述预先构建的问题为:

7.根据权利要求1所述的一种基于方面级情感分析的舆情监测方法,其...

【专利技术属性】
技术研发人员:郑明明刘天毅银辉
申请(专利权)人:中国人寿保险股份有限公司新疆维吾尔自治区分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1