System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于在线新闻内容表征的情感分析方法及装置制造方法及图纸_技高网

一种基于在线新闻内容表征的情感分析方法及装置制造方法及图纸

技术编号:40597692 阅读:4 留言:0更新日期:2024-03-12 22:00
本发明专利技术涉及一种基于在线新闻内容表征的情感分析方法及装置,所述方法包括:使用网络爬虫实时地获取新闻内容,得到原始新闻数据;对原始新闻数据进行情感标注,得到原始新闻的情感数据;对原始新闻数据进行数据预处理,得到摘要、主体、结论和其它信息四个内容数据;对所述四个内容数据分别进行内容表征提取,得到摘要内容表征、主体内容表征、结论内容表征和其他信息内容表征四个内容表征;对所述四个内容表征进行内容表征融合,得到融合内容表征;以融合内容表征作为训练数据,以原始新闻的情感数据作为标签,对神经网络进行训练,得到训练完成的神经网络;使用训练完成的神经网络对待分析的新闻数据进行情感分析。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种基于在线新闻内容表征的情感分析方法及装置


技术介绍

1、随着社交平台广泛流行,在网络上获取信息并表达情感的用户越来越多,在新闻、微博、博客等平台上相应地产生大量文本信息。针对大量且富有情绪表达的文本信息,通过探索他们潜在的价值可以为人们服务。面对浩如烟海的新闻信息,精确识别蕴藏在其中的情感倾向,对舆情有效监控、预警及疏导,对舆情生态系统的良性发展有着重要的意义。

2、现有情感分析主要有基于传统机器学习的方法和基于情感词典的方法。基于传统机器学习的情感分析方法是将文本表征化,使用随机森林、线性回归等分类算法,使用大量人工标注样本,训练模型并分类文本,预测类别为文章的情感倾向类别。基于传统机器学习的情感分析方法,依赖大量的训练标注语料,需要大量的人工标注。由于各个平台在线新闻的丰富表达形式,往往具有不同的文本表征,单一模型不能获得很好的模型性能。

3、基于情感词典的情感分析方法是通过人工构建情感字典,使用字典的词的类别与文章中的词匹配,统计不同类别词的出现次数,得到文章在每个情感类别下的最终分数,最大得分的情感类别作为该文章的情感倾向类别。基于情感词典的方法需要人工构建词典,依赖业务经验的专家构建规则,这种方法更加耗时耗力。此外,基于情感词的标注方法,缺失大量的语义信息,不能准确识别到词典未覆盖到的情感正负倾向。

4、然而,上述现有技术存在如下技术缺陷:

5、(1)现有关于新闻的情感分析方法,缺少新闻获取的在线更新过程。因此,新闻的情绪分析具有一定滞后性,反映用户情感变化不及时。

6、(2)现有关于新闻的情感分析方法,对于长文本新闻的建模能力弱。因此,难以准确地、有效地进行长文本新闻的情感分析。


技术实现思路

1、本专利技术的目的是提供一种基于在线新闻内容表征的情感分析方法及装置,旨在通过实时获取在线新闻,构造一种基于多模块特征融合的在线新闻情感分析模型,从而能够有效提升对于长文本新闻的情感分析预测准确率。

2、第一方面,提供了一种基于在线新闻内容表征的情感分析方法,包括:

3、使用网络爬虫实时地获取新闻内容,得到原始新闻数据;

4、对原始新闻数据进行情感标注,得到原始新闻的情感数据;

5、对原始新闻数据进行数据预处理,得到摘要、主体、结论和其它信息四个内容数据,其中,所述其它信息为除摘要、主体和结论以外的所有数据的集合;

6、对所述四个内容数据分别进行内容表征提取,得到摘要内容表征、主体内容表征、结论内容表征和其他信息内容表征四个内容表征;

7、对所述四个内容表征进行内容表征融合,得到融合内容表征;

8、以融合内容表征作为训练数据,以原始新闻的情感数据作为标签,对神经网络进行训练,得到训练完成的神经网络;

9、使用训练完成的神经网络对待分析的新闻数据进行情感分析。

10、在一种可能的实施方式中,所述对原始新闻数据进行情感标注,使用人工标注或情感标注工具进行情感标注。

11、在一种可能的实施方式中,所述对原始新闻数据进行数据预处理的方法,还包括:

12、去除原始新闻数据中的非文本数据,得到纯文本新闻数据,其中,所述非文本数据包括图片、表格、文本格式信息;

13、去除纯文本新闻数据中的噪声信息,得到去噪新闻数据,其中,所述噪声信息包括广告信息、重复信息;

14、将去噪新闻数据划分为摘要、主体、结论和其它信息四个内容数据。

15、在一种可能的实施方式中,所述对所述四个内容数据分别进行内容表征提取的方法,还包括:

16、使用摘要编码器对摘要进行编码,得到摘要内容表征;

17、使用主体编码器对主体进行编码,得到主体内容表征;

18、使用结论编码器对结论进行编码,得到结论内容表征;

19、只用其它信息编码器对其它信息进行编码,得到其它信息内容表征;

20、其中,所述摘要编码器、主体编码器、结论编码器和其它信息编码器为结构相同的编码器。

21、在一种可能的实施方式中,所述对所述四个内容表征进行内容表征融合的方法,还包括:

22、将所述四个内容表征输入到训练完成的内容表征融合网络中,得到融合内容表征。

23、在一种可能的实施方式中,对所述内容表征融合网络的训练方法,还包括:

24、对所述四个内容数据分别进行情感标注,得到摘要情感、主体情感、结论情感和其他信息情感四个情感标签;

25、以所述四个内容表征数据作为训练数据,以所述四个情感标签作为标签,使用反向传播算法对神经网络进行训练,得到训练完成的内容表征融合网络。

26、在一种可能的实施方式中,所述对所述四个内容数据分别进行情感标注,使用人工标注或情感标注工具进行情感标注。

27、第二方面,提供了一种基于在线新闻内容表征的情感分析装置,包括:

28、数据获取单元,用于使用网络爬虫实时地获取新闻内容,得到原始新闻数据;情感标注单元,用于对原始新闻数据进行情感标注,得到原始新闻的情感数据;预处理单元,用于对原始新闻数据进行数据预处理,得到摘要、主体、结论和其它信息四个内容数据,其中,所述其它信息为除摘要、主体和结论以外的所有数据的集合;内容表征提取单元,用于对所述四个内容数据分别进行内容表征提取,得到摘要内容表征、主体内容表征、结论内容表征和其他信息内容表征四个内容表征;内容表征融合单元,用于对所述四个内容表征进行内容表征融合,得到融合内容表征;模型训练单元,用于以融合内容表征作为训练数据,以原始新闻的情感数据作为标签,对神经网络进行训练,得到训练完成的神经网络;情感分析单元,用于使用训练完成的神经网络对待分析的新闻数据进行情感分析。

29、本专利技术提出的一种基于在线新闻内容表征的情感分析方法及装置,拥有以下优势:本专利技术通过使用基于多模块特征融合的在线新闻情感分析方法,有效地提升了对于长文本新闻的情感分析预测准确率。通过使用多模块在线新闻情感分析数据集构建及更新方法,通过对在线新闻的有效划分,有效地收集、预处理在线新闻;通过在线新闻的更新模块,及时地建模、反映用户情感变化。通过使用在线新闻内容表征的提取及融合方法,有效地建模、表示在线新闻的内容表征。

本文档来自技高网...

【技术保护点】

1.一种基于在线新闻内容表征的情感分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对原始新闻数据进行情感标注,使用人工标注或情感标注工具进行情感标注。

3.根据权利要求1所述的方法,其特征在于,所述对原始新闻数据进行数据预处理的方法,还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述四个内容数据分别进行内容表征提取的方法,还包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述四个内容表征进行内容表征融合的方法,还包括:

6.根据权利要求5所述的方法,其特征在于,对所述内容表征融合网络的训练方法,还包括:

7.根据权利要求6所述的方法,其特征在于,所述对所述四个内容数据分别进行情感标注,使用人工标注或情感标注工具进行情感标注。

8.一种基于在线新闻内容表征的情感分析装置,包括:

【技术特征摘要】

1.一种基于在线新闻内容表征的情感分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对原始新闻数据进行情感标注,使用人工标注或情感标注工具进行情感标注。

3.根据权利要求1所述的方法,其特征在于,所述对原始新闻数据进行数据预处理的方法,还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述四个内容数据分别进行内容表征提取的方法,还包...

【专利技术属性】
技术研发人员:赵永国杨荣霞李站杨凯杜美华钱林钧
申请(专利权)人:南方电网大数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1