当前位置: 首页 > 专利查询>山东大学专利>正文

一种使用基于方面的情感分析方法的舆情监控方法和系统技术方案

技术编号:24576555 阅读:66 留言:0更新日期:2020-06-21 00:27
本发明专利技术公开了一种使用基于方面的情感分析方法的舆情监控方法及系统,包括:构建爬取新闻评论的爬虫,爬取所需新闻及对应的评论信息;对新闻及对应的评论信息进行处理,包括去除停用词和对去除停用词后的句子进行分词;使用深度学习模型对处理后的信息进行基于方面的情感分析,分析出文本中的每个方面的情感;使用LDA主题分布模型,识别每条新闻文本的主题;对新闻文本的主题及新闻文本中的每个方面的情感进行统计。可以更细粒度的对新闻评论文本进行情感分析,可以判断新闻评论文本中每个方面的情感,对新闻评论文本的情感可以更准确的判断。

A method and system of public opinion monitoring using aspect based sentiment analysis

【技术实现步骤摘要】
一种使用基于方面的情感分析方法的舆情监控方法和系统
本专利技术属于深度学习领域和自然语言处理(NaturalLanguageProcessing))NLP领域,尤其涉及一种使用基于方面的情感分析方法的舆情监控方法和系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。快速发展的网络技术和快速增加的网民数量,互联网变成了散布言论、共享资源的平台,网络的舆情状况可以反映社会的种种形态,人民的心声以及社会当前动向的重要依据。近来,在网络上进行淫秽色情的传播、网络赌博、网上兜售违禁品、网络信息诈骗等违法行为,散布谣言,对党和政府恶意攻击等不法行为大量出现、持续蔓延,虚假信息对我们社会稳定和公共安全有着巨大的影响。互联网信息的重要特点是,更新迅速、信息量大、传播的范围非常广泛。很多违法的舆论信息的传播速度非常快,传播途径又很隐蔽隐蔽,为了解决这种情况,就需要舆情监控了。系统通过对网络上的信息监控,将信息采集技术和智能信息处理技术结合起来,通过网络上的海量信息的获取、分类和聚类、检测主题、聚焦专题,实现对本文档来自技高网...

【技术保护点】
1.一种使用基于方面的情感分析方法的舆情监控方法,其特征是,包括:/n构建爬取新闻评论的爬虫,爬取所需新闻及对应的评论信息;/n对新闻及对应的评论信息进行处理,包括去除停用词和对去除停用词后的句子进行分词;/n使用深度学习模型对处理后的信息进行基于方面的情感分析,分析出文本中的每个方面的情感;/n使用LDA主题分布模型,识别每条新闻文本的主题;/n对新闻文本的主题及新闻文本中的每个方面的情感进行统计,统计所有主题中消极评论最多的主题,然后将将相关新闻按照热度和消极情感的强度排序,将消极评论最多的主题和评论对该主题的消极的方面进行展示。/n

【技术特征摘要】
1.一种使用基于方面的情感分析方法的舆情监控方法,其特征是,包括:
构建爬取新闻评论的爬虫,爬取所需新闻及对应的评论信息;
对新闻及对应的评论信息进行处理,包括去除停用词和对去除停用词后的句子进行分词;
使用深度学习模型对处理后的信息进行基于方面的情感分析,分析出文本中的每个方面的情感;
使用LDA主题分布模型,识别每条新闻文本的主题;
对新闻文本的主题及新闻文本中的每个方面的情感进行统计,统计所有主题中消极评论最多的主题,然后将将相关新闻按照热度和消极情感的强度排序,将消极评论最多的主题和评论对该主题的消极的方面进行展示。


2.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法,其特征是,从待抓取的URL队列中,解析该网址的网页信息之后,判断该网页的新闻是否已经在数据库中,如果不在数据库中,将解析出来的数据存到数据库中;
如果该网页的新闻已经存在于数据库,判断评论是否在数据库中,如果不在数据库中,则在相应新闻后面添加相应的评论。


3.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法,其特征是,将从网页中解析出来的有效的URL存入待抓取队列中时:
定义一个map对象,其中key值存放URL,value值存放URL的状态,其中value值得取值是0和1,0代表该URL未解析,1表示该URL已经解析完毕;
在将网页解析出来的URL存入待抓取的队列中前,首先去map对象中,判断该URL是否存在,如果存在则不放入待抓取的URL队列中,如果不存在则放入待抓取的URL队列中,确保爬虫不会重复解析同一个URL页面。


4.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法,其特征是,对新闻及对应的评论信息进行处理:
遍历存储的新闻和评论,构建一个停用词的词典,去除新闻评论中对于任务无关的信息;
使用分词工具,对新闻和新闻评论文本进行分词,然后根据对应的规则去除分词不好的词;
然后将处理过的数据再次存储到数据库中。


5.如权利要求4所述的一种使用基于方面的情感分析方法的舆情监控方法,其特征是,对处理后的信息进行基于方面的情感分析,包括:
使用训练好的bert+crf模型对新闻文本进行方面的识别,识别出新闻文本评论中的表示方面的单词;
使用context-at...

【专利技术属性】
技术研发人员:郭伟姜涛鹿旭东崔立真
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1