【技术实现步骤摘要】
一种基于大数据及自然语言处理的多维度舆情推荐方法
[0001]本专利技术涉及数据处理
,特别涉及一种基于大数据及自然语言处理的多维度舆情推荐方法。
技术介绍
[0002]在大数据时代,互联网上存在海量的数据,对于海量的数据如何进行舆情推荐是现在企业的重要研究议题。常见的舆情推荐处理技术有简单正则表达式规则采集过滤、文本的模式匹配、情感分析、文本相似度等,但是,现有基于规则匹配或者纯粹关键词匹配的推荐技术存在的准确率低。
[0003]因此,现有技术存在缺陷,需要改进。
技术实现思路
[0004]本专利技术的主要目的是提出一种基于大数据及自然语言处理的多维度舆情推荐方法,旨在使用户快速获取符合要求的高质量舆情信息,提高舆情分析的效率。
[0005]为实现上述目的,本专利技术提出的一种基于大数据及自然语言处理的多维度舆情推荐方法,包括如下步骤:
[0006]S1:利用互联网爬虫技术爬取互联网舆情数据,并将爬取的数据保存到数据库mysql中;
[0007]S2:采用大数据技术实时 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据及自然语言处理的多维度舆情推荐方法,其特征在于,包括如下步骤:S1:利用互联网爬虫技术爬取互联网舆情数据,并将爬取的数据保存到数据库mysql中;S2:采用大数据技术实时采集技术Flink cdc,实时从mysql中读取全量和增量数据,从网页内容提取网页的主题、内容、发布日期,保存到大数据集群Hive数据库中;S3:从关键词表中读取用户设定的多种关键词匹配方法,按照模式匹配的方法,解析每种关键词匹配方法,与Hive数据中每条记录的内容做匹配;只要符合其中一种,即可认为该内容符合关键词匹配,将匹配到的数据保存到清洗的结果数据库中;S4:进行舆情打分,包括舆情分类打分、舆情关键词打分、舆情媒体打分,并将舆情分类得分值、舆情关键词得分值、舆情媒体得分值通过算法公式进行计算,得到舆情总评分;算法公式为S=(λ1*S
c
+λ2*S
ky
)*S
m
其中,S为舆情总评分,S
C
为舆情分类得分值,S
ky
为舆情关键词得分值,S
m
为舆情媒体得分值,λ1为舆情分类的权值系数,λ2为舆情关键词的权值系数;将分数划分为阶梯区间,S1,S2为舆情重要程度阈值;S5:将舆情总评分、舆情分类类别等维度进行筛选排序进行结果推荐;使用舆情分类类别将推荐数据进行筛选,使用总评分进行排序,推荐给前端展示。2.如权利要求1所述的基于大数据及自然语言处理的多维度舆情推荐方法,其特征在于,步骤S1中,存储的数据结构包括日期、网页的URL、网页内容。3.如权利要求1所述的基于大数据及自然语言处理的多维度舆情推荐方法,其特征在于,舆情分类打分具体包括:通过深度学习技术,将文本内容进行多分类操作;使用数据标注软件对分类数据进行标注,对每一条数据都进行数据标注得到分类训练数据;选择分类模型设置不同参数对分类训练数据进行模型训练;将分类模型进行部署,可以部署为一个推理接口,对舆论文本进行预测,接口会返回一个分类的类别与该类别的概率;将预测后的舆情文本类别、类别概率中筛选概率高于一个设定阈值的文本及标签作为以后优化分类模型的训练数据;使用S
C
=S
ci
*P
c
计算...
【专利技术属性】
技术研发人员:夏超,贺鹏,周嘉宜,张杰,黄友汉,倪安,
申请(专利权)人:深圳市东晟数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。