一种基于大数据技术的品牌舆情监测方法及系统技术方案

技术编号:38253750 阅读:8 留言:0更新日期:2023-07-27 10:18
本发明专利技术公开了一种基于大数据技术的品牌舆情监测方法及系统,其中,一种基于大数据技术的品牌舆情监测方法包括:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;对品牌舆情样本数据进行预处理;对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;利用训练后的品牌舆情监测模型进行舆情监测,并通过数据可视化工具实时呈现监测结果;本发明专利技术通过融合LSTM神经网络和残差网络,有效地降低样本数据标记的工作量和提高了模型识别准确率。标记的工作量和提高了模型识别准确率。标记的工作量和提高了模型识别准确率。

【技术实现步骤摘要】
一种基于大数据技术的品牌舆情监测方法及系统


[0001]本专利技术涉及舆情监测的
,尤其涉及一种基于大数据技术的品牌舆情监测方法及系统。

技术介绍

[0002]随着互联网技术的迅速发展,信息量大、类型繁多、价值密度低、速度快、时效高的大数据吸引了越来越多的关注目光,大数据带来的信息风暴正在改变我们的生活、工作和思维。毋庸讳言,與情服务在进行行业规范和整合的同时,正面临着大数据的挑战。
[0003]海量的网上信息难以掌控,大量相关性、偶发性因素使與情更加复杂多变,传统的舆情监测研判手段和方法难以奏效,新的技术手段和方法要求更高。网上数据无限性和网民关注能力有限性之间的矛盾,加剧了社会與论的“盲人摸象”效应。社会化媒体促进信息的开放和沟通的便捷,分众传播、个性化传播凸显,使偏激的观点更容易找到“同类”,从而相互支持、强化放大,加剧舆论偏激情绪。大数据时代各类数据随手可得,越来越多的机构、个人通过数据挖掘和分析得出的各种结论会不胫而走,有效管理舆情的难度不断加大。

技术实现思路

[0004]鉴于上述现有存在的问题,提出了本专利技术。
[0005]为解决上述技术问题,本专利技术提供如下技术方案,包括:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;对所述品牌舆情样本数据进行预处理,包括数据清洗和标记处理;对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。
[0006]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述预处理包括:利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。
[0007]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述特征提取包括:提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将所述第一特征矩阵进行卷积和下采样操作,获得特征矩阵。
[0008]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述降维包括:对所述特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对所述协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将所述中心化处理后的特征矩阵乘以所述基向量,获得降维后的特征矩阵。
[0009]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:
所述品牌舆情监测模型包括双向LSTM网络、残差网络和全连接层;所述双向LSTM网络包括第一LSTM网络和第二LSTM网络,分别通过所述第一LSTM网络和所述第二LSTM网络记忆降维后的特征矩阵的上文信息和下文信息;所述残差网络包括映射层、多个注意力机制层和激活层,通过所述映射层将第一LSTM网络和第二LSTM网络记忆的上文信息和下文信息等维映射到所述注意力机制层,而后通过激活层的Hard

sigmoid激活函数计算第一LSTM网络和第二LSTM网络输出的上文信息和下文信息被分配到各个注意力机制层的权重,形成概率分布,并输入至所述全连接层,所述全连接层通过Hard

sigmoid激活函数获得监测结果。
[0010]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:所述第一LSTM网络和第二LSTM网络包括:所述第一LSTM网络包括输入门、遗忘门、输出门和ReLU层;所述第一LSTM网络包括输入门、遗忘门、输出门和LeakyReLU层。
[0011]作为本专利技术所述的基于大数据技术的品牌舆情监测方法的一种优选方案,其中:训练包括:步骤1:从未标记样本对应的降维后的特征矩阵上随机选取d个示例样本;步骤2:分别利用正面舆情样本和负面舆情样本对应的降维后的特征矩阵集合训练出第一分类器和第二分类器;步骤3:利用第一分类器对所述示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到负面舆情样本对应的降维后的特征矩阵集合中;步骤4:利用第二分类器对所述示例样本进行标记,从中选出置信度高的n个正面舆情样本和m个负面舆情样本,加入到正面舆情样本对应的降维后的特征矩阵集合中;步骤5:步骤2~步骤4进行g次迭代,输出最优的分类器,即训练后的品牌舆情监测模型。
[0012]作为本专利技术所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:数据采集模块,被配置为执行通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;数据预处理模块,被配置为执行对所述品牌舆情样本数据进行预处理,包括数据清洗和标记处理;特征处理模块,被配置为执行对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;模型训练模块,被配置为执行利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;舆情监测模块,被配置为执行利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。
[0013]作为本专利技术所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:所述数据预处理模块,具体被配置为执行利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。
[0014]作为本专利技术所述的基于大数据技术的品牌舆情监测系统的一种优选方案,其中:所述特征处理模块,具体被配置为执行提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将所述第一特征矩阵进行卷积和下采样操作,获得特征矩阵;对所述特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对所述协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将所述中心化处理后的特征矩阵乘以所述基向量,获得降维后的特征矩阵。
[0015]本专利技术的有益效果:通过融合LSTM神经网络和残差网络,能够快速准确地识别品牌舆情类别,同时通过半监督学习算法对品牌舆情监测模型进行训练,有效地降低样本数
据标记的工作量和提高了模型识别准确率。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据技术的品牌舆情监测方法,其特征在于,包括:通过爬虫技术从社交媒体、论坛、博客和新闻中收集品牌舆情样本数据;对所述品牌舆情样本数据进行预处理,包括数据清洗和标记处理;对预处理后的品牌舆情样本数据进行特征提取,并对提取的特征矩阵进行降维处理;利用降维后的特征矩阵进行品牌舆情监测模型进行半监督训练,直至达到迭代训练次数后停止训练;利用训练后的品牌舆情监测模型进行舆情监测,从而自动识别正面舆情和负面舆情,并通过数据可视化工具实时呈现监测结果。2.如权利要求1所述的基于大数据技术的品牌舆情监测方法,其特征在于,所述预处理包括:利用Jieba库进行数据清洗,而后将50%的品牌舆情样本数据分别标记为正面舆情样本和负面舆情样本,剩余的50%的品牌舆情样本数据标记为未标记样本。3.如权利要求2所述的基于大数据技术的品牌舆情监测方法,其特征在于,所述特征提取包括:提取品牌舆情样本数据的多层语义特征,并根据预设的采样率,对多层语义特征先后进行下采样和上采样操作,获得第一特征矩阵;将所述第一特征矩阵进行卷积和下采样操作,获得特征矩阵。4.如权利要求3所述的基于大数据技术的品牌舆情监测方法,其特征在于,所述降维包括:对所述特征矩阵进行中心化处理,并计算中心化处理后的特征矩阵的协方差矩阵;对所述协方差矩阵进行特征分解,得到特征值和其对应的特征向量;根据特征值的大小进行排序,取前k个特征值对应的特征向量作为基向量;将所述中心化处理后的特征矩阵乘以所述基向量,获得降维后的特征矩阵。5.如权利要求3或4所述的基于大数据技术的品牌舆情监测方法,其特征在于,所述品牌舆情监测模型包括双向LSTM网络、残差网络和全连接层;所述双向LSTM网络包括第一LSTM网络和第二LSTM网络,分别通过所述第一LSTM网络和所述第二LSTM网络记忆降维后的特征矩阵的上文信息和下文信息;所述残差网络包括映射层、多个注意力机制层和激活层,通过所述映射层将第一LSTM网络和第二LSTM网络记忆的上文信息和下文信息等维映射到所述注意力机制层,而后通过激活层的Hard

sigmoid激活函数计算第一LSTM网络和第二LSTM网络输出的上文信息和下文信息被分配到各个注意力机制层的权重,形成概率分布,并输入至所述全连接层,所述全连接层通过Hard

sigmoid激活函数获得监测结果。6.如权利要求5所述的基于大数据技术的品牌舆情监测方法,其特征在于,所述第一LSTM网络和第二LSTM网络包括:所述第一LS...

【专利技术属性】
技术研发人员:陈庆
申请(专利权)人:南京特尔顿信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1