System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于传播链路的舆情分级预警方法及系统技术方案_技高网

一种基于传播链路的舆情分级预警方法及系统技术方案

技术编号:40949372 阅读:4 留言:0更新日期:2024-04-18 20:23
本发明专利技术公开了一种基于传播链路的舆情分级预警方法及系统,涉及信息处理技术领域,包括以下步骤:数据采集模块采集初始数据及相关联的评论内容数据,并进行数据预处理;通过分级预警模型对采集到的数据进行数据的情感层次判定,获得负面舆情数据;根据建立的企业画像,判定负面舆情数据的对象;根据传播模型进行数据分析,获得负面舆情数据的传播链路,并进行影响力分值计算;根据传播模型进行数据分析,获得负面舆情数据的传播链路,并进行影响力分值计算;本方案根据舆情影响力对舆情进行分级预警,提高用户的体验。

【技术实现步骤摘要】

本专利技术涉及信息处理,具体涉及一种基于传播链路的舆情分级预警方法及系统


技术介绍

1、目前对负面网络舆情的预警能力已经十分普遍,通常是根据情感向性关键词库,对数据进行情感分析,然后进行舆情的预警通知。但是对于预警信息进行分级提醒还很少。提供的预警通知因为只是简单的进行关键词和指标触发,导致用户会收到大量的提醒消息,实际使用体验较差。

2、如中国专利cn110347830a,公开日2019年10月18日,本专利技术提供一种舆情预警的实现方法,包括:从舆情信息源获取待判定舆情数据;将待判定舆情数据输入训练后的任务模型,根据训练后任务模型的输出确定是否发出预警;所述任务模型为分类模型,其输入为文本,输出包括对是否发生舆情的预测;所述任务模型按照完成预训练的语言模型进行初始化,采用有标记的样本舆情数据进行训练;所述语言模型与任务模型除归一化softmax层以外具有相同的结构,其输出为对输入文本的下文的预测;所述语言模型采用无标记文本数据进行预训练。该方法未对舆情进行分级,所有舆情采取统一的方式进行通知,提醒消息众多,并且用户无法对重要的舆情进行及时反应。


技术实现思路

1、本专利技术要解决的技术问题是:现有技术并未对舆情进行分级预警,从而产生大量提醒消息,用户使用体验极差的技术问题。提出了一种基于传播链路的舆情分级预警方法及系统,对舆情进行分级预警。

2、为解决上述技术问题,本专利技术所采取的技术方案为:一种基于传播链路的舆情分级预警方法,包括以下步骤:

3、s1:数据采集模块采集初始数据及相关联的评论内容数据,并进行数据预处理;

4、s2:通过分级预警模型对采集到的数据进行数据的情感层次判定,获得负面舆情数据;

5、s3:根据建立的企业画像,判定负面舆情数据的对象;

6、s4:根据传播模型进行数据分析,获得负面舆情数据的传播链路,并进行影响力分值计算;

7、s5:根据影响力分值判定负面舆情数据等级,并对相关企业进行不同等级的预警通知。

8、一种基于传播链路的舆情分级预警方法,通过对数据采集模块采集到的采集初始数据及相关联的评论内容数据进行预处理,然后对预处理的数据进行数据情感分析和数据正负面判定,区分出负面舆情数据,然后对负面舆情数据进行企业匹配,判断负面舆情数据属于哪家企业,接着计算负面舆情数据的影响力等级,根据影响力等级对负面舆情数据进行分级处理,根据相应的等级,采取不同的方式通知相关企业。

9、作为优选,对历史数据进行训练构建所述分级预警模型,所述分级预警模型构建过程如下所示:搭建nlp平台;采用中文评论情感分析语料和中文评价对象级情感分析语料作为情感分析数据集;将数据集加载到nlp平台;利用nlp平台内的预训练模型对数据集进行训练,形成分级预警模型。分级预警模型主要通过nlp平台内置的ernie、bert、roberta、electra预训练模型构建,并通过分级预警模型对采集到的数据进行情感分析。

10、作为优选,负面舆情数据的判断包括以下内容:搭建nlp平台;将行业收集的所有正负面词汇加载到nlp平台;通过tokenizer引擎对加载的正负面词汇进行权重值确认,形成预训练模型并训练;根据预训练模型进行正负面结果参数计算;计算公式为:正负面结果参数=数量num*权重weights;根据正负面结果参数判断采集到的数据是否为负面舆情数据,若正负面结果参数大于阈值,则判定采集到的数据为负面舆情数据。通过nlp平台,使用flashtext算法,判断文章数据的正负面情感层次。

11、作为优选,所述步骤s4中的数据分析包括相似度计算,具体过程如下所示:通过大数据flink流式处理引擎对采集到的数据进行切割,提取文本数据前300个文字;通过jieba分词器对切割后的数据进行分词,获取频率最高的20个词汇和它们出现的次数;通过simhash算法计算分词结果的hash值,统计计算结果的hanming距离;将距离小于0.3的标记为相似,并计算相似度;选取相似度最高且超过相似度阈值的历史舆情数据进行追踪,形成舆情传播链路。使用nlp预训练模型集,利用开放的数据相似度模型,通过历史数据对模型进行训练,不断提高模型在近义词、相似度等方面的识别,得到一个完整的相似度分析算法,通过模型训练获得的相似度分析算法,分析文章数据与历史舆情数据的相似度。

12、作为优选,所述影响力分值的计算公式如下所示:影响力分值=a*发布指数+b*阅读指数+c*互动指数,其中,a、b、c分别为影响因子各自的权重系数。根据媒体平台的发布指数、阅读指数、互动(评论、赞/踩、分享等)指数进行计算生成最终的传播影响力值。

13、作为优选,根据平台情况将平台分为三个等级,发布指数的计算公式如下:

14、发布指数=a*ln(一级发布量+1)+b*ln(二级发布量+1)+c*ln(三级发布量+1)

15、阅读指数的计算公式如下:

16、阅读指数=d*ln(一级平台阅读量+1)+e*ln(二级平台阅读量+1)+f*ln(三级平台阅读量+1)

17、互动指数的计算公式如下:

18、互动指数=g*ln(一级平台评论量+二级平台评论量+三级平台评论量+1)+h*ln(一级平台赞/踩量+二级平台赞/踩量+三级平台赞/踩量+1)+i*ln(一级平台分析量+二级平台分析量+三级平台分析量+1)

19、其中:a、b、c、d、e、f、g、h、i分别为影响因子各自的权重系数。根据发布平台的平台归属、用户体量、影响范围等情况,划分为一级、二级和三级。

20、作为优选,所述数据预处理包括以下步骤:对采集到的数据根据来源网址进行数据去重处理;检测采集到的数据中是否含有脏数据,若含有脏数据,则对采集算法进行维护更新。根据采集数据的来源网址进行数据去重处理,提高数据的可用率。

21、作为优选,所述企业画像根据用户企业全称和企业代称进行构建。根据用户企业全称、简称以及网络代称进行企业的画像构建。

22、作为优选,所述数据采集模块通过搜索采集和固定栏目采集两种方式进行数据采集,所述搜索采集通过大型商业搜索引擎进行全网搜索采集,通过所述固定栏目采集所在平台的内部搜索系统。根据用户的数据需求,经过提炼整合后,设置相应的关键词进行内容检索,作为定点监测的补充,确保数据采集的全面性。

23、一种基于传播链路的舆情分级预警系统,包括数据采集模块,所述数据采集模块与数据处理和分析模块连接,所述数据处理和分析模块与舆情预警模块连接。

24、一种基于传播链路的舆情分级预警系统,数据采集模块实现新闻媒体、地方论坛、社交平台、自媒体平台等内容平台的数据采集,获得初始数据及相关联的评论内容数据,数据处理和分析模块对采集的原始数据进行持久化形成舆情数据,通过对数据的加工、聚合、变换、存储、标签、分类、分析等操作,从大量的、可能是杂乱无章的、难以理解的数据中抽本文档来自技高网...

【技术保护点】

1.一种基于传播链路的舆情分级预警方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,对历史数据进行训练构建所述分级预警模型,所述分级预警模型构建过程如下所示:搭建NLP平台;采用中文评论情感分析语料和中文评价对象级情感分析语料作为情感分析数据集;将数据集加载到NLP平台;利用NLP平台内的预训练模型对数据集进行训练,形成分级预警模型。

3.根据权利要求2所述的一种基于传播链路的舆情分级预警方法,其特征在于,负面舆情数据的判断包括以下内容:搭建NLP平台;将行业收集的所有正负面词汇加载到NLP平台;通过Tokenizer引擎对加载的正负面词汇进行权重值确认,形成预训练模型并训练;根据预训练模型进行正负面结果参数计算;计算公式为:正负面结果参数=数量num*权重Weights;根据正负面结果参数判断采集到的数据是否为负面舆情数据,若正负面结果参数大于阈值,则判定采集到的数据为负面舆情数据。

4.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述步骤S4中的数据分析包括相似度计算,具体过程如下所示:通过大数据flink流式处理引擎对采集到的数据进行切割,提取文本数据前300个文字;通过jieba分词器对切割后的数据进行分词,获取频率最高的20个词汇和它们出现的次数;通过simhash算法计算分词结果的hash值,统计计算结果的hanming距离;将距离小于0.3的标记为相似,并计算相似度;选取相似度最高且超过相似度阈值的历史舆情数据进行追踪,形成舆情传播链路。

5.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述影响力分值的计算公式如下所示:影响力分值=A*发布指数+B*阅读指数+C*互动指数,其中,A、B、C分别为影响因子各自的权重系数。

6.根据权利要求5所述的一种基于传播链路的舆情分级预警方法,其特征在于,根据平台情况将平台分为三个等级,发布指数的计算公式如下:

7.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述数据预处理包括以下步骤:对采集到的数据根据来源网址进行数据去重处理;检测采集到的数据中是否含有脏数据,若含有脏数据,则对采集算法进行维护更新。

8.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述企业画像根据用户企业全称和企业代称进行构建。

9.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述数据采集模块通过搜索采集和固定栏目采集两种方式进行数据采集,所述搜索采集通过大型商业搜索引擎进行全网搜索采集,通过所述固定栏目采集所在平台的内部搜索系统。

10.一种基于传播链路的舆情分级预警系统,利用如权利要求1至9所述的任一一种基于传播链路的舆情分级预警方法,其特征在于,包括数据采集模块,所述数据采集模块与数据处理和分析模块连接,所述数据处理和分析模块与舆情预警模块连接。

...

【技术特征摘要】

1.一种基于传播链路的舆情分级预警方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,对历史数据进行训练构建所述分级预警模型,所述分级预警模型构建过程如下所示:搭建nlp平台;采用中文评论情感分析语料和中文评价对象级情感分析语料作为情感分析数据集;将数据集加载到nlp平台;利用nlp平台内的预训练模型对数据集进行训练,形成分级预警模型。

3.根据权利要求2所述的一种基于传播链路的舆情分级预警方法,其特征在于,负面舆情数据的判断包括以下内容:搭建nlp平台;将行业收集的所有正负面词汇加载到nlp平台;通过tokenizer引擎对加载的正负面词汇进行权重值确认,形成预训练模型并训练;根据预训练模型进行正负面结果参数计算;计算公式为:正负面结果参数=数量num*权重weights;根据正负面结果参数判断采集到的数据是否为负面舆情数据,若正负面结果参数大于阈值,则判定采集到的数据为负面舆情数据。

4.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述步骤s4中的数据分析包括相似度计算,具体过程如下所示:通过大数据flink流式处理引擎对采集到的数据进行切割,提取文本数据前300个文字;通过jieba分词器对切割后的数据进行分词,获取频率最高的20个词汇和它们出现的次数;通过simhash算法计算分词结果的hash值,统计计算结果的hanming距离;将距离小于0.3的标记为相似,...

【专利技术属性】
技术研发人员:章超夏立典李晨胡修宇王丽乃蔡国伟张贺鑫周诗苇赖慧钤蔡怡航王永平钟万栋宋学翔孟立成
申请(专利权)人:浙江华云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1