System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理,具体涉及一种基于传播链路的舆情分级预警方法及系统。
技术介绍
1、目前对负面网络舆情的预警能力已经十分普遍,通常是根据情感向性关键词库,对数据进行情感分析,然后进行舆情的预警通知。但是对于预警信息进行分级提醒还很少。提供的预警通知因为只是简单的进行关键词和指标触发,导致用户会收到大量的提醒消息,实际使用体验较差。
2、如中国专利cn110347830a,公开日2019年10月18日,本专利技术提供一种舆情预警的实现方法,包括:从舆情信息源获取待判定舆情数据;将待判定舆情数据输入训练后的任务模型,根据训练后任务模型的输出确定是否发出预警;所述任务模型为分类模型,其输入为文本,输出包括对是否发生舆情的预测;所述任务模型按照完成预训练的语言模型进行初始化,采用有标记的样本舆情数据进行训练;所述语言模型与任务模型除归一化softmax层以外具有相同的结构,其输出为对输入文本的下文的预测;所述语言模型采用无标记文本数据进行预训练。该方法未对舆情进行分级,所有舆情采取统一的方式进行通知,提醒消息众多,并且用户无法对重要的舆情进行及时反应。
技术实现思路
1、本专利技术要解决的技术问题是:现有技术并未对舆情进行分级预警,从而产生大量提醒消息,用户使用体验极差的技术问题。提出了一种基于传播链路的舆情分级预警方法及系统,对舆情进行分级预警。
2、为解决上述技术问题,本专利技术所采取的技术方案为:一种基于传播链路的舆情分级预警方法,包括以下步骤:
...【技术保护点】
1.一种基于传播链路的舆情分级预警方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,对历史数据进行训练构建所述分级预警模型,所述分级预警模型构建过程如下所示:搭建NLP平台;采用中文评论情感分析语料和中文评价对象级情感分析语料作为情感分析数据集;将数据集加载到NLP平台;利用NLP平台内的预训练模型对数据集进行训练,形成分级预警模型。
3.根据权利要求2所述的一种基于传播链路的舆情分级预警方法,其特征在于,负面舆情数据的判断包括以下内容:搭建NLP平台;将行业收集的所有正负面词汇加载到NLP平台;通过Tokenizer引擎对加载的正负面词汇进行权重值确认,形成预训练模型并训练;根据预训练模型进行正负面结果参数计算;计算公式为:正负面结果参数=数量num*权重Weights;根据正负面结果参数判断采集到的数据是否为负面舆情数据,若正负面结果参数大于阈值,则判定采集到的数据为负面舆情数据。
4.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述步骤S4中的数据分析包括
5.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述影响力分值的计算公式如下所示:影响力分值=A*发布指数+B*阅读指数+C*互动指数,其中,A、B、C分别为影响因子各自的权重系数。
6.根据权利要求5所述的一种基于传播链路的舆情分级预警方法,其特征在于,根据平台情况将平台分为三个等级,发布指数的计算公式如下:
7.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述数据预处理包括以下步骤:对采集到的数据根据来源网址进行数据去重处理;检测采集到的数据中是否含有脏数据,若含有脏数据,则对采集算法进行维护更新。
8.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述企业画像根据用户企业全称和企业代称进行构建。
9.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述数据采集模块通过搜索采集和固定栏目采集两种方式进行数据采集,所述搜索采集通过大型商业搜索引擎进行全网搜索采集,通过所述固定栏目采集所在平台的内部搜索系统。
10.一种基于传播链路的舆情分级预警系统,利用如权利要求1至9所述的任一一种基于传播链路的舆情分级预警方法,其特征在于,包括数据采集模块,所述数据采集模块与数据处理和分析模块连接,所述数据处理和分析模块与舆情预警模块连接。
...【技术特征摘要】
1.一种基于传播链路的舆情分级预警方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于传播链路的舆情分级预警方法,其特征在于,对历史数据进行训练构建所述分级预警模型,所述分级预警模型构建过程如下所示:搭建nlp平台;采用中文评论情感分析语料和中文评价对象级情感分析语料作为情感分析数据集;将数据集加载到nlp平台;利用nlp平台内的预训练模型对数据集进行训练,形成分级预警模型。
3.根据权利要求2所述的一种基于传播链路的舆情分级预警方法,其特征在于,负面舆情数据的判断包括以下内容:搭建nlp平台;将行业收集的所有正负面词汇加载到nlp平台;通过tokenizer引擎对加载的正负面词汇进行权重值确认,形成预训练模型并训练;根据预训练模型进行正负面结果参数计算;计算公式为:正负面结果参数=数量num*权重weights;根据正负面结果参数判断采集到的数据是否为负面舆情数据,若正负面结果参数大于阈值,则判定采集到的数据为负面舆情数据。
4.根据权利要求1或2所述的一种基于传播链路的舆情分级预警方法,其特征在于,所述步骤s4中的数据分析包括相似度计算,具体过程如下所示:通过大数据flink流式处理引擎对采集到的数据进行切割,提取文本数据前300个文字;通过jieba分词器对切割后的数据进行分词,获取频率最高的20个词汇和它们出现的次数;通过simhash算法计算分词结果的hash值,统计计算结果的hanming距离;将距离小于0.3的标记为相似,...
【专利技术属性】
技术研发人员:章超,夏立典,李晨,胡修宇,王丽乃,蔡国伟,张贺鑫,周诗苇,赖慧钤,蔡怡航,王永平,钟万栋,宋学翔,孟立成,
申请(专利权)人:浙江华云信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。