一种舆情信息中敏感信息的智能挖掘系统技术方案

技术编号：24888939 阅读：31 留言：0更新日期：2020-07-14 18:16

本发明专利技术公开了一种舆情信息中敏感信息的智能挖掘系统，包括：舆情信息预处理模块，用于滤除舆情信息中的杂质信息，获得已过滤舆情信息；敏感信息类别标注模块，用于在信息展示界面接收并记录人工标注信息，获得已标注舆情信息；基于bert模型的敏感信息识别模块，用于根据已标注舆情信息训练敏感信息分类模型获得挖掘模型；舆情信息敏感智能挖掘模块，用于根据挖掘模型实时智能挖掘舆情信息并输出挖掘结果；敏感信息可视化模块，用于将舆情信息与挖掘结果以可视化的形式展示在信息展示界面。采用前述系统，能够结合舆情工作人员的需求，完成舆情信息敏感智能挖掘，方便舆情工作人员实时、便捷地了解和掌握舆情信息，辅助相关工作人员完成决策。

全部详细技术资料下载

【技术实现步骤摘要】
一种舆情信息中敏感信息的智能挖掘系统
本专利技术涉及舆情数据智能分析领域，尤其是涉及根据用户实际需求的舆情信息中敏感信息的智能挖掘系统。
技术介绍
随着新时代的发展，网络逐渐成为了人们传播和获取各种信息的主要媒介，网上信息纷繁复杂，增加舆情工作者对信息进行挖掘的时间成本，如何能够更快更有效的挖掘出海量舆情信息中的重点舆情信息是亟待解决的问题。现有技术中，舆情系统敏感信息挖掘主要依靠敏感词命中方式识别敏感信息，然而，由于新词不断出现，词库难以对敏感词进行完全覆盖。同时，由于同样的关键词汇在不同语言环境下表征意思不一样，现有的舆情系统无法识别语义环境，对负面信息误判概率高。
技术实现思路
本专利技术提供了一种舆情信息中敏感信息的智能挖掘系统，以解决现有的舆情工作者对信息进行挖掘的时间成本高，导致难以有效挖掘出海量舆情信息中的重点舆情信息这一问题。一种舆情信息中敏感信息的智能挖掘系统，所述系统包括：舆情信息预处理模块，用于滤除抓取的舆情信息中的杂质信息，获得已过滤舆情信息；敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；舆情信息敏感智能...

【技术保护点】
1.一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述系统包括：/n舆情信息预处理模块，用于滤除抓取的舆情信息中的杂质信息，获得已过滤舆情信息；/n敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；/n敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；/n舆情信息敏感智能挖掘模块，用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感，并输出结果；/n敏感信息可视化模块，用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。/n

【技术特征摘要】
1.一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述系统包括：
舆情信息预处理模块，用于滤除抓取的舆情信息中的杂质信息，获得已过滤舆情信息；
敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；
敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；
舆情信息敏感智能挖掘模块，用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感，并输出结果；
敏感信息可视化模块，用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。

2.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元，通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息，获得已过滤舆情信息，所述杂质信息包括：低俗信息、广告信息、历史信息、链接符号以及表情符号内容；
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除；
通过所述第二过滤单元对舆情信息中的历史信息进行滤除；
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。

3.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法：
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础，计算待分类项属于每一个可能类别的概率，根据最大概率的类别，确认待分类项的分类；
根据朴素贝叶斯算法，即公式(1)，对所述杂质信息中的低俗信息和广告信息进行识别：

滤除包含低俗信息或广告信息的舆情信息。

4.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述第二过滤单元为基于历史信息关键词的历史信息过滤算法：
所述基于历史信息关键词的历史信息过滤算法，包括：根据历史著名人物及事件关键词，通过关键词匹配方式对所述杂质信息中的历史信息进行识别，所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后，通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。

5.根据权利要求2所述的一种舆情信息中敏感信息的...

【专利技术属性】
技术研发人员：李惠柯，贺成龙，汤世松，高峰，刘蛰，孟令伍，
申请(专利权)人：南京莱斯网信技术研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人