一种舆情信息中敏感信息的智能挖掘系统技术方案

技术编号:24888939 阅读:31 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种舆情信息中敏感信息的智能挖掘系统,包括:舆情信息预处理模块,用于滤除舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于在信息展示界面接收并记录人工标注信息,获得已标注舆情信息;基于bert模型的敏感信息识别模块,用于根据已标注舆情信息训练敏感信息分类模型获得挖掘模型;舆情信息敏感智能挖掘模块,用于根据挖掘模型实时智能挖掘舆情信息并输出挖掘结果;敏感信息可视化模块,用于将舆情信息与挖掘结果以可视化的形式展示在信息展示界面。采用前述系统,能够结合舆情工作人员的需求,完成舆情信息敏感智能挖掘,方便舆情工作人员实时、便捷地了解和掌握舆情信息,辅助相关工作人员完成决策。

【技术实现步骤摘要】
一种舆情信息中敏感信息的智能挖掘系统
本专利技术涉及舆情数据智能分析领域,尤其是涉及根据用户实际需求的舆情信息中敏感信息的智能挖掘系统。
技术介绍
随着新时代的发展,网络逐渐成为了人们传播和获取各种信息的主要媒介,网上信息纷繁复杂,增加舆情工作者对信息进行挖掘的时间成本,如何能够更快更有效的挖掘出海量舆情信息中的重点舆情信息是亟待解决的问题。现有技术中,舆情系统敏感信息挖掘主要依靠敏感词命中方式识别敏感信息,然而,由于新词不断出现,词库难以对敏感词进行完全覆盖。同时,由于同样的关键词汇在不同语言环境下表征意思不一样,现有的舆情系统无法识别语义环境,对负面信息误判概率高。
技术实现思路
本专利技术提供了一种舆情信息中敏感信息的智能挖掘系统,以解决现有的舆情工作者对信息进行挖掘的时间成本高,导致难以有效挖掘出海量舆情信息中的重点舆情信息这一问题。一种舆情信息中敏感信息的智能挖掘系统,所述系统包括:舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。进一步地,在一种实现方式中,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;通过所述第二过滤单元对舆情信息中的历史信息进行滤除;通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。进一步地,在一种实现方式中,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:滤除包含低俗信息或广告信息的舆情信息。进一步地,在一种实现方式中,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。进一步地,在一种实现方式中,所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法,基于正则表达式去除所述链接符号,包括“http.*”和“https.*”正则式匹配;所述表情符号主要存在于微博数据中,在采集所述微博数据后,通过匹配文字表情符号的方式,对所述微博数据进行表情符号的过滤,所述表情符号在微博数据中通过文字表情符号进行表示。进一步地,在一种实现方式中,所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息,所述人工标注信息包括类别信息,所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。进一步地,在一种实现方式中,所述敏感信息识别模块基于人工标注信息,对所述bert模型进行微调,训练获得敏感信息分类模型;在预设间隔时间后,根据所述敏感信息类别标注模块获得的已标注舆情信息,将线上用户根据标注系统标注的数据与原始基础标注数据融合,对所述bert模型再次进行参数微调,使得所述bert模型适应新增标注数据,获得新的敏感信息分类模型,实现对所述敏感信息分类模型的定时更新。进一步地,在一种实现方式中,所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现,所述敏感信息可视化模块包括信息筛选单元和信息展示单元;所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;所述信息展示单元用于根据筛选条件显示符合条件的敏感信息。进一步地,在一种实现方式中,应用于所述系统的一种舆情信息中敏感信息的智能挖掘方法,包括:步骤101,海量舆情数据预处理,利用贝叶斯模型进行广告信息和低俗信息的过滤,基本历史关键词进行历史信息的过滤;步骤102,基于bert模型的敏感信息增量训练,利用谷歌开源的bert预训练模型以及标准的敏感信息数据进行分类模型的训练和更新;步骤103,敏感信息的可视化,根据训练好的敏感信息智能挖掘方法,对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示,显示模块包含信息筛选单元和信息显示单元,所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;所述信息显示单元用于根据筛选条件显示符合条件的敏感信息,显示内容包含敏感信息类别,涉及的敏感关键词以及敏感信息的发布时间。由以上技术方案可知,一种舆情信息中敏感信息的智能挖掘系统,所述系统包括:舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。现有技术中,舆情工作者对信息进行挖掘的时间成本高,导致难以有效挖掘出海量舆情信息中的重点舆情信息。而采用前述方法或系统,能够结合实际舆情工作人员的需求,完成舆情信息敏感类别的智能挖掘,方便舆情工作人员实时、便捷地了解和掌握舆情信息,辅助相关工作人员完成决策,达到了有效挖掘舆情信息中的重点舆情信息的效果。通过舆情信息预处理模块,敏感信息类别标注模块,敏感信息识别模块以及敏感信息可视化模块实现实时、便捷地了解和掌握舆情信息,因此相对于现有技术,本专利技术所述的一种舆情信息中敏感信息的智能挖掘系统大大提升了对舆情信本文档来自技高网...

【技术保护点】
1.一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述系统包括:/n舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;/n敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;/n敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;/n舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;/n敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。/n

【技术特征摘要】
1.一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述系统包括:
舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;
敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;
敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;
舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;
敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。


2.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;
通过所述第二过滤单元对舆情信息中的历史信息进行滤除;
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。


3.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;
根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:



滤除包含低俗信息或广告信息的舆情信息。


4.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:
所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。


5.根据权利要求2所述的一种舆情信息中敏感信息的...

【专利技术属性】
技术研发人员:李惠柯贺成龙汤世松高峰刘蛰孟令伍
申请(专利权)人:南京莱斯网信技术研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1