【技术实现步骤摘要】
一种舆情信息中敏感信息的智能挖掘系统
本专利技术涉及舆情数据智能分析领域,尤其是涉及根据用户实际需求的舆情信息中敏感信息的智能挖掘系统。
技术介绍
随着新时代的发展,网络逐渐成为了人们传播和获取各种信息的主要媒介,网上信息纷繁复杂,增加舆情工作者对信息进行挖掘的时间成本,如何能够更快更有效的挖掘出海量舆情信息中的重点舆情信息是亟待解决的问题。现有技术中,舆情系统敏感信息挖掘主要依靠敏感词命中方式识别敏感信息,然而,由于新词不断出现,词库难以对敏感词进行完全覆盖。同时,由于同样的关键词汇在不同语言环境下表征意思不一样,现有的舆情系统无法识别语义环境,对负面信息误判概率高。
技术实现思路
本专利技术提供了一种舆情信息中敏感信息的智能挖掘系统,以解决现有的舆情工作者对信息进行挖掘的时间成本高,导致难以有效挖掘出海量舆情信息中的重点舆情信息这一问题。一种舆情信息中敏感信息的智能挖掘系统,所述系统包括:舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;舆情信息敏感智能 ...
【技术保护点】
1.一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述系统包括:/n舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;/n敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;/n敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;/n舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;/n敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。/n
【技术特征摘要】
1.一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述系统包括:
舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;
敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;
敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;
舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;
敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。
2.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;
通过所述第二过滤单元对舆情信息中的历史信息进行滤除;
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。
3.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;
根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:
滤除包含低俗信息或广告信息的舆情信息。
4.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:
所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。
5.根据权利要求2所述的一种舆情信息中敏感信息的...
【专利技术属性】
技术研发人员:李惠柯,贺成龙,汤世松,高峰,刘蛰,孟令伍,
申请(专利权)人:南京莱斯网信技术研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。