一种敏感词实时监控方法、电子设备、存储介质及系统技术方案

技术编号:19277389 阅读:40 留言:0更新日期:2018-10-30 17:58
本发明专利技术提供一种敏感词实时监控方法,包括采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;将敏感词样例文档数据与敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;根据集成学习算法以及敏感词历史数据对训练模型进行训练并得到敏感词监控模型,将敏感词监控模型存储至预设实时数据库中;提取预设实时数据库中的敏感词监控模型,根据敏感词监控模型对实时文本数据进行分析处理并得到文本分析结果。本发明专利技术的一种敏感词实时监控方法,可以实时监控到实时文本数据中是否有敏感词汇,因为最初建立了敏感词监控模型,因此也提高了敏感词识别的识别率,使对于敏感词的捕捉效率非常高。

A real-time monitoring method for sensitive words, electronic equipment, storage medium and system

The invention provides a real-time monitoring method for sensitive words, which includes collecting sensitive word sample document data containing sensitive words, preset sensitive word data in sensitive word library, and real-time text data; storing sensitive word sample document data and sensitive word data in distributed file system for data merging to obtain sensitive word history. The training model is trained according to ensemble learning algorithm and sensitive word history data, and the sensitive word monitoring model is obtained. The sensitive word monitoring model is stored in the preset real-time database. The sensitive word monitoring model is extracted from the preset real-time database, and the real-time text data is analyzed according to the sensitive word monitoring model. Processing and obtaining text analysis results. A sensitive word real-time monitoring method of the invention can real-time monitor whether there are sensitive words in real-time text data. Because a sensitive word monitoring model is initially established, the recognition rate of the sensitive word recognition is improved, and the capture efficiency of the sensitive word is very high.

【技术实现步骤摘要】
一种敏感词实时监控方法、电子设备、存储介质及系统
本专利技术涉及文本处理领域,尤其涉及一种敏感词实时监控方法、电子设备、存储介质及系统。
技术介绍
今社会,互联网蓬勃发展。随着网民数量的不断增长,越来越多的人把互联网作为获取信息的首选渠道。目前互联网已经成为了一个全球性、开放性、互动性的综合型平台。它容纳了各类型的原始信息,提供了各类型的服务,比如信息获取、网上购物、即时性交流等,给人们工作、生活带来很大的便利。可以说它深入人们生活的方方面面,是人类信息化技术的一次革命。一批有影响力的门户网站、BBS以及博客逐渐成为网民最常使用的互联网服务站点。据中国互联网络信息中心(CNNIC)统计,2009年以来,我国已经成为世界网民最多的国家。随着网名的增加,各种论坛,博客等交流平台相继出现在互联网上。网民在互联网上的言论自由得到了充分的体现。然而一些素质低下的网民和不法分子在互联网上散布不良信息,使得互联网的环境遭到破坏。应对网络环境所需,敏感词和敏感词检索分析技术应运而生。敏感词一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明用语。一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些敏感词是无法显示出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词。针对网页文本内容的敏感信息监测与过滤技术是网络舆情管理的重要技术,能够及时有效检测与发现网页中出现的不良文本信息,使网站监控与管理人员及时采取措施进行敏感词的过滤,以防止网页不良信息的蔓延和给社会和人们带来重大损失。敏感词检索功能在网络贴吧或论坛中都被广泛应用,通过敏感词检索,可以有效减少不良信息的传播,为网络环境净化创造了条件。据统计网络中70%内容是以文本形式存在,所以对网络文本的敏感词搜索是现在敏感词过滤技术研究的主要方向。目前方法主要为关键字过滤。由于关键词过滤相对于别的语义过滤实现简单,过滤速度快等特点,目前己成为绝大多数过滤系统采用的主要方法。但是由于敏感词的捕捉具有变化快,特征多和难度大的特点。现有的大部分网络平台通过敏感词库直接匹配即关键词过滤技术很难达到快速高效的监控敏感词的目的。并且这种过滤方法对于文本的树结构穷尽搜素匹配方法很消耗系统资源,而且响应时间很长,尤其对于敏感词库较为庞杂的情况,这一问题十分显著。因此现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种敏感词实时监控方法,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。本专利技术的目的之二在于提供一种电子设备,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。本专利技术的目的之三在于提供一种存储介质,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。本专利技术的目的之四在于提供一种敏感词实时监控系统,其能解决现有的对于敏感词监控方法的监控过程会消耗大量时间,敏感词的识别率较低且对于敏感词的捕捉效率很低的问题。本专利技术的目的之一采用以下技术方案实现:一种敏感词实时监控方法,包括以下步骤:数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。进一步地,所述数据合并之前还包括对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理,第一数据预处理具体为对所述敏感词样例文档数据和所述敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;所述第二预处理具体为对所述实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理。进一步地,所述第一特征提取处理具体为对所述敏感词样例文档数据和所述敏感词数据进行第一分词处理和第一TF-IDF加权处理,所述第二特征提取处理具体为对所述实时文本数据进行第二分词处理和第二TF-IDF加权处理。进一步地,所述第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和所述敏感词数据进行分词处理;所述第二分词处理具体为采用HMM模型和Viterbi算法对所述实时文本数据进行分词处理。进一步地,所述数据合并具体为:将所述敏感词样例文档数据与所述敏感词数据存入Hadoop分布式文件系统中进行数据合并得到敏感词历史数据。进一步地,所述训练池中的训练模型包括朴素贝叶斯模型、支持向量机模型以及启发式模型。进一步地,还包括将所述文本分析结果存储至所述预设实时数据库中。本专利技术的目的之二采用以下技术方案实现:一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本专利技术的一种敏感词实时监控方法。本专利技术的目的之三采用以下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本专利技术的一种敏感词实时监控方法。本专利技术的目的之四采用以下技术方案实现:一种敏感词实时监控系统,包括:数据采集模块,所述数据采集模块用于将采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;预处理模块,所述预处理模块用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理;所述预处理模块包括第一预处理单元以及第二预处理单元,所述第一预处理单元用于对所述敏感词样例文档数据和所述敏感词数据进行第一预处理,所述第二预处理单元用于对所述实时文本数据进行第二预处理;数据合并模块,所述数据合并模块用于将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;敏感词监控模型生成模块,所述敏感词监控模型生成模块用于将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控模块,所述敏感词监控模块用于提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。相比现有技术,本专利技术的有益效果在于:本专利技术申请的一种敏感词实时监控方法包括采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;将敏感词样例文档数本文档来自技高网
...

【技术保护点】
1.一种敏感词实时监控方法,其特征在于包括以下步骤:数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。

【技术特征摘要】
1.一种敏感词实时监控方法,其特征在于包括以下步骤:数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。2.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并之前还包括对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理,第一数据预处理具体为对所述敏感词样例文档数据和所述敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;所述第二预处理具体为对所述实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理。3.如权利要求2所述的一种敏感词实时监控方法,其特征在于:所述第一特征提取处理具体为对所述敏感词样例文档数据和所述敏感词数据进行第一分词处理和第一TF-IDF加权处理,所述第二特征提取处理具体为对所述实时文本数据进行第二分词处理和第二TF-IDF加权处理。4.如权利要求3所述的一种敏感词实时监控方法,其特征在于:所述第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和所述敏感词数据进行分词处理;所述第二分词处理具体为采用HMM模型和Viterbi算法对所述实时文本数据进行分词处理。5.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并具体为:将所述敏感词样例...

【专利技术属性】
技术研发人员:卜象平段兆阳陈薇夏真
申请(专利权)人:杭州排列科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1