The invention provides a real-time monitoring method for sensitive words, which includes collecting sensitive word sample document data containing sensitive words, preset sensitive word data in sensitive word library, and real-time text data; storing sensitive word sample document data and sensitive word data in distributed file system for data merging to obtain sensitive word history. The training model is trained according to ensemble learning algorithm and sensitive word history data, and the sensitive word monitoring model is obtained. The sensitive word monitoring model is stored in the preset real-time database. The sensitive word monitoring model is extracted from the preset real-time database, and the real-time text data is analyzed according to the sensitive word monitoring model. Processing and obtaining text analysis results. A sensitive word real-time monitoring method of the invention can real-time monitor whether there are sensitive words in real-time text data. Because a sensitive word monitoring model is initially established, the recognition rate of the sensitive word recognition is improved, and the capture efficiency of the sensitive word is very high.
【技术实现步骤摘要】
一种敏感词实时监控方法、电子设备、存储介质及系统
本专利技术涉及文本处理领域,尤其涉及一种敏感词实时监控方法、电子设备、存储介质及系统。
技术介绍
今社会,互联网蓬勃发展。随着网民数量的不断增长,越来越多的人把互联网作为获取信息的首选渠道。目前互联网已经成为了一个全球性、开放性、互动性的综合型平台。它容纳了各类型的原始信息,提供了各类型的服务,比如信息获取、网上购物、即时性交流等,给人们工作、生活带来很大的便利。可以说它深入人们生活的方方面面,是人类信息化技术的一次革命。一批有影响力的门户网站、BBS以及博客逐渐成为网民最常使用的互联网服务站点。据中国互联网络信息中心(CNNIC)统计,2009年以来,我国已经成为世界网民最多的国家。随着网名的增加,各种论坛,博客等交流平台相继出现在互联网上。网民在互联网上的言论自由得到了充分的体现。然而一些素质低下的网民和不法分子在互联网上散布不良信息,使得互联网的环境遭到破坏。应对网络环境所需,敏感词和敏感词检索分析技术应运而生。敏感词一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明用语。一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些敏感词是无法显示出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词。针对网页文本内容的敏感信息监测与过滤技术是网络舆情管理的重要技术,能够及时有效检测与发现网页中出现的不良文本信息,使网站监控与管理人员及时采取措施进行敏感词 ...
【技术保护点】
1.一种敏感词实时监控方法,其特征在于包括以下步骤:数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。
【技术特征摘要】
1.一种敏感词实时监控方法,其特征在于包括以下步骤:数据采集,采集包含敏感词的敏感词样例文档数据、预设敏感词词库中的敏感词数据以及实时文本数据;数据合并,将所述敏感词样例文档数据与所述敏感词数据存入分布式文件系统中进行数据合并得到敏感词历史数据;生成敏感词监控模型,将所述敏感词历史数据导入含有若干训练模型的模型训练池中,根据集成学习算法以及所述敏感词历史数据对所述训练模型进行训练并得到敏感词监控模型,将所述敏感词监控模型存储至预设实时数据库中;敏感词监控,提取预设实时数据库中的所述敏感词监控模型,根据所述敏感词监控模型对所述实时文本数据进行分析处理并得到文本分析结果。2.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并之前还包括对所述敏感词样例文档数据和所述敏感词数据进行第一预处理以及对所述实时文本数据进行第二预处理,第一数据预处理具体为对所述敏感词样例文档数据和所述敏感词数据进行数据整合处理、数据清洗处理、第一自然语言处理以及第一特征提取处理;所述第二预处理具体为对所述实时文本数据进行数据分类处理、无用符号清洗处理、文本分词处理、第二自然语言处理以及第二特征提取特征处理。3.如权利要求2所述的一种敏感词实时监控方法,其特征在于:所述第一特征提取处理具体为对所述敏感词样例文档数据和所述敏感词数据进行第一分词处理和第一TF-IDF加权处理,所述第二特征提取处理具体为对所述实时文本数据进行第二分词处理和第二TF-IDF加权处理。4.如权利要求3所述的一种敏感词实时监控方法,其特征在于:所述第一分词处理具体为采用HMM模型和Viterbi算法对述敏感词样例文档数据和所述敏感词数据进行分词处理;所述第二分词处理具体为采用HMM模型和Viterbi算法对所述实时文本数据进行分词处理。5.如权利要求1所述的一种敏感词实时监控方法,其特征在于:所述数据合并具体为:将所述敏感词样例...
【专利技术属性】
技术研发人员:卜象平,段兆阳,陈薇,夏真,
申请(专利权)人:杭州排列科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。