一种敏感词汇监控平台制造技术

技术编号:17597233 阅读:22 留言:0更新日期:2018-03-31 10:21
本发明专利技术公开了一种敏感词汇监控平台,包括:顺序连接的文本提取部、文本拆分部、检索部和报警部,检索部还连接有敏感词汇库,进一步的,检索部包括依次连接的:短语分类单元和检索单元,文本拆分部包括依次连接的:第一缓存区、短语拆分单元和第二缓存区。通过对文本提取单元提取的待检索文本进行拆分,再对拆分的短语进行分类,进一步筛选出短语在定期/不定期更新的敏感词汇库中进行匹配,从而实现对文本的全范围精细检测,避免对敏感词汇的漏检情况。本方案对于净化网络或通过互连网实现犯罪定位有良好的效果,实用价值高。

A sensitive vocabulary monitoring platform

The invention discloses a sensitive monitoring platform, including: text extraction, text sequentially connected split, retrieval part and alarm, a retrieval unit is connected with the sensitive vocabulary, further, retrieval part comprises: phrase classification unit and text retrieval unit, comprises: Department of resolution the first buffer, the buffer unit and the second split phrase. The extracting unit extracts the text retrieval split the text, then the resolution of phrase classification, further selected phrase matching in sensitive vocabulary of regular / irregular update, in order to achieve a full range of fine detection of the text, to avoid false positives sensitive words. This scheme has a good effect on purifying the network or using the interconnected network to realize the crime location, and is of high practical value.

【技术实现步骤摘要】
一种敏感词汇监控平台
本专利技术涉及监控领域,尤其是一种敏感词汇监控平台。
技术介绍
随着互联网技术的发展,以及网络信息的公开化,人们可以通过互联网获取到非常丰富的信息,坐到足不出户即可了解世间万物。但是,相应的,国家、企业或个人隐私时常被在互联网上进行公开和获取,这严重触犯了国家相关法律或法律精神。同时,对于一些不法分子来说,因互联网使用的便利性和目前未对实用互联网进行实名要求,互联网也为不法分子之间的信息沟通提供了便利,这对于通过传统方案监控不法分子来说,造成了一定的障碍。在传统文本监控方案中,采用与预设的敏感词汇库进行对比的方案,该方案是对比输入文本的全部内容,即输入内容的全覆盖匹配,才判断为敏感词汇,该方式极易被绕开,从而出现漏检的情况。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种通过拆分用户在搜索引擎中输入的文本,判断其拆分后词汇的敏感性的方案,进而达到精确监控敏感词汇的效果,解决漏检问题。本专利技术采用的技术方案如下:一种敏感词汇监控平台,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。上述方案,通过提取用户输入的待搜索文本,进一步拆分该文本,对其进行敏感词汇判断,从而解决了传统文本监控中全覆盖监控容易漏检的问题。进一步的,检索部包括:短语分类单元,用于将所述拆分的若干短语按预定规则二分为若干短语组;检索单元,连接短语分类单元,用于判断若干短语组中的一组或多组短语组包含的短语是否为敏感词汇。该方案可有效节省敏感词汇判断的计算量,进而提高判断效率。进一步的,文本拆分部包括:第一缓存区,用于复制文本提取单元提取的待搜索文本;短语拆分单元,连接第一缓存区,用于根据预定规则一拆分所述第一缓存区中的待搜索文本为若干短语。进一步的,所述文本拆分部还包括:连接短语拆分单元的第二缓存单元,短语拆分单元用于:根据预定规则一,由待搜索文本包含的字符由前到后的顺序,逐一判断每个字符是否组成一个短语,若能组成一个短语,则将所述字符复制到第二缓存区,否则,逐一增加所述字符的后一顺序的一个字符形成字符串,继续判断增加后的字符串是否组成一个短语,直到判断所述字符串为一个短语时,复制所述字符串到第二缓存区,直到判断完成所述待搜索文本包含的所有字符。该方案实现对文本拆分的精细化控制,从而最大限度的描述该搜索文本,进而达到无死角的监控效果。作为优选,短语拆分单元,根据词性拆分所述第一缓存区中的待搜索文本为若干短语。进一步的,短语分类单元,将所述短语拆分单元输出的若干短语按其词性分为若干短语组。进一步的,上述检索单元,用于查询所述短语分类单元输出的若干短语组中的代词短语组、名词短语组和非文字短语组中分别包含的代词短语、名词短语和非文字短语是否为敏感词汇。考虑到敏感词汇的常规属性,进而排除掉干扰词汇,以提高敏感词汇检测的效率。进一步,平台还包括:连接检索部的敏感词汇库,存储有敏感短语;所述检索部通过将短语在所述敏感词汇库包含的敏感短语中进行匹配,以判断所述短语是否为敏感词汇。进一步的,平台还包括:连接检索部的报警部,用于在所述检索部在所述敏感词汇库中匹配到敏感短语时,标记所述被匹配到的短语对应的待搜索文本的输入设备的IP地址。作为优选,敏感词汇库还用于:按预定规则三更新其包含的敏感短语。通过更新敏感词汇库,实现对最新监控需求的匹配,从而最大限度满足监控的需求。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:通过本方案,可实现对搜索文本的精细覆盖检索,从而提高敏感词汇检索的准确度,避免对敏感词汇的漏检情况。进一步的,本方案从敏感词汇的常规属性出发,进一步提高了检测效率。同时,本方案不定时/定时更新敏感词汇库,达到满足最新监控要求的目的。本方案对于净化网络或通过互连网实现犯罪定位有良好的效果,实用价值高。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是敏感词汇监控平台构造图。图2是图1中检索部的构造图。图3是图1中文本拆分部的构造图。图4是敏感词汇监控平台的另一实施例。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。如图1所示,本实施例一公开了一种敏感词汇监控平台,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。如图2和3所示,本实施例二具体公开了实施例一中文本拆分部和检索部的具体结构:检索部包括:短语分类单元,用于将所述拆分的若干短语按预定规则二分为若干短语组;检索单元,连接短语分类单元,用于判断若干短语组中的一组或多组短语组包含的短语是否为敏感词汇。文本拆分部包括:第一缓存区,用于复制文本提取单元提取的待搜索文本;短语拆分单元,连接第一缓存区,用于根据预定规则一拆分所述第一缓存区中的待搜索文本为若干短语。第二缓存单元,连接短语拆分单元,短语拆分单元用于:根据预定规则一,由待搜索文本包含的字符由前到后的顺序,逐一判断每个字符是否组成一个短语,若能组成一个短语,则将所述字符复制到第二缓存区,否则,逐一增加所述字符的后一顺序的一个字符形成字符串,继续判断增加后的字符串是否组成一个短语,直到判断所述字符串为一个短语时,复制所述字符串到第二缓存区,直到判断完成所述待搜索文本包含的所有字符。如待搜索文本为:“甲有一套XY设备放在家里”。则从‘甲’开始判断,‘甲’为代词,可构成短语(此处‘甲’可代人名),存入第二缓存区;‘有’为动词,可构成短语,存入第二缓存区,‘一’为数词,可构成短语,进一步,‘一套’为量词,均可构成短语,可根据实际要求进行选择,此处均分别存入第二缓存区;‘X’或‘Y’属非文字字符,单独存入第二缓存区;‘设’不单独构成短语,增加其后的字符‘备’,构成‘设备’短语,存入第二缓存区……。作为优选,短语拆分单元,根据词性拆分所述第一缓存区中的待搜索文本为若干短语;短语分类单元,将所述短语拆分单元输出的若干短语按其词性分为若干短语组。即上述例子分为:包括‘甲’的代词短语组,包括‘设备’、‘家’的名称短语组,包括‘X’、‘Y’的非文字短语组……。检索单元,用于查询所述短语分类单元输出的若干短语组中的代词短语组、名词短语组和非文字短语组中分别包含的代词短语、名词短语和非文字短语是否为敏感词汇。如图3所示,基于上述任一实施例,本实施例三公开了另一种敏感词汇监控平台:平台还包括:连接检索部的敏感词汇库,存储有敏感短语;所述检索部通过将短语在所述敏感词汇库包含的敏感短语中进行匹配,以判断所述短语是否为敏感词汇。以及连接检索部的报警部,用于在所述检索部在所述敏感词汇库中匹配到敏感短语时,标记所述被匹配到的短语本文档来自技高网...
一种敏感词汇监控平台

【技术保护点】
一种敏感词汇监控平台,其特征为,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。

【技术特征摘要】
1.一种敏感词汇监控平台,其特征为,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。2.如权利要求1所述的平台,其特征为,所述检索部包括:短语分类单元,用于将所述拆分的若干短语按预定规则二分为若干短语组;检索单元,连接短语分类单元,用于判断若干短语组中的一组或多组短语组包含的短语是否为敏感词汇。3.如权利要求2所述的平台,其特征为,所述文本拆分部包括:第一缓存区,用于复制文本提取单元提取的待搜索文本;短语拆分单元,连接第一缓存区,用于根据预定规则一拆分所述第一缓存区中的待搜索文本为若干短语。4.如权利要求3所述的平台,其特征为,所述文本拆分部还包括:连接短语拆分单元的第二缓存单元,所述短语拆分单元用于:根据预定规则一,由待搜索文本包含的字符由前到后的顺序,逐一判断每个字符是否组成一个短语,若能组成一个短语,则将所述字符复制到第二缓存区,否则,逐一增加所述字符的后一顺序的一个字符形成字符串,继续判断增加后的字符串是...

【专利技术属性】
技术研发人员:罗艳
申请(专利权)人:四川九鼎智远知识产权运营有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1