The invention discloses a sensitive monitoring platform, including: text extraction, text sequentially connected split, retrieval part and alarm, a retrieval unit is connected with the sensitive vocabulary, further, retrieval part comprises: phrase classification unit and text retrieval unit, comprises: Department of resolution the first buffer, the buffer unit and the second split phrase. The extracting unit extracts the text retrieval split the text, then the resolution of phrase classification, further selected phrase matching in sensitive vocabulary of regular / irregular update, in order to achieve a full range of fine detection of the text, to avoid false positives sensitive words. This scheme has a good effect on purifying the network or using the interconnected network to realize the crime location, and is of high practical value.
【技术实现步骤摘要】
一种敏感词汇监控平台
本专利技术涉及监控领域,尤其是一种敏感词汇监控平台。
技术介绍
随着互联网技术的发展,以及网络信息的公开化,人们可以通过互联网获取到非常丰富的信息,坐到足不出户即可了解世间万物。但是,相应的,国家、企业或个人隐私时常被在互联网上进行公开和获取,这严重触犯了国家相关法律或法律精神。同时,对于一些不法分子来说,因互联网使用的便利性和目前未对实用互联网进行实名要求,互联网也为不法分子之间的信息沟通提供了便利,这对于通过传统方案监控不法分子来说,造成了一定的障碍。在传统文本监控方案中,采用与预设的敏感词汇库进行对比的方案,该方案是对比输入文本的全部内容,即输入内容的全覆盖匹配,才判断为敏感词汇,该方式极易被绕开,从而出现漏检的情况。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种通过拆分用户在搜索引擎中输入的文本,判断其拆分后词汇的敏感性的方案,进而达到精确监控敏感词汇的效果,解决漏检问题。本专利技术采用的技术方案如下:一种敏感词汇监控平台,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。上述方案,通过提取用户输入的待搜索文本,进一步拆分该文本,对其进行敏感词汇判断,从而解决了传统文本监控中全覆盖监控容易漏检的问题。进一步的,检索部包括:短语分类单元,用于将所述拆分的若干短语按预定规则二分为若干短语组;检索单元,连接短语分类单元,用于判断若干短语组中的 ...
【技术保护点】
一种敏感词汇监控平台,其特征为,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。
【技术特征摘要】
1.一种敏感词汇监控平台,其特征为,包括:文本提取部,用于提取用户在搜索引擎中输入的待搜索文本;文本拆分部,连接文本提取部,用于根据预定规则一拆分所述待搜索文本为若干短语;检索部,连接文本拆分部,用于判断所述拆分的若干短语中的全部或部分短语是否为敏感词汇。2.如权利要求1所述的平台,其特征为,所述检索部包括:短语分类单元,用于将所述拆分的若干短语按预定规则二分为若干短语组;检索单元,连接短语分类单元,用于判断若干短语组中的一组或多组短语组包含的短语是否为敏感词汇。3.如权利要求2所述的平台,其特征为,所述文本拆分部包括:第一缓存区,用于复制文本提取单元提取的待搜索文本;短语拆分单元,连接第一缓存区,用于根据预定规则一拆分所述第一缓存区中的待搜索文本为若干短语。4.如权利要求3所述的平台,其特征为,所述文本拆分部还包括:连接短语拆分单元的第二缓存单元,所述短语拆分单元用于:根据预定规则一,由待搜索文本包含的字符由前到后的顺序,逐一判断每个字符是否组成一个短语,若能组成一个短语,则将所述字符复制到第二缓存区,否则,逐一增加所述字符的后一顺序的一个字符形成字符串,继续判断增加后的字符串是...
【专利技术属性】
技术研发人员:罗艳,
申请(专利权)人:四川九鼎智远知识产权运营有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。