一种含敏感度计算的网页过滤方法技术

技术编号：9835086 阅读：137 留言：0更新日期：2014-04-02 00:39

本发明专利技术涉及一种含敏感度计算的网页过滤方法，属于信息过滤技术领域。本发明专利技术通包括步骤：S1，实验语料库收集；S2，语料库的构建及敏感信息语料库的构建；S3，页面信息预处理；S4，页面词语总数统计及敏感词语总数统计；S5，页面敏感度的判断。本发明专利技术采用含页面敏感度计算的搜索结果中有效地剔除了敏感信息，且根据当前页面的链接计算该链接所含信息的敏感度，从而可以深度挖掘敏感信息并予以避免；通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来，从而可以有效地控制不同级别或年龄段人群的需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种含敏感度计算的网页过滤方法
本专利技术涉及一种含敏感度计算的网页过滤方法，属于信息过滤

技术介绍
敏感信息过滤是当前自然语言处理研究中的热点问题之一，如何判断一个文本或网页信息中是否含有敏感性信息问题，是当前搜索引擎以及社交网络研究的关键问题。目前网络环境中充斥着大量违背伦理道德、社会安定等信息。为了净化网络环境，已经出现了很多敏感性词汇过滤的方法。通常在敏感信息过滤中，敏感词库的收集、敏感词过滤的方法、对应语料库和敏感词库的组织结构以及敏感词的匹配策略均是敏感信息过滤的重要组成部分，其直接影响敏感信息过滤的准确率和效率。通常人们为了避免敏感词过滤而主观地加上一些如"$、&、*"等一些特殊字符。一般的敏感信息过滤算法遇到这种情况则无法判断该词是否为敏感词、从而可通过人为干预避开过滤算法的作用。普通的敏感信息过滤策略通过捕获页面信息中的敏感词，只要含有敏感词汇均不予以显现。从安全控制级别以及信息需要的角度来看，这种策略不能灵活地修改控制力度。
技术实现思路
本专利技术提供了一种含敏感度计算的网页过滤方法，以用于解决普通的过滤算法不能灵活地修改控制力度的问题。本专利技术的技术方案是：一种含敏感度计算的网页过滤方法，所述网页过滤方法的具体步骤如下：A、实验语料库收集：收集敏感词作为敏感词语料库；收集敏感词及非敏感词作为语料库，将敏感词语料库添加到语料库中形成新的语料库；B、新的语料库的构建及敏感词语料库的构建：根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里：其敏感词语料库规模较小，采用List结构；新的语料库规模较大，采...
一种含敏感度计算的网页过滤方法

【技术保护点】
一种含敏感度计算的网页过滤方法，其特征在于：所述网页过滤方法的具体步骤如下：A、实验语料库收集：收集敏感词作为敏感词语料库；收集敏感词及非敏感词作为语料库，将敏感词语料库添加到语料库中形成新的语料库；B、语料库的构建及敏感信息语料库的构建：根据语料库及敏感信息语料库规模的不同分别以不同的组织结构存放在内存里：其敏感信息语料库规模较小，采用List结构；语料库规模较大，采用Trie树结构；C、页面信息预处理：首先对页面信息进行URL链接提取，用以获取二级页面信息，将当前页面和二级页面信息进行无效词语及符号删除；D、页面词语总数统计及敏感词语总数统计：将页面信息的分词结果与语料库一一比对，把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中，然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List；通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数Ta；将页面信息的分词结果与敏感信息语料库一一比对，把匹配到的敏感词语及该词语出现的...

【技术特征摘要】
1.一种含敏感度计算的网页过滤方法，其特征在于：所述网页过滤方法的具体步骤如下：A、实验语料库收集：收集敏感词作为敏感词语料库；收集敏感词及非敏感词作为语料库，将敏感词语料库添加到语料库中形成新的语料库；B、新的语料库的构建及敏感词语料库的构建：根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里：其敏感词语料库规模较小，采用List结构；新的语料库规模较大，采用Trie树结构；C、页面信息预处理：首先对页面信息进行URL链接提取，用以获取二级页面信息，将当前页面和二级页面信息进行无效词语及符号删除；D、页面词语总数统计及敏感词语总数统计：将页面信息的分词结果与新的语料库一一比对，把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中，然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List；通过计算List中嵌套List的value之和便可...

【专利技术属性】
技术研发人员：张晶，刘志，陈沫良，严涵，沈江炎，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人