一种含敏感度计算的网页过滤方法技术

技术编号:9835086 阅读:137 留言:0更新日期:2014-04-02 00:39
本发明专利技术涉及一种含敏感度计算的网页过滤方法,属于信息过滤技术领域。本发明专利技术通包括步骤:S1,实验语料库收集;S2,语料库的构建及敏感信息语料库的构建;S3,页面信息预处理;S4,页面词语总数统计及敏感词语总数统计;S5,页面敏感度的判断。本发明专利技术采用含页面敏感度计算的搜索结果中有效地剔除了敏感信息,且根据当前页面的链接计算该链接所含信息的敏感度,从而可以深度挖掘敏感信息并予以避免;通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来,从而可以有效地控制不同级别或年龄段人群的需求。

【技术实现步骤摘要】
一种含敏感度计算的网页过滤方法
本专利技术涉及一种含敏感度计算的网页过滤方法,属于信息过滤

技术介绍
敏感信息过滤是当前自然语言处理研究中的热点问题之一,如何判断一个文本或网页信息中是否含有敏感性信息问题,是当前搜索引擎以及社交网络研究的关键问题。目前网络环境中充斥着大量违背伦理道德、社会安定等信息。为了净化网络环境,已经出现了很多敏感性词汇过滤的方法。通常在敏感信息过滤中,敏感词库的收集、敏感词过滤的方法、对应语料库和敏感词库的组织结构以及敏感词的匹配策略均是敏感信息过滤的重要组成部分,其直接影响敏感信息过滤的准确率和效率。通常人们为了避免敏感词过滤而主观地加上一些如"$、&、*"等一些特殊字符。一般的敏感信息过滤算法遇到这种情况则无法判断该词是否为敏感词、从而可通过人为干预避开过滤算法的作用。普通的敏感信息过滤策略通过捕获页面信息中的敏感词,只要含有敏感词汇均不予以显现。从安全控制级别以及信息需要的角度来看,这种策略不能灵活地修改控制力度。
技术实现思路
本专利技术提供了一种含敏感度计算的网页过滤方法,以用于解决普通的过滤算法不能灵活地修改控制力度的问题。本专利技术的技术方案是:一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数Ta;将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数Ts;E、页面敏感度的判断:根据页面所有词语出现的总次数Ta和所有敏感词语出现的总次数Ts,计算敏感度S=arcsin(Ts/Ta),并将S与阈值Vs进行比较:如果Vs>S,则说明页面信息敏感度没有超过阈值,显示页面信息;如果Vs≤S,则说明页面信息敏感度超过了阈值,不显示页面信息。所述无效词语及符号包括语气助词以及数字。所述阈值Vs的取值范围为0-1。本专利技术的有益效果是:采用含页面敏感度计算的搜索结果中有效地剔除了敏感词,且根据当前页面的链接计算该链接所含信息的敏感度,从而可以深度挖掘敏感词并予以避免;通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来,从而可以有效地控制不同级别或年龄段人群的需求。附图说明图1为本专利技术的流程图。具体实施方式实施例1:如图1所示,一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数Ta;将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数Ts;E、页面敏感度的判断:根据页面所有词语出现的总次数Ta和所有敏感词语出现的总次数Ts,计算敏感度S=arcsin(Ts/Ta),并将S与阈值Vs进行比较:如果Vs>S,则说明页面信息敏感度没有超过阈值,显示页面信息;如果Vs≤S,则说明页面信息敏感度超过了阈值,不显示页面信息。所述无效词语及符号包括语气助词以及数字。所述阈值Vs的取值范围为0-1。实施例2:如图1所示,一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数Ta;将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数Ts;E、页面敏感度的判断:根据页面所本文档来自技高网...
一种含敏感度计算的网页过滤方法

【技术保护点】
一种含敏感度计算的网页过滤方法,其特征在于:所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、语料库的构建及敏感信息语料库的构建:根据语料库及敏感信息语料库规模的不同分别以不同的组织结构存放在内存里:其敏感信息语料库规模较小,采用List结构;语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数Ta;将页面信息的分词结果与敏感信息语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数Ts;E、页面敏感度的判断:根据页面所有词语出现的总次数Ta和所有敏感词语出现的总次数Ts,计算敏感度S= arcsin(Ts/Ta),并将S与阈值Vs进行比较:如果Vs>S,则说明页面信息敏感度没有超过阈值,显示页面信息;如果Vs≤S,则说明页面信息敏感度超过了阈值,不显示页面信息。...

【技术特征摘要】
1.一种含敏感度计算的网页过滤方法,其特征在于:所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可...

【专利技术属性】
技术研发人员:张晶刘志陈沫良严涵沈江炎
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1