基于模式库的智能手机端不良内容网站鉴别方法技术

技术编号:6548282 阅读:233 留言:0更新日期:2012-04-11 18:40
基于模式库的智能手机端不良内容网站鉴别方法,网络设有云端服务器提供模式库让智能手机端下载,1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;2)对待访问网站内容,使用分词算法对其进行关键词提取处理;3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;本发明专利技术具有检测率高和误检测率低的优点。

【技术实现步骤摘要】

本专利技术涉及使用模式库对智能手机端不良网站内容进行鉴别的方法。
技术介绍
随着移动互联网的快速发展,其大大推进了智能手机移动产业的蓬勃发展。手机,同个人电脑一样,成为了一种重要的互联网接入与访问设备。据最新资料显示,我国手机用户已经达到了 7亿之众,而通过手机平台进行上网的人士也已经超过了 1.5亿。随之衍生的,手机淫秽色情网站,以及举不胜举的移动终端网络诈骗等也步入用户的视野。针对种种智能终端的安全缺口问题日趋严重化,如何对手机的网络访问进行有效的控制和保护,愈来愈成为一项重要的议题。目前的应对方法主要集中在清查和关闭各种低俗网站上,保护方式并没有覆盖整个色情信息的传递链条,还仅限于行政手段,应在各个环节均有保护和控制的手段,尤其是对于接入互联网的移动终端。另外,由于巨大利益的诱惑,国内外的手机色情网站层出不穷,仅依赖于关闭网站,必然有时延性和一定程度的遗漏率,存在很大的技术和防范漏洞,
技术实现思路
本专利技术目的是提供了一种应用在智能手机终端、利用可更新的分级模式库对网站内容进行分析,评判和反馈的系统方案。尤其是使用模式库对智能手机端可能进行访问的不良网站内容进行鉴别的方法。可以使智能手机自动隔离不良信息网站的不良影响;尤其是通过模式库中多元不良关键词来判决某页面内容是否为不良信息,判断的标准更加精确和全面。本专利技术的目的是通过以下技术方案实现的,网络设有云端服务器提供模式库让智能手机端(客户端)下载。模式库(关键词模式库)以下述方式建立(1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;(2)对于待访问网站所含内容,使用分词算法对其进行关键词提取处理;(3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0; (4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;(5)当某不良等级分数总和达不到阈值时,关键词模式库还提供语义线索行为判别方式;即在模式库中定义一个不良信息关键词序列A、B、C、D,其中A、B、C、D均为不良关键词,其不良等级分数总和达不到阈值,但当某一网站内容以预设序列定义的顺序包含这四个关键词时, 则判决此页面内容为不良信息;(6)将此不良网站内容上传至云端服务器;云端服务器作模式库更新,让客户端下载到最新的模式库。本专利技术的特点是本专利技术提出的方案可以在智能手机终端上对不良信息网站进行鉴别。本专利技术充分利用模式库匹配技术和网络技术,尤其是使用分级模式库的方法对网站页面内容进行打分以获得其不良等级,以避免普通关键词匹配法的高误判率,可以使智能手机自动隔离不良信息网站的不良影响;同时使用语义线索行为判别法,弥补阈值判断法的不足,降低了漏判率。本专利技术尤其是通过模式库中多元不良关键词来判决某页面内容是否为不良信息,判断的标准更加精确和全面。本专利技术可以用于对网络的综合管理的技术手段。四附图说明图1为本专利技术中的方案的应用框图。五具体实施例方式本专利技术中的判决算法在智能手机端不良内容鉴别系统中的应用框图如图1所示。1.生成不良网站内容关键词模式库。对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级。可将关键词模式库分为若干级,每级模式库赋予独一的不良等级分数,分数越高,代表包含此级模式库中关键词的内容为不良信息的可能性越大;2.使用底层hook技术获得待访问网站内容,使用分词算法对其进行关键词提取处理;3.将提取到的关键词与模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0 ;4.将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息。可设多级阈值,根据客户端选择使用,阈值越高,漏判率越低,但误判率越高,阈值越低,漏判率越高,但误判率越低;5.将不良网站内容上传至云存储服务器,以便完善关键词模式库和调整预设阈值,以减少漏判率和误判率;6.除基于阈值判断的方法为外,模式库还提供语义线索行为判别方式。某些不良网站内容的关键词不良等级分数达不到阈值,无法适用阈值判别法,此时可使用语义线索行为判别法。即在模式库中定义一个不良信息关键词序列,例如(A,B, C, D),其中A,B,C,D均为不良关键词,其不良等级分数总和达不到阈值,但当某一网站内容以预设序列定义的顺序包含这四个关键词时,可判决此页面内容为不良信息。根据附图和实施例作进一步说明1、如附图1所示,当获得待访问页面内容1,使用分词模块2获得该页面的关键词3。2、如附图1所示,对页面关键词使用分级模式库4进行分级匹配,获得该页面的不良等级分数5。3、如附图1所示,将不良等级分数5与预设阈值7作阈值比较6,若阈值比较结果 8表明不良等级分数5较大,则判决该页面为不良信息内容;反之,进行语义序列行为判别 9。4、如附图1所示,语义序列行为判别9根据模式库中的序列准则对页面关键词3 进行进一步判决,获得最终判决结果10。5、如附图1所示,将判别结果10作结果反馈11,上传到云端服务器12。6、如附图1所示,云端服务器12根据反馈结果,作模式库更新13,让客户端下载到最新的模式库。即使用云端服务器收集终端反馈信息并更新模式库,利用鉴别出的不良内容关键词对现有模式库作补充,并分发最新的模式库到各个智能手机终端。本文档来自技高网...

【技术保护点】
1.基于模式库的智能手机端不良内容网站鉴别方法,其特征是网络设有云端服务器提供模式库让智能手机端(客户端)下载,模式库(关键词模式库)以下述方式建立:(1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;(2)对待访问网站内容,使用分词算法对其进行关键词提取处理;(3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0;(4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;(5) 当某不良等级分数总和达不到阈值时,关键词模式库还提供语义线索行为判别方式;即在模式库中定义一个不良信息关键词序列 A、B、C、 D,其中A、B、C、 D均为不良关键词,其不良等级分数总和达不到阈值,但当某一网站内容以预设序列定义的顺序包含这四个关键词时,则判决此页面内容为不良信息;(6)将此不良网站内容上传至云端服务器;云端服务器作模式库更新,让客户端下载到最新的模式库。...

【技术特征摘要】
1.基于模式库的智能手机端不良内容网站鉴别方法,其特征是网络设有云端服务器提供模式库让智能手机端(客户端)下载,模式库(关键词模式库)以下述方式建立(1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;(2)对待访问网站内容,使用分词算法对其进行关键词提取处理;(3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级...

【专利技术属性】
技术研发人员:肖波孙浩量刘建树肖顺华李骥
申请(专利权)人:南通海韵信息技术服务有限公司
类型:发明
国别省市:32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1