一种中文网页语义过滤方法技术

技术编号：8453095 阅读：214 留言：0更新日期：2013-03-21 17:35

鉴于各种不良网页对互联网用户的影响以及现今流行的多种网页过滤软件在自然语言的多义性和同义性以及语义的约束性方面有着一定的局限性，本发明专利技术提出了一种中文网页语义过滤方法，该方法首先根据正反例领域网页计算领域特征词的权重，建立领域特征词库并制作领域本体，根据正例文本得到本体元素权重库；然后利用修改后的代理服务器抓取网页并使用贝叶斯分类算法得到候选网页；最后根据领域本体对候选网页进行语义相关度计算并进行网页过滤。该方法可以区分同领域网页中的正反例网页并可兼顾网页过滤的实时性。通过大量游戏领域网页的测试，该方法正确识别率在98％以上，效果令人满意，满足用户的使用需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属人工智能领域。
技术介绍
随着互联网的飞速发展，网络在成为人们获取信息源泉的同时，网页上的不良信息随之泛滥，如何进行信息的监控和过滤成为了新的研究课题。现今流行的过滤软件多采用网址数据库匹配和网页内容关键词统计等实时过滤技术。这些方法虽然简单有效，但是由于仅基于文本的简单匹配而忽略了中文自然语言词语的多义性和语义约束，无法有效识别网页的语义倾向性信息，有时会出现误判和漏判，降低了过滤的准确率。对此，本专利技术提出了一种基于文本语义的网页过滤技术，使用贝叶斯分类算法分析网页特征，并对拦截的领域网页结合领域本体进一步计算语义相关度并决定是否屏蔽该网页。贝叶斯分类算法改进了文本的匹配方式，原理简单，健壮性强，算法速度快。本体作为领域的知识库，可以有效表示领域的语义信息，并进行文本语义相似度计算。
技术实现思路
本专利技术提出并实现了，该方法能有效并高速地过滤不良网页，满足用户的使用需求。本专利技术通过下述技术方案完成本体。 (1)利用代理服务器机制，为浏览器配置改进后的代理服务器，实现网页的抓取。(2)根据正例网页和反例网页计算特征词的权重，建立领域特征...

【技术保护点】
一种中文网页语义过滤方法的实现步骤：(1)利用代理服务器机制，为浏览器配置改进后的代理服务器，实现网页的抓取；(2)根据正例网页和反例网页计算特征词的权重，建立领域特征词库并制作领域本体；(3)根据正例文本计算本体元素在网页各部分的权重，得到本体元素权重库；(4)从网络应用层截取网页，根据贝叶斯分类算法确定候选网页；(5)对候选网页进行语义相关度计算并进行网页过滤，获得过滤后的网页。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘杰，吴敏华，骆力明，李冬乐，顾卓蓉，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人