【技术实现步骤摘要】
本专利技术涉及,属人工智能领域。
技术介绍
随着互联网的飞速发展,网络在成为人们获取信息源泉的同时,网页上的不良信息随之泛滥,如何进行信息的监控和过滤成为了新的研究课题。现今流行的过滤软件多采用网址数据库匹配和网页内容关键词统计等实时过滤技术。这些方法虽然简单有效,但是由于仅基于文本的简单匹配而忽略了中文自然语言词语的多义性和语义约束,无法有效识别网页的语义倾向性信息,有时会出现误判和漏判,降低了过滤的准确率。对此,本专利技术提出了一种基于文本语义的网页过滤技术,使用贝叶斯分类算法分析网页特征,并对拦截的领域网页结合领域本体进一步计算语义相关度并决定是否屏蔽该网页。贝叶斯分类算法改进了文本的匹配方式,原理简单,健壮性强,算法速度快。本体作为领域的知识库,可以有效表示领域的语义信息,并进行文本语义相似度计算。
技术实现思路
本专利技术提出并实现了,该方法能有效并高速地过滤不良网页,满足用户的使用需求。本专利技术通过下述技术方案完成本体。 (1)利用代理服务器机制,为浏览器配置改进后的代理服务器,实现网页的抓取。(2)根据正例网页和反例网页计算特征词的权重,建立领域特征 ...
【技术保护点】
一种中文网页语义过滤方法的实现步骤:(1)利用代理服务器机制,为浏览器配置改进后的代理服务器,实现网页的抓取;(2)根据正例网页和反例网页计算特征词的权重,建立领域特征词库并制作领域本体;(3)根据正例文本计算本体元素在网页各部分的权重,得到本体元素权重库;(4)从网络应用层截取网页,根据贝叶斯分类算法确定候选网页;(5)对候选网页进行语义相关度计算并进行网页过滤,获得过滤后的网页。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘杰,吴敏华,骆力明,李冬乐,顾卓蓉,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。