一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法技术

技术编号:8682793 阅读:214 留言:0更新日期:2013-05-09 02:44
本发明专利技术公开了一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,属于网络技术领域。本发明专利技术先从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性,然后运用启发式判定规则将不符合深网查询接口的表单特征的网页直接排除;接着对于未被排除的网页利用通过训练得到的迭代式朴素贝叶斯分类器对该网页进行判定,最后依据判定结果得出该网页是否属于深网查询接口。本发明专利技术实现了深网查询接口的有效判定,在该方法无论是在查全率还是查准率上和现有技术相比都有所提高。

【技术实现步骤摘要】

本专利技术属于网络
,更准确地说是涉及一种深网查询接口判定的方法。
技术介绍
众所周知,互联网杂乱无章,按其所蕴涵信息的深度可以划分为浅网(SurfaceWeb)和深网(Deep Web)两大部分。Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。而Deep Web又称为看不见的网页,是指通用搜索引擎由于技术原因无法索引到的那部分信息。Deep Web与Surface Web相比有如下优点:一、Deep Web蕴含的信息量远高于Surface Web,据估计至少约为其400 500倍;二、对Deep Web数据的访问量比SurfaceWeb要高,据估计至少约高出15% ;三、Deep Web蕴含的信息量比Surface Web的质量更高;四、Deep Web的增长速度要远大于Surface Web ;五、超过50%的Deep Web的内容是特定于某个域的,即面向某个领域;六、整个Deep Web覆盖了现实世界中的各个领域,比如商业、教育、政府等等;七、Deep Web上95%的信息是公开访问的,可以免费获取。因此,相比于Surface Web而言,De本文档来自技高网...

【技术保护点】
一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,包括下列步骤:1)从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性;2)运用启发式判定规则、结合步骤1)中提取的网页表单以及网页表单中的表单元素属性,对获取到的网页进行判定,将判定结果中不属于深网查询接口的网页直接排除,其中所述启发式判定规则是利用事先归纳的不符合深网查询接口的特征与某网页进行比对、如该网页中含有事先归纳的不符合深网查询接口的特征则判定该网页不属于深网查询接口的规则;3)利用迭代式朴素贝叶斯分类器对步骤2)中未被排除的网页进行判定,其中该迭代式朴素贝叶斯分类器通过采用Adaboost迭代算法...

【技术特征摘要】
1.种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,包括下列步骤: 1)从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性; 2)运用启发式判定规则、结合步骤I)中提取的网页表单以及网页表单中的表单元素属性,对获取到的网页进行判定,将判定结果中不属于深网查询接口的网页直接排除,其中所述启发式判定规则是利用事先归纳的不符合深网查询接口的特征与某网页进行比对、如该网页中含有事先归纳的不符合深网查询接口的特征则判定该网页不属于深网查询接口的规则; 3)利用迭代式朴素贝叶斯分类器对步骤2)中未被排除的网页进行判定,其中该迭代式朴素贝叶斯分类器通过采用Adaboost迭代算法将多个朴素贝叶斯分类器集合而获得; 4)依据步骤3)中的判定结果得出网页是否属于深网查询接口。2.据权利要求1所述的一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,所述启发式判定规则包括:如果网页中没有出现〈FORM〉标签或有〈FORM〉标签但没有TEXT控件,或者网页表单中含有PASSWORD控件,或者网页表单中含有TEXTAREA控件,或者网页表单中只有一个TEXT控件同时伴随着出现“搜索”、“高级搜索”、“search”、“query”的关键词且TEXT控件的maxlength属性值大于等于100,或者网页表单中的控件总数少于三个,或者网页代码文件头中出现的〈titleX/title〉标记中的内容,则判定该网页不属于深网查询接口。3.据权利要求1所述的一种采用迭代式朴素贝叶斯分类器...

【专利技术属性】
技术研发人员:戚春超
申请(专利权)人:江苏瑞中数据股份有限公司国家电网公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1