一种网页数据处理方法及装置制造方法及图纸

技术编号:10369839 阅读:144 留言:0更新日期:2014-08-28 12:28
本申请实施例公开了一种网页数据处理方法及装置,其通过获取同一网页地址对应的预设网页和待测网页,并分别在上述预设网页和待测网页中存在实际内容的区域设置第一标识,以上述预设网页为基准,判断待测网页中设置有第一标识的区域是否与预设网页中设置有第一标识的区域匹配,根据判断结果判定该待测网页是否存在过滤问题。本申请能够自动检测多个网站、多个网页地址对应的网页的过滤问题;在某网页地址对应的网页排版样式和/或框架代码改变后,只需相应改变该网页地址对应的预设网页即可继续准确执行自动检测。因此,相对于人工检测法,本申请能够快速、及时地检测出网页存在的过滤问题,提高检测效率,尤其适用于待测网页数量巨大的场合。

【技术实现步骤摘要】
一种网页数据处理方法及装置
本申请涉及移动通信
,特别是涉及一种网页数据处理方法及装置。
技术介绍
网站运营者通常会在网页内植入某些商家的数据,例如广告,以相应获得这些商家的赞助,进而保障网站的正常运行及盈利;但对于用户来说,网页中植入的这些数据均属于非有效内容,其存在给用户带来了诸多不便,如:用户在浏览一个新网页时,首先需要区分其中的广告等非有效内容和有效内容;或者,由于广告内容对相应网页区域中有效内容的遮挡,导致用户难以获取该有效内容。为了给用户提供一个洁净的网络环境,多数浏览器都设置有过滤功能,以滤除网页中植入的非有效内容,例如过滤广告;其过滤原理一般为:根据待过滤网页的排版样式、框架代码等特征制定对应的过滤规则,通过该过滤规则来识别网页中的非有效内容(例如广告),并阻断非有效内容在网页中的加载过程或将非有效内容在页面中隐藏,不进行显示。但实际应用中,由于网页的排版样式会随着网站的更新而发生变化,或者,网站维护者为避免其植入的数据被过滤而刻意更改网页的排版样式或框架代码等特征,导致预设的过滤规则不再适用于更新后的网页,从而出现过滤失效、误过滤有效内容等过滤问题。因此,需要及时发现上述过滤问题,以便优化过滤方法,提高过滤准确度。一般的,通过人工检测法来确定网页是否存在过滤问题,能够保证检测结果的准确性,但由于网站数量巨大,且每个网站每天可能更新十几次甚至更多,该人工检测法无法保证及时检测到每次过滤问题,检测效率极低。
技术实现思路
本申请实施例中提供了一种网页数据处理方法及装置,以解决人工检测网页过滤问题所存在的检测不及时、效率低的问题,实现快速有效地发现过滤问题。为了解决上述技术问题,本申请实施例公开了如下技术方案:第一方面,提供一种网页数据处理方法,包括:获取待测网页,以及所述待测网页的网页地址对应的预设网页;分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。结合第一方面,在第一方面第一种可能的实现方式中,所述第一标识为预设颜色,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;当所述实际内容为文字时,设置所述文字的颜色为所述预设颜色;当所述实际内容为图片时,删除所述图片。结合第一方面,在第一方面第二种可能的实现方式中,所述第一标识为边框,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。结合第一方面,在第一方面第三种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;计算所述第一总面积和第二总面积之间的第三比值;判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。结合第一方面第三种可能的实现方式,在第一方面第四种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:如果所述第三比值小于所述预设范围的最小值,则判定所述待测网页存在过滤失效;如果所述第三比值大于所述预设范围的最大值,则判定所述待测网页存在误过滤。结合第一方面第一种可能的实现方式,在第一方面第五种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;判断所述第一比值是否小于第一预设比值;如果所述第一比值小于第一预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。结合第一方面第五种可能的实现方式,在第一方面第六种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同;如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤。结合第一方面第二种可能的实现方式,在第一方面第七种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值;判断所述第二比值是否小于第二预设比值;如果所述第二比值小于第二预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。结合第一方面第七种可能的实现方式,在第一方面第八种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:当所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效;当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。结合第一方面,或者第一方面的第一种至第八种可能的实现方式中的任意一种,在第一方面第九种可能的实现方式中,在判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配之前,所述网页数据处理方法还包括:分别将所述预设网页和待测网页划分为一一对应的多个比较区域;相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。第二方面,提供了一种网页数据处理装置,包括:网页获取单元,用于分别获取待测网页,以及所述待测网页的网页地址对应的预设网页;网页标记单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;网页匹配单元,用于判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;结果确定单元,用于在所述预设网页与待测网页中设置有所述第一标识的区域相匹配时,判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。结合第二方面,在第二方面第一种可能的实现方式中,所述第一标识包括预设颜色,所述网页标记单元包括:背景设置单元,用于分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;文字处理单元,用于当所述预设网页和/或待测网页中的实际内容为文字时,设置所述文字的颜色为所述预设颜色;图片处理单元,用于当所述预设网页和/本文档来自技高网...

【技术保护点】
一种网页数据处理方法,其特征在于,包括:获取待测网页,以及所述待测网页的网页地址对应的预设网页;分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。

【技术特征摘要】
1.一种网页数据处理方法,其特征在于,包括: 获取待测网页,以及所述待测网页的网页地址对应的预设网页; 分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识; 判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配; 如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。2.根据权利要求1所述的网页数据处理方法,其特征在于, 所述第一标识为预设颜色,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;当所述实际内容为文字时,设置所述文字的颜色为所述预设颜色;当所述实际内容为图片时,删除所述图片;或者, 所述第一标识为边框,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。3.根据权利要求1所述的网页数据处理方法,其特征在于,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 分别计算所述预设网页 中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积; 计算所述第一总面积和第二总面积之间的第三比值; 判断所述第三比值是否在预设范围内; 如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。4.根据权利要求3所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括: 如果所述第三比值小于所述预设范围的最小值,则判定所述待测网页存在过滤失效; 如果所述第三比值大于所述预设范围的最大值,则判定所述待测网页存在误过滤。5.根据权利要求2所述的网页数据处理方法,其特征在于,当所述第一标识为预设颜色时,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同; 计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值; 判断所述第一比值是否小于第一预设比值; 如果所述第一比值小于第一预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。6.根据权利要求5所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括:判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同; 如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤。7.根据权利要求2所述的网页数据处理方法,其特征在于,当所述第一标识为边框时,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值; 判断所述第二比值是否小于第二预设比值; 如果所述第二比值小于第二预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。8.根据权利要求7所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括: 当所述预设网页中,与所述待测 页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效; 当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。9.根据权利要求1至8任一项所述的网页数据处理方法,其特征在于,在判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配之前,所述网页数据处理方法还包括: 分别将所述预设网页和待测网页划分为一一对应的多个比较区域; 相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。10.一种网页数据处理装置,其特征在于,包括: 网页获取单元,用于分别获取待测网页,以及所述待测网页的网页地址对应的预设网页; 网页标记单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识; 网页匹配单元,用于判断所述预设网页与所述待测网页中设置有所述...

【专利技术属性】
技术研发人员:王晓振
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1