广告物料数据网址验证方法和装置制造方法及图纸

技术编号:14743573 阅读:38 留言:0更新日期:2017-03-01 18:59
本发明专利技术公开了一种广告物料数据网址验证方法和装置,涉及广告技术领域。所述方法包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;对于各个第一分类,抽样选择N个网址进行验证。本发明专利技术取得了可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。

【技术实现步骤摘要】

本专利技术涉及广告
,具体涉及一种广告物料数据网址验证方法和装置
技术介绍
对于广告平台,每个广告投放方都会在该广告平台注册一个广告账户,然后该商家可以在其客户端中登录广告平台,将其编辑好的各条广告物料数据上传至该广告平台中,该广告物料数据可以理解为包括广告内容,该广告内容文本、图片等的数据,还包括对应的URL(UniformResourceLocator,统一资源定位符)。在实际应用中,广告平台为了保证上线后可以正常被访问,避免广告物料数据出现无法访问的情况,提高广告召回率,广告平台会对所有的上传的广告物料数据的网址进行验证。当广告物料数据网址验证为可连通之后,广告平台才会将该广告物料数据上线,使其可以被检索以及展示。但是,实际应用中,广告平台接收的各个广告投放方上传的广告物料数据,其数据量可能在上亿条,而如果要对每个广告物料数据的网址均进行验证,其验证量太大,并且速度慢,效率低。而如果按照广告物料数据的网址的所在的主域名进行验证,那么由于该主域名与主域名下的某些网址可能由于对应的文件位置或者参数的不同,使对主域名的验证结果不能完全代表其各个网址的验证结果,该种验证可能存在误差。并且如果主域名验证未通过,则需要逐个对该主域名下的各个网址逐个进行再次验证,其定位范围太广,导致再次验证的数据量也很庞大。
技术实现思路
-鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的广告物料数据网址验证装置和相应的广告物料数据网址验证方法。依据本专利技术的一个方面,提供了一种广告物料数据网址验证方法,包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;对于各个第一分类,抽样选择N个网址进行验证。优选地,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。优选地,所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。优选地,所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;对于归一化后的网址,统计各个参数名出现的第二个数;判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。优选地,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。优选地,所述对于各个第一分类,抽样选择N个网址进行验证,包括:从各个第一分类中,抽样选择N个网址;根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。优选地,所述对获得的各验证分组,循环对各个验证分组进行验证包括:判断是否存在还未验证完毕的验证分组;如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;如果不存在还未验证完毕的验证分组,则验证结束。优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证包括:从未验证的网址中,逐个选择网址进行验证;在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。优选地,所述将各个网址进行验证,包括:在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。优选地,所述重新对所述第一分类中的网址进行验证包括:对第一分类中再抽样M次进行验证,每次抽样N个网址;根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。依据本专利技术的另外一个方面,本专利技术公开了一种广告物料数据网址验证装置,包括:获取模块,适于获取各个未验证的广告物料数据的网址;分类模块,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;抽样验证模块,适于对于各个第一分类验证模块,适于将各个网址进行验证。优选地,所述分类模块包括:第一分类模块,适于对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;第二分类模块,适于对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。优选地,所述第三分类模块包括:频率统计模块,适于针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;频率分类模块,适于对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。优选地,所述频率统计模块包括:归一化模块,适于对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;参数合并模块,适于对于归一化后的网址,统计各个参数名出现的第二个数;支持度判断模块,适于判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;第一频率统计模块,适于如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。优选地,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;所述路径信息包本文档来自技高网...
广告物料数据网址验证方法和装置

【技术保护点】
一种广告物料数据网址验证方法,包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;对于各个第一分类,抽样选择N个网址进行验证。

【技术特征摘要】
1.一种广告物料数据网址验证方法,包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;对于各个第一分类,抽样选择N个网址进行验证。2.根据权利要求1所述的方法,其特征在于,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。3.根据权利要求2所述的方法,其特征在于,所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。4.根据权利要求3所述的方法,其特征在于,所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;对于归一化后的网址,统计各个参数名出现的第二个数;判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持
\t度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。5.根据权利要求2所述的方法,其特征在于:所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;所述路径信息包括网址中的主域名之后第一个“...

【专利技术属性】
技术研发人员:潘青
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1