搜索引擎来源信息的解析方法及装置制造方法及图纸

技术编号:15616849 阅读:70 留言:0更新日期:2017-06-14 03:34
本申请公开了一种搜索引擎来源信息的解析方法及装置。该方法包括:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息。通过本申请,解决了相关技术中解析搜索引擎来源信息的准确性较低的问题。

【技术实现步骤摘要】
搜索引擎来源信息的解析方法及装置
本申请涉及网站分析领域,具体而言,涉及一种搜索引擎来源信息的解析方法及装置。
技术介绍
目前,越来越多网站热衷于进行网站访客行为的研究,即网站分析。其中,解析搜索引擎来源信息是网站分析中非常重要的一步。通常,相关技术中会根据来源网页地址(来源URL)进行解析,如来源URL符合搜索引擎页面预设格式(例如,baidu.com/s?word=xxx),则搜索引擎页面可以对其进行继续解析。然而,一些搜索引擎为了保护用户的关键词隐私,对搜索引擎网站做了特殊处理,使得用户在点击搜索引擎内容时,不会直接跳转至目标网站,而是中途经过若干跳转页面,最后到达目标网站,使得目标网站上的javascript代码得到的来源URL是跳转页面URL而非搜索引擎页面URL,使得最终难以解析出搜索引擎来源信息,甚至会被直接判别为非搜索引擎来源。针对相关技术中解析搜索引擎来源信息的准确性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种搜索引擎来源信息的解析方法及装置,以解决相关技术中解析搜索引擎来源信息的准确性较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种搜索引擎来源信息的解析方法。该方法包括:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息。进一步地,解析目标网页地址对应的搜索引擎来源信息包括:确定预设格式中搜索引擎来源信息对应的位置信息;在目标网页地址上确定与位置信息对应的目标位置;提取目标网页地址中目标位置上的内容信息;以及将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。进一步地,在判断目标网页地址的格式是否符合预设格式之后,该方法还包括:如果目标网页地址的格式不符合预设格式,确定目标网页地址为不属于搜索引擎来源的网页地址;将目标网页地址发送至目标地址;以及在目标地址上对目标网页地址进行解析。进一步地,在判断目标网页地址的格式是否符合预设格式之前,该方法还包括:从历史数据中获取目标数量的跳转页面地址;根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。进一步地,如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式包括:如果目标网页地址的格式不符合搜索引擎页面的格式,确定目标网页地址为跳转页面地址;以及将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。为了实现上述目的,根据本申请的另一方面,提供了一种搜索引擎来源信息的解析装置。该装置包括:第一获取单元,用于获取待解析搜索引擎来源信息的目标网页地址;第一判断单元,用于判断目标网页地址的格式是否符合搜索引擎页面的格式;第二判断单元,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及第一解析单元,用于在目标网页地址的格式符合预设格式的情况下,解析目标网页地址对应的搜索引擎来源信息。进一步地,第一解析单元包括:第一确定模块,用于确定预设格式中搜索引擎来源信息对应的位置信息;第二确定模块,用于在目标网页地址上确定与位置信息对应的目标位置;提取模块,用于提取目标网页地址中目标位置上的内容信息;以及第三确定模块,用于将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。进一步地,该装置还包括:确定单元,用于在目标网页地址的格式不符合预设格式的情况下,确定目标网页地址为不属于搜索引擎来源的网页地址;发送单元,用于将目标网页地址发送至目标地址;以及第二解析单元,用于在目标地址上对目标网页地址进行解析。进一步地,该装置还包括:第二获取单元,用于从历史数据中获取目标数量的跳转页面地址;统计单元,用于根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及存储单元,用于将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。进一步地,第二判断单元包括:第四确定模块,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,确定目标网页地址为跳转页面地址;以及判断模块,用于将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。通过本申请,采用以下步骤:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息,解决了相关技术中解析搜索引擎来源信息的准确性较低的问题,进而达到了提升解析搜索引擎来源信息的准确性的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的搜索引擎来源信息的解析方法的流程图;以及图2是根据本申请实施例的搜索引擎来源信息的解析装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了便于描述,以下对本申请实施例涉及的术语进行说明:统一资源定位符(UniformResourceLocator,简称URL)也被称为网页地址,是因特网上标准的资源的地址。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由下列三部分组成:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP地址(有时也包括端本文档来自技高网
...
搜索引擎来源信息的解析方法及装置

【技术保护点】
一种搜索引擎来源信息的解析方法,其特征在于,包括:获取待解析搜索引擎来源信息的目标网页地址;判断所述目标网页地址的格式是否符合搜索引擎页面的格式;如果所述目标网页地址的格式不符合所述搜索引擎页面的格式,判断所述目标网页地址的格式是否符合预设格式,其中,所述预设格式为根据跳转页面地址预先配置的格式;以及如果所述目标网页地址的格式符合所述预设格式,解析所述目标网页地址对应的搜索引擎来源信息。

【技术特征摘要】
1.一种搜索引擎来源信息的解析方法,其特征在于,包括:获取待解析搜索引擎来源信息的目标网页地址;判断所述目标网页地址的格式是否符合搜索引擎页面的格式;如果所述目标网页地址的格式不符合所述搜索引擎页面的格式,判断所述目标网页地址的格式是否符合预设格式,其中,所述预设格式为根据跳转页面地址预先配置的格式;以及如果所述目标网页地址的格式符合所述预设格式,解析所述目标网页地址对应的搜索引擎来源信息。2.根据权利要求1所述的方法,其特征在于,解析所述目标网页地址对应的搜索引擎来源信息包括:确定所述预设格式中搜索引擎来源信息对应的位置信息;在所述目标网页地址上确定与所述位置信息对应的目标位置;提取所述目标网页地址中目标位置上的内容信息;以及将所述目标网页地址中目标位置上的内容信息作为所述目标网页地址对应的搜索引擎来源信息。3.根据权利要求1所述的方法,其特征在于,在判断所述目标网页地址的格式是否符合预设格式之后,所述方法还包括:如果所述目标网页地址的格式不符合所述预设格式,确定所述目标网页地址为不属于搜索引擎来源的网页地址;将所述目标网页地址发送至目标地址;以及在所述目标地址上对所述目标网页地址进行解析。4.根据权利要求1所述的方法,其特征在于,在判断所述目标网页地址的格式是否符合预设格式之前,所述方法还包括:从历史数据中获取目标数量的跳转页面地址;根据所述目标数量的跳转页面地址统计跳转页面地址的目标格式;以及将所述跳转页面地址的目标格式作为所述预设格式,并将所述预设格式存储至预设数据列表。5.根据权利要求4所述的方法,其特征在于,如果所述目标网页地址的格式不符合所述搜索引擎页面的格式,判断所述目标网页地址的格式是否符合预设格式包括:如果所述目标网页地址的格式不符合所述搜索引擎页面的格式,确定所述目标网页地址为跳转页面地址;以及将所述目标网页地址的格式与所述预设数据列表中的预设格式进行逐个匹配,以判断所述目标网页地址的格式是否符合预设格式。6.一种搜索引擎来源信息的解析装置,其特...

【专利技术属性】
技术研发人员:储雨知
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1