一种信息处理方法及装置制造方法及图纸

技术编号:16038176 阅读:42 留言:0更新日期:2017-08-19 20:00
本发明专利技术公开了一种信息处理方法及装置。该方法包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。本发明专利技术提供的方法可快速高效地识别网关数据所记录的与多媒体资源相关的URL,进而实现快速高效地对网关数据中的URL进行清洗。

【技术实现步骤摘要】
一种信息处理方法及装置
本专利技术实施例涉及数据挖掘
,尤其涉及一种信息处理方法及装置。
技术介绍
随着互联网的快速发展,运营商所拥有的网关数据越来越多,从网关数据中挖掘出有价值的信息已经成为当下的一个研究热点。其中,网关数据为客户端与服务器通信过程中网关产生的日志记录,网关数据中会记录源互联网协议(InternetProtocol,IP)地址、统一资源定位符(UniformResourceLocator,URL)、目标互联网协议(InternetProtocol,IP)地址、操作系统、操作系统版本、设备信息、用户代理(UserAgent,UA)和请求时间等信息。目前网关数据挖掘中数据清洗的方法,主要是通过网络爬虫获取所有网站的网页,建立一个有效URL库,并将网关数据中的URL与建立的有效URL库进行匹配,若匹配成功,则网关数据中的URL为有效URL,若未匹配成功,则网关数据中的URL为无效URL。然而,由于网页的URL不是固定不变的,有的网页对应的URL经常更新,经过一段时间后,根据建立的有效URL库,无法满足对网关数据进行数据清洗需求。若通过在有效URL库中不断增加更新的URL,实现通过不断更新有效URL库来解决上述问题,则随着有效URL库中有效URL的数量的增加,匹配效率会大幅下降,由此,无法根据有效URL库高效地确定网关数据中的有效URL。
技术实现思路
本专利技术提供一种信息处理方法及装置,以实现快速高效地对网关数据进行清洗。第一方面,本专利技术实施例提供了一种信息处理方法,该方法包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。第二方面,本专利技术实施例还提供了一种信息处理装置,该装置包括:特征库建立模块,用于根据样本URL确定基于多媒体资源存放路径的特征库;字符串获取模块,用于按照分隔符分割目标URL获得所述目标URL的特征字符串;URL标记模块,用于将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。本专利技术通过根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得目标URL的特征字符串;将目标URL的特征字符串与特征库进行匹配,标记匹配成功的特征字符串对应的目标URL,可快速高效地识别并滤除网关数据所记录的与多媒体资源相关的URL,进而实现快速高效地对网关数据中URL进行清洗。附图说明图1是本专利技术实施例一中的一种信息处理方法的流程图;图2是本专利技术实施例二中的一种信息处理方法的流程图;图3是本专利技术实施例二中的网站拓扑连接结构的示意图;图4是本专利技术实施例三中的一种信息处理装置的结构框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种信息处理方法的流程图,本实施例可适用于需对网关数据进行清洗情况,该方法可以由信息处理装置来执行。参见图1,本实施例提供的方法具体包括如下步骤:步骤110、根据样本URL确定基于多媒体资源存放路径的特征库。其中,样本URL为统计用户某一特定上网行为所确定的一个或多个网站的URL,如若需统计具有购车意愿的用户,则可将汽车之家、易车网和\或太平洋汽车网等网站的URL作为样本URL。对于样本URL的获取方式本专利技术不做限定,如可通过抓包软件抓取网站的URL作为样本URL,或通过客户端访问网站,查看源代码获取网站的URL作为样本URL等。在用户通过终端上安装的客户端进行网站的页面的访问时,如浏览器客户端或新闻客户端等,需要先向服务器发送超文本标记语言(HyperTextMark-upLanguage,HTML)请求,从服务器下载HTML文档,并从该HTML文档中解析出多媒体资源请求,再依据多媒体资源请求,从服务器下载所需要的多媒体资源,最后利用HTML文档和该多媒体资源进行页面展现,从而实现页面的完全加载。然而,多媒体资源为访问页面过程中页面自动加载的资源,为网关数据中与统计用户行为无关的信息,因此,需将网关数据中与多媒体资源相关的URL滤除。其中,多媒体资源包括页面所展现的图片信息、视频信息和音频信息等,还可包括脚本语言,如JavaScript(JS)和HypertextPreprocessor(PHP)等。基于网站中多媒体资源存放的路径比较固定,因此在获取样本URL后,可对获取的样本URL进行分析,根据获取的样本URL分析网站的多媒体资源存放路径,从而根据多媒体资源存放路径确定特征库。示例性的,以样本URL来源于汽车之家网站为例,利用抓包软件抓取汽车之家网站的URL作为样本URL,通过对样本URL分析,可确定在访问汽车之家网站的页面时,页面自动加载的图片信息全部存放在automing路径下,如http://x.autoimg.cn/news/index/img/20110803/lazyload140.png,又如http://car1.m.autoimg.cn/logo/fct/100/129302271108651250.jpg,因此,可将automing字符串作为特征放入特征库,还可根据其他多媒体资源,如脚本语言,确定JavaScript(JS)和HypertextPreprocessor(PHP)脚本语言存放的路径中均包括字符串JS或php,因此,将JS和php字符串作为特征放入特征库中,另外根据对样本URL的分析,确定存放路径中包括Ajax、ahsx、admaster和Deliver字符串的URL均为与统计用户行为无关的URL,因此,还可将Ajax、ahsx、admaster和Deliver字符串作为特征放入特征库中,由此,建立基于多媒体资源存放路径的特征库。步骤120、按照分隔符分割目标URL获得目标URL的特征字符串。示例性的,可按照分割符“://”、“.”和“/”分割目标URL,从而获得目标URL的多个特征字符串。如目标URL为http://x.autoimg.cn/news/js/jserror.js?t=20151124,则按照分割符“://”、“.”和“/”分割,可获得http、x、autoimg、cn、news、js、jserror、和js?t=20151124多个特征字符串。步骤130、将目标URL的特征字符串与特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。将分割后得到的目标URL的特征字符串与特征库中的字符串进行匹配,若特征库中存在与目标URL的特征字符串相同的字符串,则匹配成功,标记或删除匹配成功的特征字符串对应的目标URL,以滤除访问网站页面时,与页面自动加载的多媒体资源相关的URL。示例性的,按照分割顺序,依次将分割后得到的目标URL的特征字符串与特征库进行匹配,如依次将http、x、autoimg、cn、news、js、jserror、和js?t=20151124和特征库中的automing、JS、php本文档来自技高网...
一种信息处理方法及装置

【技术保护点】
一种信息处理方法,其特征在于,包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。2.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:获取目标URL的页面停留时间;若所述页面停留时间小于第一时间阈值或大于第二时间阈值,则标记所述目标URL。3.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且所述目标URL不是超链接页面,则标记所述目标URL。4.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数的设备;若是,则对所述IP地址进行标记。5.根据权利要求1所述的方法,其特征在于,所述按照分隔符分割目标URL获得所述目...

【专利技术属性】
技术研发人员:骆宗伟韩帅王博仁黄志云刘金群
申请(专利权)人:南方科技大学深圳市傲天科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1