【技术实现步骤摘要】
一种信息处理方法及装置
本专利技术实施例涉及数据挖掘
,尤其涉及一种信息处理方法及装置。
技术介绍
随着互联网的快速发展,运营商所拥有的网关数据越来越多,从网关数据中挖掘出有价值的信息已经成为当下的一个研究热点。其中,网关数据为客户端与服务器通信过程中网关产生的日志记录,网关数据中会记录源互联网协议(InternetProtocol,IP)地址、统一资源定位符(UniformResourceLocator,URL)、目标互联网协议(InternetProtocol,IP)地址、操作系统、操作系统版本、设备信息、用户代理(UserAgent,UA)和请求时间等信息。目前网关数据挖掘中数据清洗的方法,主要是通过网络爬虫获取所有网站的网页,建立一个有效URL库,并将网关数据中的URL与建立的有效URL库进行匹配,若匹配成功,则网关数据中的URL为有效URL,若未匹配成功,则网关数据中的URL为无效URL。然而,由于网页的URL不是固定不变的,有的网页对应的URL经常更新,经过一段时间后,根据建立的有效URL库,无法满足对网关数据进行数据清洗需求。若通过在有效URL ...
【技术保护点】
一种信息处理方法,其特征在于,包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:根据样本URL确定基于多媒体资源存放路径的特征库;按照分隔符分割目标URL获得所述目标URL的特征字符串;将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL。2.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:获取目标URL的页面停留时间;若所述页面停留时间小于第一时间阈值或大于第二时间阈值,则标记所述目标URL。3.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且所述目标URL不是超链接页面,则标记所述目标URL。4.根据权利要求1所述的方法,其特征在于,所述将所述目标URL的特征字符串与所述特征库进行匹配,标记匹配成功的特征字符串对应的目标URL之后,还包括:根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数的设备;若是,则对所述IP地址进行标记。5.根据权利要求1所述的方法,其特征在于,所述按照分隔符分割目标URL获得所述目...
【专利技术属性】
技术研发人员:骆宗伟,韩帅,王博仁,黄志云,刘金群,
申请(专利权)人:南方科技大学,深圳市傲天科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。