一种针对互联网行为进行分析的方法技术

技术编号:11362542 阅读:99 留言:0更新日期:2015-04-29 13:06
本发明专利技术一种针对互联网行为进行分析的方法,包括如下步骤:步骤一、利用接口服务器下载网络日志;步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单;步骤三、将APP清单与客户端应用库进行匹配;步骤四、将URL清单与关键词库和网址分类库进行匹配;步骤五、生成网络用户APP清单和APP兴趣点汇总表;步骤六、生成网络用户URL清单和URL兴趣点汇总表;步骤七、得出用户上网偏好表。本发明专利技术对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。

【技术实现步骤摘要】

本专利技术涉及大数据数据分析处理
,具体涉及一种针对互联网行为进行分析的方法
技术介绍
在电商领域中,用户行为信息量之大令人难以想象,据专注于电商行业用户行为分析的不完全统计,一个用户在选择一个产品之前,平均要浏览5个网站、36个页面,在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并进行衍生,一个用户的购买可能会受数千个行为维度的影响。对于一个一天PU近百万的中型电商上,这代表着一天近1TB的活跃数据。而放到整个中国电商的角度来看,更意味着每天高达数千TB的活跃数据。正是这些浏览的行为信息,可以深度地反映出潜在客户的心理和行为意向。如果对这些行为数据进行分析,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐,则将具有重大意义。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种针对互联网行为进行分析的方法,以对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签。为实现上述目的,本专利技术的技术方案为:一种针对互联网行为进行分析的方法,包括如下步骤:步骤一、利用接口服务器通过FTP方式下载网络日志;步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表。进一步地,步骤三中,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段。进一步地,步骤四中,关键词库可以包括对应于关键词的字段,网址匪类库可以包括对应于网址的字段。进一步地,步骤四中,具体包括:步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;步骤42、通过分词技术对网页内容分词;步骤43、计算关键词在关键词库中的分布矩阵;步骤44、计算关键词在关键词库中的分布系数;步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方 法得到判断文本分类的拟合公式;步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分, 实现对待分类文本的分类。进一步地,步骤七中,用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。进一步地。相较于现有技术,本专利技术针对互联网行为进行分析的方法,以对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。附图说明图1为本专利技术的方法流程图示。图2为本专利技术整体架构图示。具体实施方式本专利技术实施例提供了一种针对互联网行为进行分析的方法。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本专利技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。参照图1-图2所示,本专利技术一种针对互联网行为进行分析的方法,包括如下步骤:步骤一、利用接口服务器通过FTP方式下载网络日志;步骤二、上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段;步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总,关键词库可以包括对应于关键词的字段,网址匪类库可以包括对应于网址的字段;步骤四中,具体包括:步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;通过网络爬虫,爬取网页内容,剔除图片、视频等无效资源,保留文本内容;步骤42、通过分词技术对网页内容分词;步骤43、计算关键词在关键词库中的分布矩阵;步骤44、计算关键词在关键词库中的分布系数;步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方 法得到判断文本分类的拟合公式;步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分, 实现对待分类文本的分类;步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表,该用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。实现了对互联网行为标签体系的设计;通过对用户访问网址、使用APP、在网页上进行搜索、上网时段、使用终端等方面,构建用户互联网行为标签库。本专利技术能对海量数据有效的进行处理和加工,把互联网中杂乱无章的数据进行数据清洗和提炼出来,实现对用户上网行为的识别,针对客户的互联网行为打上相应的标签。通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本专利技术可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本专利技术而言更多情况下软件程序实现是更佳的实施方式。基于这样本文档来自技高网...

【技术保护点】
一种针对互联网行为进行分析的方法,其特征在于,包括如下步骤:步骤一、利用接口服务器通过FTP方式下载网络日志;步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表。

【技术特征摘要】
1.一种针对互联网行为进行分析的方法,其特征在于,包括如下步骤:
步骤一、利用接口服务器通过FTP方式下载网络日志;
步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;
步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;
步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;
步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;
步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;
步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表。
2.如权利要求1所述针对互联网行为进行分析的方法,其特征在于:步骤三中,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段。
3.如权利要求2所述针对互联网行为进行...

【专利技术属性】
技术研发人员:徐宏伟王传超何嘉
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1