面向行业领域的同源样本数据分类存储的预处理方法及系统技术方案

技术编号:17099513 阅读:17 留言:0更新日期:2018-01-21 11:16
面向行业领域的同源样本数据分类存储的预处理方法、系统,属于数据处理领域。本发明专利技术方法包括步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。本发明专利技术实现同源样本数据在多个行业领域的用户行为日志集,多维度进行分类预处理存储,为用户网络行为画像和各用户之间的关联提供多维度的数据依据,具有重要作用和商业价值。

A preprocessing method and system for classified storage of homologous sample data in the field of industry

The preprocessing method and system for classified storage of homologous sample data in the field of industry belong to the field of data processing. The method of the invention comprises the steps of: S1, create a different industries platform field keyword set; step S2, obtain the log data of the network behavior of all members of the user in the network, the network behavior log data field, and field division; step S3, according to the network behavior log data through the fields division of the analysis of the network behavior of the members in various fields, basic properties and network behavior to infer the user into the classification storage, preprocessing sample data for homologous industry classified storage. The invention realizes user behavior log set of homologous sample data in multiple industry fields, and classifies and preprocesses storage in multi dimensions. It provides important data for users' network behavior and user relationship.

【技术实现步骤摘要】
面向行业领域的同源样本数据分类存储的预处理方法及系统
本专利技术涉及数据处理领域,尤其涉及一种面向行业领域的同源样本数据分类存储的预处理方法、系统。
技术介绍
互联网和云计算技术的飞速发展,促进行业应用产生的数据呈爆炸性增长,数据量的快速增长标志着人类已经从信息时代步入大数据时代。目前,百度的总数据量已超过1000PB(数据存储单位,1PB=1024TB);淘宝累计的交易数据高达100PB;Twitter(推特)每天发布超过2亿条消息;新浪微博每天发帖量达8000万条。2011年5月,麦肯锡咨询公司发布了名为《大数据:创新、竞争和生产力的下一个前沿领域》报告,报告中表示大数据已经成为现代社会必备的生产要素,数据与各个行业密切相关,大数据将促进未来生产率的提升。网络用户行为是指用户在使用网络资源时呈现的规模性。这通常是通过对用户使用网络资源的数据进行记录、统计和分析得出。用户在使用网络资源是,用户行为可分为信息查询行为、沟通交流行为、休闲娱乐行为、电子服务行为和电子商务服务行为等多方面。互联网技术和大数据技术的发展,使用户对网络服务质量的要求逐步提升,网络服务提供者提供服务的方式也逐渐走向科学,通过对网络用户行为的分析和总结,可以将这些规律与产品或服务的经营策略向结合,发现目前经营服务中的问题,为进一步提高服务质量和经营策略的制定都有非常重要的意义。专利技术专利CN106126113A公开了一种家庭网关业务数据分类存储管理的方法,其具体公开了根据对家庭网关内部的数据进行分类,并存储在flash(固态存储器与动画编辑器)裸分区;对各类数据的读写采用缓存机制,家庭网关上电后,根据加载流程需要某部分数据时,将相应数据从flash裸分区加载到对应缓存,再从缓存加载到内存;读时直接从内存获取,修改时直接修改缓存和内存中的数据,修改完成后,再将数据从缓存回写到对应flash裸分区中。本专利技术避免了多次写flash操作,同时,每次写flash时尽可能控制回写的区域范围,减少对未修改区域的重复写操作,避免了业务数据读写异常和丢失,节约了运营成本。但是,此种方法仅利用了家庭网关分析内部数据并对数据进行分类以达到减少用户操作的过程,没有利用好大量家庭数据进行分析后辅助用户进行更好的生活工作。专利技术专利CN105426478A公开了一种用户行为分析的方法,提供一种用户行为分析的方法,获取用户行为数据,并对用户进行分析,将分析结果展示给商家。本方法包括:采集用户的行为数据,并上传给数据处理系统;数据处理系统对上传的行为数据进行处理;周期性地从数据处理系统中抽取数据,并存储到数据仓库系统;依据数据仓库系统中的存储数据确定用户的行为分析维度,并依据所述行为分析维度在数据库管理系统中建立数据库模型;从数据仓库系统中抽取出目标数据,对目标数据进行清洗和转换,将清洗和转换后的数据进行汇总分析,并将汇总分析后的结果数据加载到数据库管理系统的对应数据表中;将所述结果数据进行各类图形展示。
技术实现思路
本专利技术针对现有技术存在的问题,提出了面向行业领域的同源样本数据分类存储的预处理方法、系统。本专利技术采用通过获取一个家庭内部的网络行为日志集,首先建立各领域平台的URL(统一资源定位符)和UA(用户代理)等字段中关键字;根据硬件设备MAC将家庭内部的数据集(即网络行为日志集)划分成设备数据集;经过行业领域划分的所述网络行为日志数据对所述家庭成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性,并进分类储存,从而实现同源样本数据多维度的用户行为日志信息分类的预处理存储,为用户网络行为画像和各个家庭相互之间的关联关系提供多维度的数据依据,具有重要作用和商业价值。本专利技术是通过以下技术方案得以实现的:面向行业领域的同源样本数据分类存储的预处理方法,包括如下步骤:步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。作为优选,所述步骤S2中获得用户网络内所有成员的网络行为日志数据具体为:步骤S21,由同一个路由器物理地址上报的数据经过解析处理获得到内部的网络行为日志集;步骤S22,根据连接在路由器上的设备物理地址为依据将所述将网络行为日志集进行划分,储存为设备数据集。作为优选,所述步骤S2中还包括筛选步骤S23:对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从设备数据集数据中筛选出特征词。作为优选,所述特征词进行的行业领域匹配在所述关键字集中进行匹配,得出所述设备数据集中每一条统一资源定位符数据的行业领域属性。作为优选,在所述筛选步骤S23之后,当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。作为优选,所述步骤S3中还包括分析步骤S31:根据用户的用户代理标识来判断用户的基本属性;根据经过行业领域划分的所述网络行为日志数据进行领域间的关联分析和相互检测。面向行业领域的同源样本数据分类存储的预处理系统,包括:关键字集建立模块,用于创建包含各行业领域平台字段的关键字集;数据获得模块,用于获得用户网络内所有成员的网络行为日志数据;数据划分模块,用于对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;数据分析模块,用于根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进行分类储存,实现面向行业领域的同源样本数据分类存储的预处理。作为优选,所述数据获得模具体包括:初始数据单元,用于由同一个路由器物理地址上报的数据经过解析处理获得到内部的网络行为日志集;设备数据单元,用于根据连接在路由器上的设备物理地址将所述将网络行为日志集进行划分,储存为设备数据集。作为优选,所述数据划分模块具体为;筛选单元,用于对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从设备数据集数据中筛选出特征词;清洗单元,用于当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。作为优选,所述数据分析模块还包括:分析检测单元,用于根据用户的用户代理标识来判断用户的基本属性;根据经过行业领域划分的所述网络行为日志数据进行领域间的关联分析和相互检测。本专利技术具有以下有益效果:本专利技术实现同源样本数据在多个行业领域的用户行为日志集,多维度进行分类预处理存储,为用户网络行为画像和各用户之间的关联提供多维度的数据依据,具有重要作用和商业价值。附图说明图1为本专利技术的方法总流程图;图2为步骤S2的具体流程图;图3为筛选步骤S23之后清洗的流程图;图4为本专利技术的系统总框图;图5为数据划分模块的具体框图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。在当前常规情况下对用户的网络行为进行分析利用,一般在网络端获取用户的访问查询行为轨迹,本文档来自技高网
...
面向行业领域的同源样本数据分类存储的预处理方法及系统

【技术保护点】
面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,包括如下步骤:步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。

【技术特征摘要】
1.面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,包括如下步骤:步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。2.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S2中获得用户网络内所有成员的网络行为日志数据具体为:步骤S21,由同一个路由器物理地址上报的数据经过解析处理获得到的网络行为日志集;步骤S22,根据连接在路由器上的设备物理地址将所述将网络行为日志集进行划分,储存为设备数据集。3.根据权利要求2所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S2中还包括筛选步骤S23:对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从设备数据集数据中筛选出特征词。4.根据权利要求3所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述特征词进行的行业领域匹配在所述关键字集中进行匹配,得出所述设备数据集中每一条统一资源定位符数据的行业领域属性。5.根据权利要求3所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,在所述筛选步骤S23之后,当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。6.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S3中还包括分...

【专利技术属性】
技术研发人员:魏晓林
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1