The preprocessing method and system for classified storage of homologous sample data in the field of industry belong to the field of data processing. The method of the invention comprises the steps of: S1, create a different industries platform field keyword set; step S2, obtain the log data of the network behavior of all members of the user in the network, the network behavior log data field, and field division; step S3, according to the network behavior log data through the fields division of the analysis of the network behavior of the members in various fields, basic properties and network behavior to infer the user into the classification storage, preprocessing sample data for homologous industry classified storage. The invention realizes user behavior log set of homologous sample data in multiple industry fields, and classifies and preprocesses storage in multi dimensions. It provides important data for users' network behavior and user relationship.
【技术实现步骤摘要】
面向行业领域的同源样本数据分类存储的预处理方法及系统
本专利技术涉及数据处理领域,尤其涉及一种面向行业领域的同源样本数据分类存储的预处理方法、系统。
技术介绍
互联网和云计算技术的飞速发展,促进行业应用产生的数据呈爆炸性增长,数据量的快速增长标志着人类已经从信息时代步入大数据时代。目前,百度的总数据量已超过1000PB(数据存储单位,1PB=1024TB);淘宝累计的交易数据高达100PB;Twitter(推特)每天发布超过2亿条消息;新浪微博每天发帖量达8000万条。2011年5月,麦肯锡咨询公司发布了名为《大数据:创新、竞争和生产力的下一个前沿领域》报告,报告中表示大数据已经成为现代社会必备的生产要素,数据与各个行业密切相关,大数据将促进未来生产率的提升。网络用户行为是指用户在使用网络资源时呈现的规模性。这通常是通过对用户使用网络资源的数据进行记录、统计和分析得出。用户在使用网络资源是,用户行为可分为信息查询行为、沟通交流行为、休闲娱乐行为、电子服务行为和电子商务服务行为等多方面。互联网技术和大数据技术的发展,使用户对网络服务质量的要求逐步提升,网络服务提供者提供服务的方式也逐渐走向科学,通过对网络用户行为的分析和总结,可以将这些规律与产品或服务的经营策略向结合,发现目前经营服务中的问题,为进一步提高服务质量和经营策略的制定都有非常重要的意义。专利技术专利CN106126113A公开了一种家庭网关业务数据分类存储管理的方法,其具体公开了根据对家庭网关内部的数据进行分类,并存储在flash(固态存储器与动画编辑器)裸分区;对各类数据的读写采用缓存机制,家 ...
【技术保护点】
面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,包括如下步骤:步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。
【技术特征摘要】
1.面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,包括如下步骤:步骤S1,创建包含各行业领域平台字段的关键字集;步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进分类储存,实现面向行业领域的同源样本数据分类存储的预处理。2.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S2中获得用户网络内所有成员的网络行为日志数据具体为:步骤S21,由同一个路由器物理地址上报的数据经过解析处理获得到的网络行为日志集;步骤S22,根据连接在路由器上的设备物理地址将所述将网络行为日志集进行划分,储存为设备数据集。3.根据权利要求2所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S2中还包括筛选步骤S23:对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从设备数据集数据中筛选出特征词。4.根据权利要求3所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述特征词进行的行业领域匹配在所述关键字集中进行匹配,得出所述设备数据集中每一条统一资源定位符数据的行业领域属性。5.根据权利要求3所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,在所述筛选步骤S23之后,当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。6.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S3中还包括分...
【专利技术属性】
技术研发人员:魏晓林,
申请(专利权)人:上海斐讯数据通信技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。