一种大数据下用户上网特征识别的方法技术

技术编号:16757026 阅读:24 留言:0更新日期:2017-12-09 02:53
本发明专利技术通过对用户历史上网数据、运行轨迹、驻留时长等数据的分析,能够对客人的行为属性、消费心理特征、行为轨迹等进行有效的描述,进而更加深入的了解客人,通过建立完整的客人统一视图,结合客人消费内驱因素、提出并构建客人行为属性标签,为全面的客人画像提供支持,并在此基础上进一步建立客户细分模型与业务模型,为基于客人喜好和基本属性的统计分析以及营销提供基本属性支持,可以指定对单个用户特征的识别,通过交叉营销,为广告发布平台提供扩展性更强的客户广告推送,定制用户上网特征识别,自动判断用户关注点、兴趣点,能够更好进行有针对性的营销,给用户更贴心的服务。

A method of user online feature recognition under large data

The invention is based on the analysis of historical data, Internet users running track, dwell duration and other data, can effectively describe the guest behavior attributes, consumer psychology behavior, track, and more in-depth understanding of the guests, the guests through the establishment of a complete unified view, combined with the consumption of the guests inside driven factors, put forward and set the guest behavior attribute labels, to provide support for a comprehensive portrait of the guest, and on this basis to further establish customer segmentation model and business model for statistical analysis of guest preferences and basic attributes and provide basic marketing based on attribute support, you can specify the recognition of single user characteristics, through cross marketing, providing scalable customer advertising send for the advertisement platform, customized user feature recognition, automatically determine the user attention, interest, can Enough to carry on the targeted marketing, to the user more considerate service.

【技术实现步骤摘要】
一种大数据下用户上网特征识别的方法
本专利技术涉及互联网技术,尤其涉及一种大数据下用户上网特征识别的方法。
技术介绍
WLAN在运营过程中产生大量数据,用户登录信息、用户上网日志等,这些数据规模大、数据类型单一,如何利用这些数据对其进行总体统计、用户发展统计、网络发展统计、广告统计以及业务量统计,以便为WLAN运营公司的决策层和高级管理人员的分析决策提供数据依据,是需要思考的问题,长期以来,受技术发展以及计算能力的限制,运营过程中的大量数据没有被发掘利用后产生应有的价值,可以针对这些数据,进行深入挖掘,使其产生价值。
技术实现思路
本专利技术旨在提供一种大数据下用户上网特征识别的方法。为实现上述技术目的,本专利技术采用以下技术方案,一种大数据下用户上网特征识别的方法,包括以下步骤:步骤S1、无线管理系统平台收集用户登录信息,其中包括用户上线时间即用户登录WSMP时间,用户下线时间即用户登出WSMP时间,AP(无线接入设备侧)的MAC即用户登录的APMAC地址,用户MAC即用户移动设备的MAC地址,用户手机号即用户移动设备的手机号,注册时间即用户首次登录WSMP时间;步骤S2、无线管理系统平台收集门店信息,包括门店名称、门店地理位置和门店的编码信息,上述门店指的是WLAN运营商部署在全国各地的门店;步骤S3、无线管理系统平台收集用户点击事件,包括Portal展现时间即单用户展现Portal的点击时间和广告时间即单用户点击广告的时间,Portal指的是登录页面;步骤S4、上网日志系统收集上网访问信息,包括用户访问URL时间、用户访问URL地址、用户MAC地址、AP的MAC地址、在线时长duration即用户在线上网时长和在线流量traffic即用户在线上网流量;步骤S5、上述数据收集完成后对为数据模型的构建对数据进行模型定义,分为:分项集合,分项集合用于约束一组相近似类似的分项;分项,分项用于标识用户特征项标题,比如口味、兴趣、年龄等等,分项选择必须是闭合的,即有限的标签可以描述一个完整的分项项,所有的子分类将构成了类空间的全部集合;标签,表征了内容,用户对该内容有兴趣、偏好、需求等等;标签权重,标签权重表明了用户对该标签的认可程度,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度或概率,用户在某分项可能对多个标签有兴趣,根据权重的不同,权重高的标签更切合用户实际情况,标签权重=衰减因子×行为权重×网址子权重;步骤S6、对用户数据的模型定义分为:用户群,在集中精准营销中,不仅仅要关注单用户的喜好,更要通过用户群分组对已有的客户按一定的维度进行分组,用户群标识具有大致相同标签的用户,根据用户的分群,可以针对群体产生相应的营销策略;用户,表征了单一的用户实例,和真实用户关联;用户标签指标值,在制定的周期内,根据标签权重和用户的各种行为所占分值对用户进行标签化数学计算;步骤S7、根据定义模型,以及采集到的上述数据源数据,通过用户身份信息(如MAC地址或手机号)把数据源数据和用户关联起来,进行打分,基于URL分析用户最近喜好,通过数据源中的用户访问网页的URL数据和预先从网络上爬取网站分类数据(该数据形成资源库,并且和标签关联)进行匹配,从而得到用户访问的网站类型标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1-10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S8、基于商业门店分析用户喜好,通过数据源中的门店信息以及用户访问门店信息和预先在网络上爬取商业门店分类进行匹配,从而得到用户访问的门店类型标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1-10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S9、基于地理位置分析用户经常去的城市、商圈,通过数据源中的门店信息以及用户访问门店信息和预先在网络上爬取商业门店分类进行匹配,从而得到用户访问的门店所在城市以及城市内商圈标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1-10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S10、数据源表导入,将上述统计完成的关系型数据库中的数据源表(包括基于URL、商业门店和地理位置分析统计),使用Sqoop工具定时增量导入到分布式文件系统HDFS上,使用编写的MapReduce程序,给对应的数据源表添加相应的维度列(包括时间维度、门店维度等),然后再将生成的HDFS文件导入到非关系型的Hive表中;步骤S11、将Hive表加载到ApacheKylin中,根据元数据的定义,构建引擎从Hive表中抽取数据,并构建Cube,构建后的Cube保存在Hbase存储引擎中;步骤S12、为了实现数据统计分析的每日自动更新,使用Oozie工作流引擎服务器,每天自动定时执行以上的数据采集和统计分析及数据导入步骤,最后实现KylinCube的定时增量构建。进一步地,采用ApacheKafka+ApacheStorm实时计算架构,构建实时性在线分布式计算集群,ApacheKafka作为分布式消息队列,既有非常优秀的吞吐量,又有较高的可靠性,作为ApacheStorm集群的输入数据源,ApacheStorm集群中运行不同的数学模型,实时进行数据计算,分析出结果后持久化进行数据库中。进一步地,采用HadoopMapReduce作为非实时海量数据计算架构,构建批量的海量分布式计算集群,非实时批处理平台对海量数据按时间进行清理、统计、计算等操作,通过OOize进行时间调用,对数据进行自动切片,多个MapReduces计算。进一步地,步骤S8中如针对“口味”标签,即是从用户经常去的餐饮门店所做的菜式进行标签打分。进一步地,步骤S9中如针对“商圈”标签,即是从用户经常去的餐饮门店所在的商圈行标签打分,从侧面反应出用户经常活动的地理位置。本专利技术通过对用户历史上网数据、运行轨迹、驻留时长等数据的分析,能够对客人的行为属性、消费心理特征、行为轨迹等进行有效的描述,进而更加深入的了解客人,通过建立完整的客人统一视图,结合客人消费内驱因素、提出并构建客人行为属性标签,为全面的客人画像提供支持,并在此基础上进一步建立客户细分模型与业务模型,为基于客人喜好和基本属性的统计分析以及营销提供基本属性支持,可以指定对单个用户特征的识别,通过交叉营销,为广告发布平台提供扩展性更强的客户广告推送,定制用户上网特征识别,自动判断用户关注点、兴趣点,能够更好进行有针对性的营销,给用户更贴心的服务,本设计可以应用在用户上网数据收集后的分析,通过该设计可以为精准营销提供数据支撑。附图说明图1为本专利技术的流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具本文档来自技高网...
一种大数据下用户上网特征识别的方法

【技术保护点】
一种大数据下用户上网特征识别的方法,其特征在于,包括以下步骤:步骤S1、无线管理系统平台收集用户登录信息,其中包括用户上线时间即用户登录WSMP时间,用户下线时间即用户登出WSMP时间,AP(无线接入设备侧)的MAC即用户登录的AP MAC地址,用户MAC即用户移动设备的MAC地址,用户手机号即用户移动设备的手机号,注册时间即用户首次登录WSMP时间;步骤S2、无线管理系统平台收集门店信息,包括门店名称、门店地理位置和门店的编码信息,上述门店指的是WLAN运营商部署在全国各地的门店;步骤S3、无线管理系统平台收集用户点击事件,包括Portal展现时间即单用户展现Portal的点击时间和广告时间即单用户点击广告的时间,Portal指的是登录页面;步骤S4、上网日志系统收集上网访问信息,包括用户访问URL时间、用户访问URL地址、用户MAC地址、AP的MAC地址、在线时长duration即用户在线上网时长和在线流量traffic即用户在线上网流量;步骤S5、上述数据收集完成后对为数据模型的构建对数据进行模型定义,分为:分项集合,分项集合用于约束一组相近似类似的分项;分项,分项用于标识用户特征项标题,比如口味、兴趣、年龄等等,分项选择必须是闭合的,即有限的标签可以描述一个完整的分项项,所有的子分类将构成了类空间的全部集合;标签,表征了内容,用户对该内容有兴趣、偏好、需求等等;标签权重,标签权重表明了用户对该标签的认可程度,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度或概率,用户在某分项可能对多个标签有兴趣,根据权重的不同,权重高的标签更切合用户实际情况,标签权重=衰减因子×行为权重×网址子权重;步骤S6、对用户数据的模型定义分为:用户群,在集中精准营销中,不仅仅要关注单用户的喜好,更要通过用户群分组对已有的客户按一定的维度进行分组,用户群标识具有大致相同标签的用户,根据用户的分群,可以针对群体产生相应的营销策略;用户,表征了单一的用户实例,和真实用户关联;用户标签指标值,在制定的周期内,根据标签权重和用户的各种行为所占分值对用户进行标签化数学计算;步骤S7、根据定义模型,以及采集到的上述数据源数据,通过用户身份信息(如MAC地址或手机号)把数据源数据和用户关联起来,进行打分,基于URL分析用户最近喜好,通过数据源中的用户访问网页的URL数据和预先从网络上爬取网站分类数据(该数据形成资源库,并且和标签关联)进行匹配,从而得到用户访问的网站类型标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1‑10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S8、基于商业门店分析用户喜好,通过数据源中的门店信息以及用户访问门店信息和预先在网络上爬取商业门店分类进行匹配,从而得到用户访问的门店类型标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1‑10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S9、基于地理位置分析用户经常去的城市、商圈,通过数据源中的门店信息以及用户访问门店信息和预先在网络上爬取商业门店分类进行匹配,从而得到用户访问的门店所在城市以及城市内商圈标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1‑10以内的值,作为用户对此类标签的喜好值,值越高,则喜好越强;步骤S10、数据源表导入,将上述统计完成的关系型数据库中的数据源表(包括基于URL、商业门店和地理位置分析统计),使用Sqoop工具定时增量导入到分布式文件系统HDFS上,使用编写的MapReduce程序,给对应的数据源表添加相应的维度列(包括时间维度、门店维度等),然后再将生成的HDFS文件导入到非关系型的Hive表中;步骤S11、将Hive表加载到Apache Kylin中,根据元数据的定义,构建引擎从Hive表中抽取数据,并构建Cube,构建后的Cube保存在Hbase存储引擎中;步骤S12、为了实现数据统计分析的每日自动更新,使用Oozie工作流引擎服务器,每天自动定时执行以上的数据采集和统计分析及数据导入步骤,最后实现Kylin Cube的定时增量构建。...

【技术特征摘要】
1.一种大数据下用户上网特征识别的方法,其特征在于,包括以下步骤:步骤S1、无线管理系统平台收集用户登录信息,其中包括用户上线时间即用户登录WSMP时间,用户下线时间即用户登出WSMP时间,AP(无线接入设备侧)的MAC即用户登录的APMAC地址,用户MAC即用户移动设备的MAC地址,用户手机号即用户移动设备的手机号,注册时间即用户首次登录WSMP时间;步骤S2、无线管理系统平台收集门店信息,包括门店名称、门店地理位置和门店的编码信息,上述门店指的是WLAN运营商部署在全国各地的门店;步骤S3、无线管理系统平台收集用户点击事件,包括Portal展现时间即单用户展现Portal的点击时间和广告时间即单用户点击广告的时间,Portal指的是登录页面;步骤S4、上网日志系统收集上网访问信息,包括用户访问URL时间、用户访问URL地址、用户MAC地址、AP的MAC地址、在线时长duration即用户在线上网时长和在线流量traffic即用户在线上网流量;步骤S5、上述数据收集完成后对为数据模型的构建对数据进行模型定义,分为:分项集合,分项集合用于约束一组相近似类似的分项;分项,分项用于标识用户特征项标题,比如口味、兴趣、年龄等等,分项选择必须是闭合的,即有限的标签可以描述一个完整的分项项,所有的子分类将构成了类空间的全部集合;标签,表征了内容,用户对该内容有兴趣、偏好、需求等等;标签权重,标签权重表明了用户对该标签的认可程度,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度或概率,用户在某分项可能对多个标签有兴趣,根据权重的不同,权重高的标签更切合用户实际情况,标签权重=衰减因子×行为权重×网址子权重;步骤S6、对用户数据的模型定义分为:用户群,在集中精准营销中,不仅仅要关注单用户的喜好,更要通过用户群分组对已有的客户按一定的维度进行分组,用户群标识具有大致相同标签的用户,根据用户的分群,可以针对群体产生相应的营销策略;用户,表征了单一的用户实例,和真实用户关联;用户标签指标值,在制定的周期内,根据标签权重和用户的各种行为所占分值对用户进行标签化数学计算;步骤S7、根据定义模型,以及采集到的上述数据源数据,通过用户身份信息(如MAC地址或手机号)把数据源数据和用户关联起来,进行打分,基于URL分析用户最近喜好,通过数据源中的用户访问网页的URL数据和预先从网络上爬取网站分类数据(该数据形成资源库,并且和标签关联)进行匹配,从而得到用户访问的网站类型标签,同时根据用户访问的次数*标签权重*平滑因子得到一个1-10以内的值,作为用...

【专利技术属性】
技术研发人员:赵晓冬王伟彭亚
申请(专利权)人:中兴软创科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1