一种移动互联网用户访问模式表征和聚类方法技术

技术编号:17516680 阅读:51 留言:0更新日期:2018-03-21 01:15
本发明专利技术提供了移动互联网用户访问模式表征和聚类方法,该方法包括:获取移动互联网用户的域名访问序列;对移动互联网域名用户访问序列进行预处理,产生预设数据类型的训练数据和实际数据;向量表征训练模块,利用所述算法对训练数据集进行训练;用户向量生成模块,利用所述训练算法所得训练模型对实际数据进行生成计算;设定APP域名分类规则,根据域名访问序列中域名所属的领域和用途进行人工分类;用户向量聚类模块,利用所得用户向量对用户进行聚类和分析。本发明专利技术提供的移动互联网用户聚类方法基于用户的域名访问序列数据,实现了用户的聚类,提取了用户的行为习惯和特征。

A user access pattern representation and clustering method for mobile Internet

The present invention provides mobile Internet user access pattern representation and clustering method, the method includes: obtaining the user's mobile Internet domain name access sequence; pretreatment of mobile Internet domain name user access sequence, generating training data and the actual data type default data; vector representation training module, using the algorithm to train the training data set user; generating module vector, using the training algorithm the training model generation calculation on real data set; APP domain classification rules, artificial classification according to the domain name domain name access sequence belongs to the field and use; user clustering module, clustering and analysis of the user by using the user vector. The mobile Internet user clustering method provided by the invention realizes user clustering based on user's domain name access sequence data, and extracts user's behavior habits and characteristics.

【技术实现步骤摘要】
一种移动互联网用户访问模式表征和聚类方法
本专利技术涉及互联网
,尤其涉及到一种移动互联网用户访问模式表征和聚类方法。
技术介绍
基于doc2vec算法,将其应用于移动互联网用户聚类。doc2vec算法被提出用于自然语言处理领域。是基于word2vec算法的一种改进。随着自然语言处理技术的广泛应用,doc2vec算法的应用场景也不断被扩展。针对移动互联网用户的访问记录,一个用户标识可以被看作是类似于一个段落的标识,而具体的域名访问序列则可以被看做是一个个按照顺序排列的单词序列,这样一来就可以将doc2vec算法应用于移动互联网用户的向量表征,进一步地可以根据用户向量进行用户聚类和特征提取。随着互联网用户量的增长,各个互联网商业领域都需要对互联网用户的行为习惯进行分析和聚类,以便在实际业务中采取更有针对性的策略,提高效率,降低运营成本。因此互联网用户聚类就成为了一个重要且迫切的现实需求。由于用户量数以亿计,使用人工方式进行聚类是不现实的。使用人工制定的简单规则分类又难以面面俱到,误差较大。基于用户访问序列的doc2vec算法是一种无监督的,高效的聚类方法。具有快速,高效的优点。以K-means为代表的聚类算法已经相对成熟,doc2vec算法将用户访问行为转换成适用于各种聚类算法的用户向量,以便用于聚类,再根据事先定义的域名规则,可以较好的反映出聚类结果中每类人群中的兴趣特点和行为习惯,为各个互联网商业行为提供参考。
技术实现思路
本专利技术的目的在于提供一种移动互联网用户的聚类方法和装置,以期望能为互联网商业领域提供参考。本专利技术的主要模块区分如下:步骤101,用户访问序列获取模块,用于获取用户访问的APP序列,数据来源是网络运营商;步骤102,用户访问序列预处理模块,用于对APP访问序列预处理并产生预设的可用于训练的数据类型,对访问数据进行清洗去重,保证训练数据的可用性和有效性;,步骤103,向量表征训练模块,用于对用户访问的域名序列进行基于特定算法的训练,产生域名对应的域名向量和用户对应的用户向量,得到训练模型;步骤104,用户向量生成模块,用于根据新的用户访问序列数据产生新的用户向量,该向量是基于训练模型计算得到;步骤105,APP域名分类规则模块,用于根据域名的实际功能,为其产生相应的人工标签,标签代表了该域名的分类和所属领域;步骤106,用户向量聚类模块,用于根据用户向量对用户进行聚类,并根据聚类结果结合域名分类规则,确定每一类用户的兴趣点和用户属性。进一步的,步骤102包括以下步骤:步骤201,去除无关字段,抽取关键信息,采用分布式文件系统存储海量数据,针对目标日期和目标时间段,利用分布式计算平台,进行粗粒度的,大规模的快速处理。步骤202,数据融合,将每一条用户对某一域名的访问记录,根据相同的用户标识进行融合,获得某一用户在特定时间段内的访问序列,即将用户与其访问域名的一对一记录融合为一对多记录。步骤203,根据访问序列的时间后顺序进行排序,根据预设的时间间隔,去除重复冗余数据,即在预设时间段内重复出现的域名访问序列视为重复冗余记录,予以删除。步骤204,从前面步骤中得到的数据中区分训练数据集和测试数据集,其中训练数据集和测试数据集所占比例是由经验所得的预设比例,该比例应考虑到训练效果和训练复杂度两方面,达到两者的平衡。可选的,步骤103中所述的特定训练算法为doc2vec算法,经过预处理的用户访问序列充当训练数据,一条数据记录视为一个段落,其中用户标识充当段落向量,而域名访问记录中的每一个域名就充当段落文本的一个词。多个访问序列根据先后顺序排列形成了段落文本。步骤103的训练所得包括域名向量,用户向量以及训练参数模型,其中域名向量是对域名的向量表示,用户向量是用户的向量表示,用户向量的空间距离关系反映了用户和用户间的关系;训练参数模型可用于对新数据的计算,这里的新数据是指在训练数据中不存在的用户访问序列,通过计算可以对新的用户数据生成新的用户向量。可选的,步骤105包括了一种人工的域名分类,根据用户的日常使用习惯,常见的域名被分为一定数量的种类,分类以最能区分用户特性的标准进行,每个类别代表了一种服务领域,例如社交通信服务,语音视频服务,汽车咨询服务等。最后将域名分类规则以及用户向量的聚类规则结合起来对用户的行为特征进行分析。可选的,步骤106所述的用户聚类模块基于多种聚类算法,通过向量化表示用户,可以定义一种距离特征来表示用户之间的距离,该距离在实际意义上体现了用户的相似性。分别采用了基于余弦相似度的度量方法以及基于欧几里得距离的度量方法来进行用户聚类。进一步的,所述聚类算法包括如下几个步骤:步骤301,利用聚类算法对用户向量进行聚类,采用的聚类算法不唯一;步骤302,根据聚类结果和用户表示,追溯到相应用户的具体访问序列,将访问序列中的域名根据域名规则映射到域名类型中去;将用户标识转换成用户向量后,用户标识与用户向量依然一一对应,这代表可以通过该用户向量找到用户标识,进一步地找到该用户的域名访问记录;步骤303,结合域名分类规则,可以提取到该用户的访问每一类域名的次数,时间,以及访问各类域名次数的方差,均值等统计量;根据所述统计量,可以得到该类用户的访问偏好和习惯,对每一类用户的访问习惯标注域名分类标签,即可得到每一类用户最常访问的域名类型;步骤304,由于不同类型的域名访问量差异较大,如果仅根据访问量来进行用户行为分析,则会造成区分度不够的状况,因此要对所述统计特征进行归一化处理;采用两次归一化处理,首先要将某一类域名的总访问次数作为分母,将每一个用户类别中对应于域名的访问量作为分子,进行归一化,目的是反映出各类用户对某一类域名的访问量;其次要对某一类用户内部进行第二次归一化处理,即将某一类用户总的域名访问次数作为分母,而把其访问的不同类型域名作为分子,得到某一类用户访问各类域名的比例;步骤305,完成两次归一化处理后,即可根据所得结果进行结果分析和展现,所得结果即可代表用户访问移动互联网的基本特征,可以通过用户的访问习惯区分高价值用户,推断用户背景;最后将各结果进行可视化处理,直观地展现出来。本专利技术提供了一种基于用户访问记录的用户聚类方法,用于从海量的用户访问记录中提取用户的行为特征并加以聚类。相比于人工分类极大的提高了速度,降低了成本。使得在海量数据下的用户聚类成为了可能。这种聚类对于面向用户的互联网应用提供方来说具有很高的商业价值,有助于区分高价值用户和目标用户,降低了推广成本和营销成本,也有利于进一步挖掘潜在用户。附图说明图1为本专利技术实施的整体流程图图2为本专利技术中数据预处理流程图图3为本专利技术中用户向量聚类模块流程图具体实施方式为了进一步理解本专利技术,下面结合实施案例以及实施流程对本专利技术做进一步介绍。以下介绍仅仅是本专利技术所述方法的一个实例,并不代表本专利技术只适用于本实例一种情况。相反,本专利技术所述的方法还可以用于不同场景下的互联网用户聚类任务中。附图一是本专利技术实施的整体流程图,是本专利技术实现的整体框架,下面结合具体实例进行介绍如下:步骤101,本专利技术首先要实现移动互联网用户域名访问序列的获取。在本实例中,使用运营商提供的用户域名访问记录数据。用户通过网络运营商访问互联网的同时,网本文档来自技高网...
一种移动互联网用户访问模式表征和聚类方法

【技术保护点】
一种移动互联网用户访问模式表征和聚类方法,其特征在于,包括以下步骤:用户访问序列获取模块,用于获取用户访问的移动互联网域名序列,数据来源于网络运营商;用户访问序列预处理模块,用于对访问序列进行预处理并产生可用于训练和计算的数据类型,训练数据和实际数据的比例为某一预设的特定值,对训练数据和实际数据进行清洗去重,保证数据的有效性和可靠性;向量表征训练模块,用于对训练数据进行基于特定算法的训练,训练得到训练数据中域名对应的域名向量和用户对应的用户向量,并且得到训练模型;用户向量生成模块,用于通过实际数据和训练所得的训练模型产生实际数据对应的用户向量,所述的用户向量是根据训练模型计算得出的生成值;APP域名分类规则模块,用于根据域名的实际所属领域,为其产生相应的人工标签,该人工标签表明了APP的功能和类型;用户向量聚类模块,用于根据所得的用户向量对用户进行聚类,并结合域名分类规则,对每一类用户进行行为分析。

【技术特征摘要】
1.一种移动互联网用户访问模式表征和聚类方法,其特征在于,包括以下步骤:用户访问序列获取模块,用于获取用户访问的移动互联网域名序列,数据来源于网络运营商;用户访问序列预处理模块,用于对访问序列进行预处理并产生可用于训练和计算的数据类型,训练数据和实际数据的比例为某一预设的特定值,对训练数据和实际数据进行清洗去重,保证数据的有效性和可靠性;向量表征训练模块,用于对训练数据进行基于特定算法的训练,训练得到训练数据中域名对应的域名向量和用户对应的用户向量,并且得到训练模型;用户向量生成模块,用于通过实际数据和训练所得的训练模型产生实际数据对应的用户向量,所述的用户向量是根据训练模型计算得出的生成值;APP域名分类规则模块,用于根据域名的实际所属领域,为其产生相应的人工标签,该人工标签表明了APP的功能和类型;用户向量聚类模块,用于根据所得的用户向量对用户进行聚类,并结合域名分类规则,对每一类用户进行行为分析。2.如权利要求1所述的方法,其特征在于,还包括:用户访问序列获取模块,该模块的数据来源是网络运营商提供的用户访问记录,该记录中至少包括用户标识,访问时间,地域以及域名这四个方面的信息。3.如权利要求1所述的方法,其特征在于,还包括:用户访问序列预处理模块,该模块用于剔除不相关字段和异常信息,去除重复记录,进行记录融合,得到预设的可用于训练和计算的数据类型;所述不相关字段是指除用户标识,访问时间,地域以及域名之外的字段和信息;所述去除重复记录是指根据记录的访问时间区分并删除重复冗余记录,同一域名同一用户下的访问时间差值小于某一预设值,即认为发生了重复和冗余;所述可用于训练和生成的数据类型...

【专利技术属性】
技术研发人员:吴晓非禹可李苒江万
申请(专利权)人:北京邮电大学苏州大数聚信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1