The present invention provides mobile Internet user access pattern representation and clustering method, the method includes: obtaining the user's mobile Internet domain name access sequence; pretreatment of mobile Internet domain name user access sequence, generating training data and the actual data type default data; vector representation training module, using the algorithm to train the training data set user; generating module vector, using the training algorithm the training model generation calculation on real data set; APP domain classification rules, artificial classification according to the domain name domain name access sequence belongs to the field and use; user clustering module, clustering and analysis of the user by using the user vector. The mobile Internet user clustering method provided by the invention realizes user clustering based on user's domain name access sequence data, and extracts user's behavior habits and characteristics.
【技术实现步骤摘要】
一种移动互联网用户访问模式表征和聚类方法
本专利技术涉及互联网
,尤其涉及到一种移动互联网用户访问模式表征和聚类方法。
技术介绍
基于doc2vec算法,将其应用于移动互联网用户聚类。doc2vec算法被提出用于自然语言处理领域。是基于word2vec算法的一种改进。随着自然语言处理技术的广泛应用,doc2vec算法的应用场景也不断被扩展。针对移动互联网用户的访问记录,一个用户标识可以被看作是类似于一个段落的标识,而具体的域名访问序列则可以被看做是一个个按照顺序排列的单词序列,这样一来就可以将doc2vec算法应用于移动互联网用户的向量表征,进一步地可以根据用户向量进行用户聚类和特征提取。随着互联网用户量的增长,各个互联网商业领域都需要对互联网用户的行为习惯进行分析和聚类,以便在实际业务中采取更有针对性的策略,提高效率,降低运营成本。因此互联网用户聚类就成为了一个重要且迫切的现实需求。由于用户量数以亿计,使用人工方式进行聚类是不现实的。使用人工制定的简单规则分类又难以面面俱到,误差较大。基于用户访问序列的doc2vec算法是一种无监督的,高效的聚类方法。具有快速,高效的优点。以K-means为代表的聚类算法已经相对成熟,doc2vec算法将用户访问行为转换成适用于各种聚类算法的用户向量,以便用于聚类,再根据事先定义的域名规则,可以较好的反映出聚类结果中每类人群中的兴趣特点和行为习惯,为各个互联网商业行为提供参考。
技术实现思路
本专利技术的目的在于提供一种移动互联网用户的聚类方法和装置,以期望能为互联网商业领域提供参考。本专利技术的主要模块区分如下:步骤 ...
【技术保护点】
一种移动互联网用户访问模式表征和聚类方法,其特征在于,包括以下步骤:用户访问序列获取模块,用于获取用户访问的移动互联网域名序列,数据来源于网络运营商;用户访问序列预处理模块,用于对访问序列进行预处理并产生可用于训练和计算的数据类型,训练数据和实际数据的比例为某一预设的特定值,对训练数据和实际数据进行清洗去重,保证数据的有效性和可靠性;向量表征训练模块,用于对训练数据进行基于特定算法的训练,训练得到训练数据中域名对应的域名向量和用户对应的用户向量,并且得到训练模型;用户向量生成模块,用于通过实际数据和训练所得的训练模型产生实际数据对应的用户向量,所述的用户向量是根据训练模型计算得出的生成值;APP域名分类规则模块,用于根据域名的实际所属领域,为其产生相应的人工标签,该人工标签表明了APP的功能和类型;用户向量聚类模块,用于根据所得的用户向量对用户进行聚类,并结合域名分类规则,对每一类用户进行行为分析。
【技术特征摘要】
1.一种移动互联网用户访问模式表征和聚类方法,其特征在于,包括以下步骤:用户访问序列获取模块,用于获取用户访问的移动互联网域名序列,数据来源于网络运营商;用户访问序列预处理模块,用于对访问序列进行预处理并产生可用于训练和计算的数据类型,训练数据和实际数据的比例为某一预设的特定值,对训练数据和实际数据进行清洗去重,保证数据的有效性和可靠性;向量表征训练模块,用于对训练数据进行基于特定算法的训练,训练得到训练数据中域名对应的域名向量和用户对应的用户向量,并且得到训练模型;用户向量生成模块,用于通过实际数据和训练所得的训练模型产生实际数据对应的用户向量,所述的用户向量是根据训练模型计算得出的生成值;APP域名分类规则模块,用于根据域名的实际所属领域,为其产生相应的人工标签,该人工标签表明了APP的功能和类型;用户向量聚类模块,用于根据所得的用户向量对用户进行聚类,并结合域名分类规则,对每一类用户进行行为分析。2.如权利要求1所述的方法,其特征在于,还包括:用户访问序列获取模块,该模块的数据来源是网络运营商提供的用户访问记录,该记录中至少包括用户标识,访问时间,地域以及域名这四个方面的信息。3.如权利要求1所述的方法,其特征在于,还包括:用户访问序列预处理模块,该模块用于剔除不相关字段和异常信息,去除重复记录,进行记录融合,得到预设的可用于训练和计算的数据类型;所述不相关字段是指除用户标识,访问时间,地域以及域名之外的字段和信息;所述去除重复记录是指根据记录的访问时间区分并删除重复冗余记录,同一域名同一用户下的访问时间差值小于某一预设值,即认为发生了重复和冗余;所述可用于训练和生成的数据类型...
【专利技术属性】
技术研发人员:吴晓非,禹可,李苒,江万,
申请(专利权)人:北京邮电大学,苏州大数聚信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。