一种用户画像获取方法技术

技术编号:19141974 阅读:33 留言:0更新日期:2018-10-13 08:56
本发明专利技术具体涉及一种用户画像获取方法,能够通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。

A method of user portrait acquisition

The invention specifically relates to a user portrait acquisition method, which can better establish a user classification model and a user behavior model by classifying and analyzing the user's basic data and the user behavior log corresponding to the basic data, and obtain the user portraits of different users through the two models.

【技术实现步骤摘要】
一种用户画像获取方法
本专利技术涉及信息分类处理领域,具体涉及一种用户画像获取方法。
技术介绍
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在科技资源供需对接中,供方的科技成果与需方的科技需求都是庞大的,对于供方而言,其科技资源数据是详细的、庞大的,作为科技成果展示是明确清晰的,但是作为科技成果输出是乏力的,这是科技资源供需对接方式决定的。大多数情况下,科技资源供需双方需求并不能匹配。其主要原因在于供需双方拥有信息不对等,一方面,供方未能根据市场需求细分占有的科技资源,也无法快速得知需方的意愿;另一方面,需方对自己需求描述不够详尽或描述的需求特征与供方设想相差较大。这导致了当前供需双方科技资源对接极为困难。当供需双方完成充足准备工作的结果时,才能完成科技资源对接,这大大降低了科技资源供需对接效率。即使没有充足的准备工作,需方也需要经过多次搜索调研才能知道想要的供方信息,同时,在需方不断检索中,其使用的检索式是由供方提供的,该检索式细分度不够,同时索引构建并非遵从需方意愿,对需方并不友好,这样的科技资源供需对接是极不便捷的。由于对用户的分类模糊,无法将科技资源与用户类别对应,造成科技资源供需双方配给不平,故对供需用户的分类及精准角色定位是优化科技资源供需对接方法的第一步,。综上,科技资源用户的分类及用户画像获取问题亟待解决。
技术实现思路
为了克服现有技术的缺陷,本专利技术提供一种用户画像获取方法,能够较好地对用户进行分类并对用户的行为进行分析,并根据分类和分析的结果来获取用户画像。针对上述专利技术目的,本专利技术是这样加以解决:一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,用户行为日志包括用户资源供求行为数据,其特征在于,包括如下步骤:S1、提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据进行聚类分析,并得到多个相应的第一特征集;根据所有第一特征集建立用户分类模型;S2、提取用户资源供求行为数据中每个数据的特征信息,利用相应的特征信息对相同类型的用户资源供求行为数据进行聚类分析,并得到多个相应的第二特征集,根据所有第二特征集建立用户初始行为模型;根据所有第一特征集、第二特征集,以及用户分类模型来建立行为数据特征集。S3、将行为数据特征集作为用户行为模型的训练样本,从而建立用户行为模型;S4、根据用户分类模型和用户行为模型获取用户画像。通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。得到用户初始行为模型为后续用户行为分析提供了分类分析的依据。由于用户行为数据属于一种随时间增加的动态数据,再后续对用户行为进行不断分析,优化行为特征集时,直接将相似的行为数据分类存储再进行分析,这样做的好处是,一方面筛检掉冗余数据,给初始行为数据赋予标签,减小处理难度;另一方面,根据分析结果,对初始行为特征分类进行优化,使分类模型更加准确。进一步地,所述步骤S1中第一特征集的具体形成过程为:S1.1对相同类型的基础数据进行随机抽取,并对抽取出的数据进行聚类分析得到若干特征值Mi;S1.2对相同类型的基础数据进行分类后进行分层抽样,并对抽样出的数据进行聚类分析得到若干特征值Mk;S1.3根据Mi和Mk的相似度对Mi进行优化,最终得到若干特征值M,形成第一特征集。进一步地,基础数据中包括描述用户角色特征的一级数据、描述用户资源供求情况的二级数据;步骤S1中的所有第一特征集中包括由一级数据形成的第三特征集以及由二级数据形成的第四特征集,根据第三特征集对第四特征集进行分析,得到它们之间的索引,根据该索引建立用户分类模型。进一步地,步骤S1.1重复执行多次,在重复执行过程中得到的特征值Mi根据抽样次数、抽样比例、聚类分析过程对第一次执行得到的特征值Mi进行优化。进一步地,所述步骤S2中行为数据特征集的具体建立方法为:S2.1、第二特征集、第三特征集和第四特征集分别包括若干特征值,每个特征值对应相应数量的同类用户,根据特征值对应的不同数量的用户得出相应的权重;根据不同的权重对每个特征值对应的用户进行抽样,计算分别从第二特征集和第四特征集抽样出的用户的相似度,得到相似特征索引Q1;S2.2、根据Q1、用户分类模型,对从第一特征集中各个特征值对应抽样出的用户进行相似度分析,得到相似特征索引Q2;S2.3、根据Q1和Q2建立行为数据特征集。进一步地,在步骤S4之前,还对用户分类模型进行优化,具体步骤为:实时采集用户资源供求行为数据,首先,根据用户初始行为模型将用户资源供求行为数据进行归类分析,得到各类型用户集的行为特征,根据各类型用户的行为特征演变对用户分类模型进行修正;其次,根据行为特征将用户资源供求行为数据进行归类分析,得到行为特征值,根据行为特征值对用户进行分类,进而对用户分类模型进行修正。进一步地,对用户分类模型进行第一次修正的具体步骤为:根据用户分类模型,对各类型用户的动态行为数据进行分析,得到行为特征演变模型;行为特征演变模型包括特征值和相应权重的变化,根据行为数据特征集以及行为特征演变模型对用户分类模型及用户数据特征集进行修正。进一步地,每个行为特征值对应相应数量的用户,相应的权重根据行为特征值对应的不同数量的用户得出;根据与行为特征值对应的权重对行为数据特征集进行分层抽样,对抽样得到的样本进行分析,得到第二行为特征修正因子,利用第二行为特征修正因子再次修正第一特征集的权重。相比于现有技术,本专利技术的有益效果在于:通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。附图说明图1是本专利技术方法的主要流程图。图2是本专利技术步骤S1中第一特征集具体形成过程的流程图。图3是本专利技术步骤S2中行为数据特征集的具体建立方法的流程图。具体实施方式根据下面的实施例和附图对本专利技术进行详细地说明。一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,基础数据中包括描述用户角色特征的一级数据、描述用户资源供求情况的二级数据,用户行为日志包括用户资源供求行为数据。其中一级数据包括身份信息(如从业年份、职务、性别、团队基本信息等)、科研领域、科研成果、潜在研究动态等,二级数据包括用户供求意愿等。对于用户资源供求行为数据,包括时间属性数据、地理属性数据以及按动作分类的用户操作属性数据,对于按动作分类的用户操作数据包括搜索、收藏、交易、咨询等。本方法包括如图1所示的如下步骤:S1、以关键词的形式提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据,通过K-means算法进行聚类分析,并得到多个相应的第一特征集,其中K-means算法所用的K值由人工选取;根据所有第一特征集建立用户分类模型;科技资源供需对接实例中,将身份信息作为数据特征集的主键,包括行业背景、从业年份、职务、团队信息等。这些身份信息数据要与其他用户基础数据,如科研成果、研究动态等相结合进行特征分析。首先,提取行业背景关本文档来自技高网...

【技术保护点】
1.一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,用户行为日志包括用户资源供求行为数据,其特征在于,包括如下步骤:S1、提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据进行聚类分析,并得到多个相应的第一特征集;根据所有第一特征集建立用户分类模型;S2、提取用户资源供求行为数据中每个数据的特征信息,利用相应的特征信息对相同类型的用户资源供求行为数据进行聚类分析,并得到多个相应的第二特征集,根据所有第二特征集建立用户初始行为模型;根据所有第一特征集、第二特征集,以及用户分类模型来建立行为数据特征集;S3、将行为数据特征集作为用户行为模型的训练样本,从而建立用户行为模型;S4、根据用户分类模型和用户行为模型获取用户画像。

【技术特征摘要】
1.一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,用户行为日志包括用户资源供求行为数据,其特征在于,包括如下步骤:S1、提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据进行聚类分析,并得到多个相应的第一特征集;根据所有第一特征集建立用户分类模型;S2、提取用户资源供求行为数据中每个数据的特征信息,利用相应的特征信息对相同类型的用户资源供求行为数据进行聚类分析,并得到多个相应的第二特征集,根据所有第二特征集建立用户初始行为模型;根据所有第一特征集、第二特征集,以及用户分类模型来建立行为数据特征集;S3、将行为数据特征集作为用户行为模型的训练样本,从而建立用户行为模型;S4、根据用户分类模型和用户行为模型获取用户画像。2.根据权利要求1所述的一种用户画像获取方法,其特征在于,所述步骤S1中第一特征集的具体形成过程为:S1.1对相同类型的基础数据进行随机抽取,并对抽取出的数据进行聚类分析得到若干特征值Mi;S1.2对相同类型的基础数据进行分类后进行分层抽样,并对抽样出的数据进行聚类分析得到若干特征值Mk;S1.3根据Mi和Mk的相似度对Mi进行优化,最终得到若干特征值M,形成第一特征集。3.根据权利要求1所述的一种用户画像获取方法,其特征在于,基础数据中包括描述用户角色特征的一级数据、描述用户资源供求情况的二级数据;步骤S1中的所有第一特征集中包括由一级数据形成的第三特征集以及由二级数据形成的第四特征集,根据第三特征集对第四特征集进行分析,得到它们之间的索引,根据该索引建立用户分类模型。4.根据权利要求2所述的一种用户画像获取方法,其特征在于,步骤S1.1重复执行多次,在重复执行过程中得到的特征值Mi根据抽样次数、抽样比例、聚类分析过程对第一次执行得到的特征值M...

【专利技术属性】
技术研发人员:赵晓萌周俊杰方少亮林珠罗亮
申请(专利权)人:广东省科技基础条件平台中心广东省科技基础条件平台建设促进会
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1