当前位置: 首页 > 专利查询>东北大学专利>正文

一种应用于用户画像领域的数据增广方法技术

技术编号:33779241 阅读:17 留言:0更新日期:2022-06-12 14:33
本发明专利技术公开了一种应用于用户画像领域的数据增广方法,涉及用户画像标签预测领域;克服了标签率极低的问题,同时提高模型的泛化性,以便于根据用户行为数据预测多维度多标签的用户画像标签,并且有效结合自监督学习,能够在用户标签率极低的情况下实现用户分类,降低了人工标注数据集的成本,提高了模型的泛化能力,同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题,提高模型分类的准确性。提高模型分类的准确性。提高模型分类的准确性。

【技术实现步骤摘要】
一种应用于用户画像领域的数据增广方法


[0001]本专利技术涉及用户画像标签预测领域,具体涉及一种应用于用户画像领域的数据增广方法。

技术介绍

[0002]近年来,我国信息化建设速度已位居国际前列,随着信息化水平与普及率日益提高,根据CNNIC统计数据,我国网民人数规模已经突破10亿大关,截止2021年06月,我国网民规模已达到10.11亿,其中网络支付用户规模已近9亿。信息化快速发展“互联网+”应用越来越广泛和深入,只有了解市场、了解客户、了解竞争对手,才能推出物美价廉的产品,获得等多的市场青睐。最后是需要突破传统并建立新规则,传统金融机构想了解用户,更多的是选择依靠客户经理,依靠人与人的沟通,需要消耗大量的人力财力,并且由于用户间的差异性,很难达到有效的沟通。而用户画像系统则可以实现任何无需直接与用户对接便可以快速了解客户,最终目标是通过各类系统及产品,实现客户与公司绑定,实现真正意义的高用户忠诚度,此用户忠诚于系统,忠诚于公司的产品和服务,而不受限于人。
[0003]用户画像的概念最早是由交互设计之父Alan Copper提出的,他指出用户画像是虚拟用户的代表,是由一系列数据信息所组成的立体用户模型。简单来说,用户画像就是通过用户各种行为数据为用户制作标签,将每一个用户形象具体化,力求对用户特征进行客观准确描述的一种用户分析方法。用户画像最初是在电商领域得到应用的,由于实用效果非常明显且具有良好的适应性,它作为一种有效的目标用户分析工具迅速在计算机、图书情报等学科领域得到广泛应用。随着大数据技术的兴起,用户画像逐渐成为国内外学者尤其是国内学者的研究热点。虽然国内外学者对“用户画像”的理解在不同时期、不同学科领域中有所不同,但基本内涵一致,都认为用户属性、特征和标签是用户画像的三个要素。目前针对用户画像的研究大多集中于用户画像的应用,比如个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好等;应用场景主要涉及到以图书馆、医疗、金融等为代表的传统行业和以在线社交平台、在线问答社区、电商网站等为代表的互联网行业等。
[0004]然而用户画像研究中存在一系列问题,例如由于其研究通常所涉及数据量极大,无用数据过多或者有用数据过少都会导致用户画像的噪声过大,严重影响其标签的准确性;用户画像的标签显而易见是多维度多标签的,而且原始数据中拥有标签的用户量极低,造成训练模型的数据量严重不足,而图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降。因此,如何实现在标签率极低的情况下准确为用户预测标签是亟待开展研究的一个重难点。

技术实现思路

[0005]为解决现有技术存在的问题,本专利技术提供一种应用于用户画像领域的数据增广方法,克服标签率极低的问题,同时提高模型的泛化性;
[0006]采用的技术方案为:
[0007]一种应用于用户画像领域的数据增广方法,包括以下步骤:
[0008]S1:根据原始数据中用户的好友关系,构建用户异质网络图,图中每个节点都代表一个用户,图中每一条边都代表连接的两个用户拥有好友关系,通过图神经网络聚合当前节点的邻域节点信息,得到当前节点嵌入向量;
[0009]S2:根据S1获取的当前节点嵌入向量,通过图神经网络分类器,得到多标签分类概率矩阵,对个节点的每个标签的概率进行过滤,大于阈值的生成节点标签;
[0010]所述节点标签数量为1

N个;
[0011]S3:根据用户异质网络图,利用自监督学习思想,采用图划分技术的自监督学习方式,得到若干个划分后的子图,在每个子图中对无标签节点进行对齐操作,使其与真正的标签匹配,为无标签节点生成伪标签;
[0012]S4:对S2生成的节点标签、利用S3中生成的伪标签进行自检,一致则加入真实标签集,迭代进行训练多次,以扩充训练数据集。
[0013]所述S1具体包括:
[0014]S1.1对待处理的原始数据进行缺失值填充、重复值过滤、异常值处理,得到处理后的用户行为数据;
[0015]S1.2:利用用户好友关系,构建用户邻接矩阵;利用用户行为数据,构建用户特征矩阵;
[0016]S1.3:根据所获得用户邻接矩阵和特征矩阵,利用图神经网络模型,通过图卷积算子,聚合邻域节点相关信息,得到节点的嵌入表示。
[0017]所述步骤S2具体包括:
[0018]S2.1:根据所获得的节点嵌入向量,通过图神经网络分类器,得到节点的多标签分类概率矩阵,矩阵的行数代表用户节点数量,列数代表标签数量;
[0019]S2.2:根据设置的阈值,对节点标签概率进行过滤,大于阈值的生成节点标签。
[0020]所述步骤S3具体包括:
[0021]S3.1:根据用户异质网络图的节点表示,计算节点在特征空间上的距离,根据距离计算节点的相似矩阵,以相似矩阵作为输入,利用图划分技术对整个用户异质图进行划分,得到若干个子图;
[0022]S3.2:在每个子图内,依次对属于每类标签的节点进行分类,然后在分类后的有标记节点嵌入向量中对每个维度计算平均值,得到的新的节点嵌入向量作为简易质心,根据得到的质心,利用欧式距离公式计算无标记节点嵌入向量到质心的距离,如式(1)所示:
[0023][0024]其中,X表示节点,Y表示质心,x
i
表示表示节点嵌入向量在第i个维度上的数值;y
i
表示质心嵌入向量在第i个维度上的数值;大于设定阈值的被赋予该标签作为伪标签。
[0025]所述步骤S4具体包括:
[0026]对S2生成的标签、S3部生成的伪标签标签进行自检,一致则加入真实标签集,提高标签精确度,迭代进行训练多次,以扩充训练数据集。
[0027]有益技术效果
[0028]本专利技术提供了一种应用于用户画像领域的数据增广方法,克服了标签率极低的问题,同时提高模型的泛化性,以便于根据用户行为数据预测多维度多标签的用户画像标签,并且有效结合自监督学习,能够在用户标签率极低的情况下实现用户分类,降低了人工标注数据集的成本,提高了模型的泛化能力,同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题,提高模型分类的准确性。
附图说明
[0029]图1是本专利技术用户画像标签预测方法流程图;
[0030]图2是本专利技术计算用户节点嵌入模型图;
[0031]图3是本专利技术用户异质图图划分算法流程图;
[0032]图4是本专利技术自监督学习的图神经网络用户画像标签预测框架图。
具体实施方式
[0033]下面结合附图和实施例对本专利技术作进一步详细说明;
[0034]本实施例中,提供了一种应用于用户画像领域的数据增广方法,如图1所示,包括以下步骤:
[0035]S1:根据原始数据中用户的好友关系,构建用户异质网络图,图中每个节点都代表一个用户,图中每一条边都代表连接的两个用户拥有好友关系,通过图神经网络聚合当前节点的邻域节点信息,得到当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于用户画像领域的数据增广方法,其特征在于:包括以下步骤:S1:根据原始数据中用户的好友关系,构建用户异质网络图,图中每个节点都代表一个用户,图中每一条边都代表连接的两个用户拥有好友关系,通过图神经网络聚合当前节点的邻域节点信息,得到当前节点嵌入向量;S2:根据S1获取的当前节点嵌入向量,通过图神经网络分类器,得到多标签分类概率矩阵,对个节点的每个标签的概率进行过滤,大于阈值的生成节点标签;S3:根据用户异质网络图,利用自监督学习思想,采用图划分技术的自监督学习方式,得到若干个划分后的子图,在每个子图中对无标签节点进行对齐操作,使其与真正的标签匹配,为无标签节点生成伪标签;S4:对S2生成的节点标签、利用S3中生成的伪标签进行自检,一致则加入真实标签集,迭代进行训练多次,以扩充训练数据集。2.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于:所述节点标签数量为1

N个。3.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于:所述S1具体包括:S1.1对待处理的原始数据进行缺失值填充、重复值过滤、异常值处理,得到处理后的用户行为数据;S1.2:利用用户好友关系,构建用户邻接矩阵;利用用户行为数据,构建用户特征矩阵;S1.3:根据所获得用户邻接矩阵和特征矩阵,利用图神经网络模型,通过图卷积算子,聚合邻域节点相关信息,得到节点的嵌入表示。4.如权利要求1所述的应用于用户画像领域的数据增广方法,其特...

【专利技术属性】
技术研发人员:赵相国张官正毕鑫聂豪杰王秋宇
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1