特征提取方法、特征提取装置、存储介质及电子设备制造方法及图纸

技术编号:24940429 阅读:57 留言:0更新日期:2020-07-17 21:28
本发明专利技术实施方式涉及一种特征提取方法、特征提取装置、存储介质与电子设备,涉及数据处理技术领域。该方法包括:获取各版块内的商品,所述版块为包括至少一种商品的商品集合;生成各所述版块对应的版块节点,各所述商品对应的商品节点,以及用户节点;基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图;利用图神经网络提取所述拓扑图中任一节点的特征。本发明专利技术提高了所提取的特征质量,保证了特征的全面性与准确性,有利于为后续的业务分析与业务决策提供有效支持。

【技术实现步骤摘要】
特征提取方法、特征提取装置、存储介质及电子设备
本专利技术的实施方式涉及数据处理
,更具体地,本专利技术的实施方式涉及一种特征提取方法、特征提取装置、计算机可读存储介质及电子设备。
技术介绍
本部分旨在为权利要求中陈述的本专利技术的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。对于互联网企业来说,数据分析是一项重要的工作,特别是对用户数据、商品数据进行有效分析,能够为业务决策提供相应支持,帮助企业提升服务质量,吸引更多用户。特征提取是数据分析中不可缺少的环节,例如在分析用户数据时,通常首先从数据中提取用户特征,再根据用户特征实现用户画像或用户分类,进而对不同用户提供不同的定制化服务。现有技术中,特征提取大多是基于人为设置的维度而实现的。例如为了提取用户特征,根据数据场景的特点,事先确定多个数据指标,即特征维度,如电商场景中可能确定用户年龄、性别、登录次数、购买商品金额等维度,然后根据每个维度对用户数据进行整理,得到对应的用户特征。
技术实现思路
然而,现有技术中,提取的特征质量强烈地依赖于维度设置是否合理:如果维度设置的不足,则所提取的特征不充分,如果维度设置的过多,则所提取的特征中存在冗余信息。由于人为设置维度的主观性,提取的特征质量通常较低。此外,用户特征来源于用户数据,商品特征来源于商品数据,导致所提取的特征较为片面,特别是在较为复杂的业务场景中,特征无法体现出业务关系,因此不利于后续的业务分析与业务决策。为此,非常需要一种改进的特征提取方法,以实现高质量的特征提取,使得所提取的特征能够较为全面地体现出复杂的业务关系,从而为后续的业务分析与业务决策提供有效支持。在本上下文中,本专利技术的实施方式期望提供一种特征提取方法、特征提取装置、计算机可读存储介质及电子设备。根据本专利技术实施方式的第一方面,提供一种特征提取方法,包括:获取各版块内的商品,所述版块为包括至少一种商品的商品集合;生成各所述版块对应的版块节点,各所述商品对应的商品节点,以及用户节点;基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图;利用图神经网络提取所述拓扑图中任一节点的特征。在一种可选的实施方式中,所述用户节点通过以下方式生成:对用户进行聚类,得到多个用户类别;对每个所述用户类别分别生成对应的一个用户节点。在一种可选的实施方式中,所述对用户进行聚类,得到多个用户类别,包括:基于所述用户的基本信息对所述用户进行聚类,得到多个第一用户类别;基于所述用户的行为属性对所述用户进行聚类,得到多个第二用户类别。在一种可选的实施方式中,当产生新用户时,所述方法还包括:如果所述新用户具有历史数据,则根据所述新用户的历史数据确定其行为属性,并根据所述新用户的行为属性将所述新用户划分到对应的第二用户类别;如果所述新用户不具有历史数据,则根据所述新用户的基本信息将所述新用户划分到对应的第一用户类别。在一种可选的实施方式中,所述基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图,包括:统计历史数据中每个所述用户类别中的用户与各所述版块的历史交互行为,以确定所述用户节点和所述版块节点之间的边以及边权重。在一种可选的实施方式中,所述基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图,包括:统计历史数据中每个所述用户类别中的用户与各所述商品的历史交互行为,以确定所述用户节点和所述商品节点之间的边以及边权重。在一种可选的实施方式中,所述基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图,包括:统计每个所述版块中各所述商品的词频-逆文本频率,根据所述词频-逆文本频率确定所述版块节点和所述商品节点之间的边以及边权重。在一种可选的实施方式中,所述基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图,包括:根据用户针对各所述商品的历史行为,确定各所述商品之间的关联性,根据所述关联性确定各所述商品节点之间的边以及边权重。在一种可选的实施方式中,所述图神经网络通过以下方式训练:将所述拓扑图输入待训练的图神经网络,提取所述拓扑图中任意两个节点的特征,计算所述两个节点的特征相似度;基于所述两个节点之间是否有边,得到针对所述两个节点的标签;利用所述两个节点的特征相似度和标签,更新所述图神经网络的参数。在一种可选的实施方式中,所述利用所述两个节点的特征相似度和标签,更新所述图神经网络的参数,包括:将所述两个节点的特征相似度和标签代入以下损失函数:通过所述损失函数更新所述图神经网络的参数;其中,L表示所述损失函数,n为样本数量;V表示所述拓扑图中的节点集合,u、v表示V中的任意两个节点;N(u)表示与u有边的节点的集合,F(u)表示与u无边的节点的集合,E(u|v)=1表示u与v有边时,所述标签为1,E(u|v)=0表示u与v无边时,所述标签为0;Zu表示u的特征,Zv表示v的特征,P(Zu|Zv)表示u和v的特征相似度。在一种可选的实施方式中,所述利用图神经网络提取所述拓扑图中任一节点的特征,包括:在所述拓扑图中确定所述任一节点的关键邻居节点;对所述关键邻居节点的输入特征进行聚合,并通过所述图神经网络进行预设层数的迭代,得到所述任一节点的特征。在一种可选的实施方式中,所述在所述拓扑图中确定所述任一节点的关键邻居节点,包括:如果所述任一节点为版块节点,则在其邻居节点中选取所有的商品节点,作为所述任一节点的关键邻居节点。在一种可选的实施方式中,所述在所述拓扑图中确定所述任一节点的关键邻居节点,包括:如果所述任一节点为商品节点,则在其邻居节点中选取第一预设数量的用户节点、第二预设数量的商品节点和所有的版块节点,作为所述任一节点的关键邻居节点。在一种可选的实施方式中,所述在所述拓扑图中确定所述任一节点的关键邻居节点,包括:如果所述任一节点为用户节点,则在其邻居节点中选取第三预设数量的节点,作为所述任一节点的关键邻居节点。在一种可选的实施方式中,所述版块节点的输入特征通过以下方式获取:对版块的标题文本、类别信息、海报图像中的至少一种提取特征,并进行编码,得到所述版块对应的版块节点的输入特征。在一种可选的实施方式中,所述商品节点的输入特征通过以下方式获取:对商品的标题文本、类目信息、价格信息、商品图像中的至少一种提取特征,并进行编码,得到所述商品对应的版块节点的输入特征。在一种可选的实施方式中,所述用户节点的输入特征通过以下方式获取:对用户的基本信息和行为属性中的至少一种提取本文档来自技高网...

【技术保护点】
1.一种特征提取方法,其特征在于,包括:/n获取各版块内的商品,所述版块为包括至少一种商品的商品集合;/n生成各所述版块对应的版块节点,各所述商品对应的商品节点,以及用户节点;/n基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图;/n利用图神经网络提取所述拓扑图中任一节点的特征。/n

【技术特征摘要】
1.一种特征提取方法,其特征在于,包括:
获取各版块内的商品,所述版块为包括至少一种商品的商品集合;
生成各所述版块对应的版块节点,各所述商品对应的商品节点,以及用户节点;
基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图;
利用图神经网络提取所述拓扑图中任一节点的特征。


2.根据权利要求1所述的方法,其特征在于,所述用户节点通过以下方式生成:
对用户进行聚类,得到多个用户类别;
对每个所述用户类别分别生成对应的一个用户节点。


3.根据权利要求2所述的方法,其特征在于,所述对用户进行聚类,得到多个用户类别,包括:
基于所述用户的基本信息对所述用户进行聚类,得到多个第一用户类别;
基于所述用户的行为属性对所述用户进行聚类,得到多个第二用户类别。


4.根据权利要求3所述的方法,其特征在于,当产生新用户时,所述方法还包括:
如果所述新用户具有历史数据,则根据所述新用户的历史数据确定其行为属性,并根据所述新用户的行为属性将所述新用户划分到对应的第二用户类别;
如果所述新用户不具有历史数据,则根据所述新用户的基本信息将所述新用户划分到对应的第一用户类别。


5.根据权利要求2所述的方法,其特征在于,所述基于用户对所述版块、所述商品的历史行为,以及所述版块与所述商品之间的从属关系,生成各所述版块节点、商品节点、用户节点之间的边,以建立拓扑图,包括:
统计历史数据中每个所述用户类别中的用户与各所述版块的历史交互行为,以确定所述用户节点和所述版块节点之间的边以及边权重。

【专利技术属性】
技术研发人员:盛雅琦陈自强吴承泽杨杰
申请(专利权)人:杭州网易再顾科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1