一种基于联合矩阵分解的电商场景挖掘方法与系统技术方案

技术编号:34186867 阅读:12 留言:0更新日期:2022-07-17 14:27
本发明专利技术通过数据挖掘领域的方法,实现了一种基于联合矩阵分解的电商场景挖掘方法与系统。将外部输入的给定用户行为集合与商品属性集合作为电商场景信息,构建包含商品

【技术实现步骤摘要】
一种基于联合矩阵分解的电商场景挖掘方法与系统


[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于联合矩阵分解的电商场景挖掘方法。

技术介绍

[0002]为了引导不同领域商品推荐,需要整合平台内部信息挖掘普适的形式化场景信息。在电子商务平台的商品推荐策略中,在用户商品互动记录的基础上引入额外的推荐引导信息是公认的提高预测质量的方法,例如,社交链接反映用户之间的不同社会关系,购物兴趣可以通过这种关系进行传播,从而对互动行为的推荐预测加以引导补充。由于传统的引导信息获取成本高昂,使用时需要数据对齐,迫使平台寻找公开易获取或通过内部信息即可提取的新型引导信息。根据具有一定实际含义的场景引导预测用户潜在的购物兴趣和行为意愿的方法逐渐受到业界的关注,并且部分以图片保存场景的方法在小规模投入使用后所取得的良好结果验证了这一策略的有效性。然而,将基于场景的商品推荐方法投入具有不同商品领域的实际平台进行运营时,面临诸多困难。一方面,场景作为基于场景的商品推荐方法中的关键引导信息在大部分情况下是未知的,换句话说,除了少数场合存在预先可知的场景外,这类引导信息大多都需要采用专门的方法进行获取。另一方面,电子商务平台上的数据更新迭代频率高,数据类型组成成分差异大,从结构化数据中挖掘信息的常规方法聚焦具体数据类型和组成模式,面对电商运营通用性更强与普适性更好的要求捉襟见肘,难以满足。
[0003]大型电商平台中进行场景挖掘主要存在4个方面的挑战。1)可解释性。场景代表着真实生活中的情景,因此所获得的商品品类集合应当可以解释为特定生活情景的象征。相反,如果一个商品品类集合不能对应任何真实生活中的情景,则其不是场景。例如,由路由器、交换机、线缆和3G/4G设备组成的集合非常明显地代表场景“组网”,而由路由器、交换机和帽子组成的集合不能解释为一个场景。2)普适性。电商平台上的数据可以组织建模为异构信息网络。虽然元路径(meta

paths)和元结构(meta

structures)等启发式数据结构已经在异构信息网络上的诸多数据挖掘任务中展现了良好的可用性,但其存在着局限性。一方面,这些任务中所出现的大多数异构信息网络的结构都较为简单;另一方面,元路径和元结构通常由人类专家手工设计,而在大型复杂的异构信息网络中如法炮制实际上是不可行的。因此,需要设计一种可以推广到具有不同复杂结构的异构信息网络上的场景挖掘方法。3)多样性。在电子商务中,一个商品品类可以同时存在于多个不同场景中,且一个场景也可以表示为多个不同的商品品类集合。例如,垃圾桶可以同时出现在场景“日常办公”和场景“居家生活”中;场景“日常办公”可以由打印机、垃圾桶和加湿器的组合表示,也可以由计算机、中性笔和打印机的组合表示。4)可学习性。电商中的场景一般是未知的,而且用于引导发掘场景的监督信息往往也是缺失的。因此,挖掘场景的任务最好作为一个无监督学习问题来处理,可以将其视为重叠聚类问题进行解决。
[0004]目前,并没有针对电商领域设计的形式化场景挖掘技术,由于可将场景挖掘视为
重叠场景聚类问题,可以将现有的针对异构信息网络的重叠场景聚类技术用作场景挖掘。目前较为先进的方案HMFCus

S。下面简述该方法的主要流程要点:
[0005]给定一个异构信息网络H=(V,E),其中T是H中的节点的类型数目,且T>1。T
t
表示节点类型t。V
t
表示类型为T
t
的节点集合。E是节点之间边的集合。
[0006](1)异构信息网络转化(Heterogeneous Information network Transformation)。将目标聚类的节点类型视为中心类型,其他节点类型视为属性类型,则可以获得一个端点为中心类型,而另一个端点为属性类型的元路径集合P。由此,通过衡量由中心类型端点到属性类型端点的概率即可得到中心类型端点与属性类型端点的相似度,进一步可得到中心类型端点与属性类型端点之间的相似度矩阵。这些与元路径相对应的相似度矩阵集合X就是对原异构信息信息网络转化结果。这个步骤将复杂的关系拆解为目标节点与其他节点的相似度矩阵集合。
[0007](2)多类型共同聚类(Multi

Type Co

clustering)。将转化得到的相似度矩阵集合X逐个进行分解,目标包括分解得到的因子矩阵相乘还原之后要尽可能与原矩阵接近,每个相似度矩阵分解出的中心节点因子矩阵应当与一个总的中心节点矩阵接近,总的中心节点矩阵中存在关系的中心节点之间的特征也要相接近。通过使用KKT条件(Karush

Kuhn

Tucher condition)求解出相应迭代式,应用乘法更新规则不断迭代至收敛,所得总的中心节点矩阵即为聚类隶属度矩阵,对其进行阈值筛选即可完成重复聚类任务。
[0008](1)程序繁琐步骤多,增加了错误传播的可能性。异构信息网络虽然为复杂网络,但实质上是由多个子网络拼接而成的,可以直接对这些子网络进行信息抽取再整合,始终以原始数据作为处理对象可以最大程度上提高精准度。而HMFCus

S增加了转化步骤,利用元路径求出中心类型节点和属性类型节点的相似度,这对数据进行了不必要的处理,元路径的设计与相似度的计算方式都会引入新的误差,影响最终重叠聚类的效果。
[0009](2)包含启发式结构,性能不稳定,不具有普适性。转化步骤中使用元路径的方式来从异构信息网络中过去信息,元路径的设计一直都是影响基于元路径方法性能的关键,需要人类专家凭借领域知识和大量测试才能完成设计,这导致每次在不同结构的数据上使用该方法时所设计的元路径质量存在差异,进而不能实现性能的一致性。
[0010](3)增加不必要的中间变量,造成信息损失。目标节点在所有相似度矩阵中均有出现,HMFCus

S对每一个相似度矩阵都生成一个独立的目标节点因子矩阵,最后让这些矩阵向总的目标节点因子矩阵靠拢,看似这个总矩阵是综合了不同相似矩阵的信息,但实质上,独立的因子矩阵会在迭代过程中吸收其他相似度矩阵的信息,这样的传导过程因为增加中间独立的因子矩阵而发生信息衰减,完全可以直接使用总的目标因子矩阵作为各相似度矩阵的因子矩阵,从而直接吸收不同方面的信息。
[0011]从中可以看出,当前没有专门针对在线购物特征设计的场景聚类方法,而现有重叠聚类方法直接应用于电商场景挖掘存在诸多问题。
[0012]首先,当前处理同构网络的重叠聚类方法无法处理电商平台中的复杂信息。电商平台中实体众多,存在不同关系,仅依靠处理同构网络获取信息会产生片面结果无法对现实世界进行准确建模,结果准确率难以符合实际运营要求,不具有使用价值。
[0013]其次,当前处理异构信息网络的重叠聚类方法对人工提供的启发性知识依赖严重。设计元路径和原结构等知识成本巨大,且不具有重复利用性,电商平台不同商品领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:首先将外部输入的给定用户行为集合与商品属性集合作为电商场景信息,构建包含商品

商品子网络、商品

属性子网络、属性

属性子网络三种类型子网络的电子商务异构信息网络,之后采用新型电商场景挖掘方法,经过计算步骤,针对每个商品品类,输出其所属于的场景集合,同时通过收集属于相同场景的商品品类集合,输出电商场景;所述商品

商品子网络记录商品间的关系,对于电子商务运营过程中的反映商品间关系的用户行为,记表示用户行为的集合,给定一个用户行为B,相应的商品

商品子网络定义为G
BB
=(V
B
,E
BB
),其中V
B
是商品集合,E
BB
是商品之间边的集合,每一条边表示用户行为B中两个存在链接商品的共现关系,使用邻接矩阵W
BB
来表示商品间的联系,其中每一个元素代表两个商品经用户行为B反映出来的相关性;所述商品

属性子网络记录商品与属性之间的关系。对于电子商务运营过程中的商品属性,将所述商品属性视为电子商务异构信息网络中的对象,令属性,将所述商品属性视为电子商务异构信息网络中的对象,令表示商品属性的集合,其中每个属性A
i
视为一个对象类型,给定一个属性A,一个商品

属性子网络可以通过一个二部图来表示G
IA
=(V
I
∪V
A
,E
IA
),其中V
I
是商品集合,V
A
是属性节点集合,E
IA
是表示商品和属性间二元关系链接的集合,每个商品

属性子网络使用邻接矩阵W
IA
来表示,其中每一个元素代表商品是否具有某一个具体的属性值;所述属性

属性子网络记录属性间的关系,给定一个属性A,一个属性

属性子网络定义为G
AA
=(V
A
,E
AA
),其中V
A
是属性节点的集合,E
AA
是属性间链接的集合,利用邻接矩阵W
AA
表示属性间的联系,其中每一个元素代表两个商品属性的相关性。2.如权利要求1所述的一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:所述反映商品间关系的用户行为包括点击、购买和评价。3.如...

【专利技术属性】
技术研发人员:马帅王罡李翔郭子义殷大伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1