数据分析方法、装置和计算机可读存储介质制造方法及图纸

技术编号:23363859 阅读:17 留言:0更新日期:2020-02-18 17:38
本发明专利技术公开了一种数据分析方法、装置和计算机可读存储介质,涉及数据处理领域。数据分析方法包括:对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,生成的操作序列包括每个品类对应的初始化的向量;采用操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量;根据不同品类的向量之间的距离确定关联的品类。实施例的方法将多个具有一定顺序的用户操作所涉及的品类视为一个句子进行处理。通过借用自然语言处理中根据词语的上下文关系训练词向量的思想,可以根据用户对品类的操作顺序训练品类的向量。从而,可以提高品类关联分析的准确性。

Data analysis method, device and computer readable storage medium

【技术实现步骤摘要】
数据分析方法、装置和计算机可读存储介质
本专利技术涉及数据处理领域,特别涉及一种数据分析方法、装置和计算机可读存储介质。
技术介绍
在电子商务领域中,基于用户在电子商务平台上的海量行为数据,可以探索品类内商品以及不同品类之间存在的关系,进而可以获得商品、品类间存在的数据规律。从而,有利于结合特定的业务和场景需求对同类商品、竞品和替代品进行分析计算。
技术实现思路
专利技术人对相关技术进行分析后发现,目前在进行品类关联分析时,主要基于用户一段时间内用户浏览了哪些品类或者购买了哪些品类来进行品类关联度分析。专利技术人经过进一步研究后发现,相关技术没有关注到用户浏览品类、购买商品的先后顺序,因此相关技术的分析结果的准确性并不高。本专利技术实施例所要解决的一个技术问题是:提高品类关联分析的准确性。根据本专利技术一些实施例的第一个方面,提供一种数据分析方法,包括:对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,生成的操作序列包括每个品类对应的初始化的向量;采用操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量;根据不同品类的向量之间的距离确定关联的品类。在一些实施例中,采用操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量包括:获取操作序列中相邻的预设数量的品类向量作为训练子序列输入到word2vec模型中,将训练子序列中的一个品类向量作为预期输出品类向量、其他品类向量作为输入品类向量;计算输入品类向量之和,作为投影向量;根据投影向量和参数向量的乘积确定条件概率,其中,条件概率为将输入品类向量作为上下文时、获得预期输出品类向量的条件概率;以令基于条件概率的目标函数最大化为训练目标,对参数向量和输入品类向量进行更新。在一些实施例中,数据分析方法还包括:根据每个品类的操作次数在所有品类的操作次数之和中的占比,构建以品类为叶子节点的树形结构,其中,品类的叶子节点到根节点的距离与品类对应的占比成负相关关系;条件概率为经过从根节点到预期输出品类向量对应的叶子节点的路径上的各个节点的概率的乘积,经过路径上的每个节点的概率通过逻辑斯谛回归函数确定,逻辑斯谛回归函数的参数为投影向量和参数向量的乘积。在一些实施例中,数据分析方法还包括:获取每个用户的操作记录,其中,操作记录包括用户标识、操作时间、操作所涉及的品类;筛除浏览的品类数小于预设值的用户的操作记录,以便根据筛选后的操作记录对同一用户的操作所涉及的品类按照操作时间进行排序。在一些实施例中,数据分析方法还包括:获取与待推荐用户关注的品类关联程度高于预设值的关联品类;将关联品类推荐给待推荐用户。在一些实施例中,在将关联品类推荐给待推荐用户之前,待推荐用户未关注关联品类。在一些实施例中,操作为浏览操作、收藏操作或者添加购物车操作。根据本专利技术实施例的第二个方面,提供一种数据分析装置,包括:操作序列生成模块,被配置为对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,生成的操作序列包括每个品类对应的初始化的向量;品类向量更新模块,被配置为采用操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量;关联品类确定模块,被配置为根据不同品类的向量之间的距离确定关联的品类。在一些实施例中,品类向量更新模块进一步被配置为获取操作序列中相邻的预设数量的品类向量作为训练子序列输入到word2vec模型中,将训练子序列中的一个品类向量作为预期输出品类向量、其他品类向量作为输入品类向量;计算输入品类向量之和,作为投影向量;根据投影向量和参数向量的乘积确定条件概率,其中,条件概率为将输入品类向量作为上下文时、获得预期输出品类向量的条件概率;以令基于条件概率的目标函数最大化为训练目标,对参数向量和输入品类向量进行更新。在一些实施例中,数据分析装置还包括:树结构构建模块,被配置为根据每个品类的操作次数在所有品类的操作次数之和中的占比,构建以品类为叶子节点的树形结构,其中,品类的叶子节点到根节点的距离与品类对应的占比成负相关关系;条件概率为经过从根节点到预期输出品类向量对应的叶子节点的路径上的各个节点的概率的乘积,经过路径上的每个节点的概率通过逻辑斯谛回归函数确定,逻辑斯谛回归函数的参数为投影向量和参数向量的乘积。在一些实施例中,数据分析装置还包括:数据筛选模块,被配置为获取每个用户的操作记录,其中,操作记录包括用户标识、操作时间、操作所涉及的品类;筛除浏览的品类数小于预设值的用户的操作记录,以便根据筛选后的操作记录对同一用户的操作所涉及的品类按照操作时间进行排序。在一些实施例中,数据分析装置还包括:品类推荐模块,被配置为获取与待推荐用户关注的品类关联程度高于预设值的关联品类;将关联品类推荐给待推荐用户。在一些实施例中,在将关联品类推荐给待推荐用户之前,待推荐用户未关注关联品类。根据本专利技术一些实施例的第三个方面,提供一种数据分析装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任意一种数据分析方法。根据本专利技术一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种数据分析方法。上述专利技术中的一些实施例具有如下优点或有益效果:本专利技术实施例的方法将多个具有一定顺序的用户操作所涉及的品类视为一个句子进行处理。通过借用自然语言处理中根据词语的上下文关系训练词向量的思想,可以根据用户对品类的操作顺序训练品类的向量。从而,可以提高品类关联分析的准确性。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本专利技术一些实施例的数据分析方法的流程示意图。图2为根据本专利技术一些实施例的品类向量确定方法的流程示意图。图3为根据本专利技术一些实施例的树形结构构建方法的流程示意图。图4为根据本专利技术一些实施例的数据清洗方法的流程示意图。图5为根据本专利技术一些实施例的物品推荐方法的流程示意图。图6为根据本专利技术一些实施例的数据分析装置的结构示意图。图7为根据本专利技术另一些实施例的数据分析装置的结构示意图。图8为根据本专利技术又一些实施例的数据分析装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。基于本专利技术中的实施例,本领本文档来自技高网...

【技术保护点】
1.一种数据分析方法,包括:/n对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,生成的操作序列包括每个品类对应的初始化的向量;/n采用所述操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量;/n根据不同品类的向量之间的距离确定关联的品类。/n

【技术特征摘要】
1.一种数据分析方法,包括:
对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,生成的操作序列包括每个品类对应的初始化的向量;
采用所述操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量;
根据不同品类的向量之间的距离确定关联的品类。


2.根据权利要求1所述的数据分析方法,其中,所述采用所述操作序列训练词向量生成模型word2vec,获得每个品类更新后的向量包括:
获取操作序列中相邻的预设数量的品类向量作为训练子序列输入到word2vec模型中,将训练子序列中的一个品类向量作为预期输出品类向量、其他品类向量作为输入品类向量;
计算输入品类向量之和,作为投影向量;
根据投影向量和参数向量的乘积确定条件概率,其中,所述条件概率为将输入品类向量作为上下文时、获得预期输出品类向量的条件概率;
以令基于条件概率的目标函数最大化为训练目标,对参数向量和输入品类向量进行更新。


3.根据权利要求2所述的数据分析方法,还包括:
根据每个品类的操作次数在所有品类的操作次数之和中的占比,构建以品类为叶子节点的树形结构,其中,品类的叶子节点到根节点的距离与品类对应的所述占比成负相关关系;
所述条件概率为经过从根节点到预期输出品类向量对应的叶子节点的路径上的各个节点的概率的乘积,经过路径上的每个节点的概率通过逻辑斯谛回归函数确定,逻辑斯谛回归函数的参数为投影向量和参数向量的乘积。


4.根据权利要求1~3中任一项所述的数据分析方法,还包括:
获取每个用户的操作记录,其中,所述操作记录包括用户标识、操作时间、操作所涉及的品类;
筛除浏览的品类数小于预设值的用户的操作记录,以便根据筛选后的操作记录对同一用户的操作所涉及的品类按照操作时间进行排序。


5.根据权利要求1所述的数据分析方法,还包括:
获取与待推荐用户关注的品类关联程度高于预设值的关联品类;
将所述关联品类推荐给所述待推荐用户。


6.根据权利要求5所述的数据分析方法,其中,在将所述关联品类推荐给所述待推荐用户之前,所述待推荐用户未关注所述关联品类。


7.根据权利要求1所述的数据分析方法,其中,所述操作为浏览操作、收藏操作或者添加购物车操作。


8.一种数据分析装置,包括:
操作序列生成模块,被配置为对同一用户的操作所涉及的品类按照操作时间进行排序,生成操作序列,其中,...

【专利技术属性】
技术研发人员:花志祥陈珊珊周默
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1