一种预测商品属性数据及训练其模型的方法和装置制造方法及图纸

技术编号:19647589 阅读:31 留言:0更新日期:2018-12-05 20:43
本发明专利技术公开了一种预测商品属性数据及训练其模型的方法和装置,其中,训练预测商品属性数据模型的方法,包括:获取店铺的特征向量,店铺的特征向量包括店铺等级的特征值;获取商品属性的特征向量,其包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;结合店铺的特征向量和商品属性的特征向量训练数学回归模型,获得用于预测商品的未知属性数据的模型。本发明专利技术中,通过结合店铺的特征向量和商品属性的特征向量训练数学回归模型获得的预测商品属性数据模型能够获得更准确的预测结果,并且采用了高斯混合模型,能够有效地利用无监督聚类方法对店铺分级、基于词袋和向量将商品属性特征表示。

A Method and Device for Predicting Commodity Attribute Data and Training Its Model

The invention discloses a method and device for predicting commodity attribute data and training its model, in which the method for training and predicting commodity attribute data model includes acquiring the feature vector of a shop, the feature vector of a shop including the feature value of the shop grade, and acquiring the feature vector of commodity attribute, including the commodity belonged to. The eigenvalues of attribute classes corresponding to the class and the known attribute data of commodities are combined with the feature vectors of stores and commodity attributes to train the mathematical regression model and obtain the model for predicting the unknown attribute data of commodities. In the present invention, a more accurate prediction result can be obtained by training the mathematical regression model of predicting commodity attribute data obtained by combining the feature vectors of stores with the feature vectors of commodity attributes, and the Gauss mixture model is adopted to effectively use unsupervised clustering method to classify stores, based on word bags and vectors. Characteristic representation of commodity attributes.

【技术实现步骤摘要】
一种预测商品属性数据及训练其模型的方法和装置
本专利技术涉及计算机领域,具体是机器学习领域,尤其涉及一种预测商品属性数据及训练其模型的方法和装置。
技术介绍
目前,商品在出售前需要进行相关的市场调研以预测商品相关属性数据信息,例如,包括商品价格、销售量和市场寿命等等,尤其是商品定价,传统的定价方法来源于成本和收益方面的考量,实际操作中受定价人主观因素(经验、认知等)的影响,这样的定价方法往往忽略了当前客观市场情况和商品自身的情况。另一方面,企业通过市场调查的方法来对商品定价,即设计实验抽样得到样本并对总体估计,但这种方法得到的价格与实际存在偏差,且对资源和技术手段要求较高,不利于实施。因此,本领域的技术人员致力于开发一种预测商品属性数据及训练其模型的方法和装置
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种能够准确预测商品属性数据的预测商品属性数据及训练其模型的方法和装置。为实现上述目的,本专利技术提供了一种训练预测商品属性数据模型的方法,包括以下步骤:获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是其中K为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,N(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;获取商品属性的特征向量,所述商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;结合所述店铺的特征向量和所述商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。进一步地,所述店铺的特征向量还包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值和该品类商品总数量的特征值。进一步地,所述商品所述品类所对应的属性类别基于词袋模型获得。进一步地,当所述商品的描述与商品所属品类所对应的属性类别匹配,则该商品所属品类所对应的属性类别赋值为1,否则赋值为0。进一步地,还包括:在训练数学回归模型前,对特征值进行预处理,所述预处理包括归一化处理和/或高维变量处理。进一步地,所述归一化处理是将特征值除以该特征值所对应的最大值,所述高维变量处理是对特征值计算相应的平方项、立方项、四次方项和五次方项。进一步地,所述商品的未知属性数据为商品的价格,所述数学回归模型为价值回归模型。进一步地,所述价值回归模型包括随机森林回归模型、随机梯度下降模型和梯度提升决策模型中的至少一种。本专利技术还提供了一种预测商品属性数据的方法,采用前面所述的训练预测商品属性数据模型的方法获得的模型预测商品的未知属性数据,以获得所述商品的未知属性数据的预测结果。进一步地,所述数学回归模型包括多个,所述商品的未知属性数据是获得的多个模型的预测结果的平均值。本专利技术还提供了一种训练预测商品属性数据模型的装置,包括:第一获取单元,用于获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是其中K为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,N(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;第二获取单元,用于获取商品属性的特征向量,所述商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;训练单元,用于结合所述店铺的特征向量和所述商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。进一步地,所述店铺的特征向量还包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值和该品类商品总数量的特征值。进一步地,还包括:在训练数学回归模型前,对特征值进行预处理,所述预处理包括归一化处理和/或高维变量处理。进一步地,所述商品的未知属性数据为商品的价格,所述数学回归模型为价值回归模型。本专利技术还提供了一种预测商品属性数据的装置,包括:预测单元,用于采用前面所述的训练预测商品属性数据模型的装置获得的模型预测商品的未知属性数据;获得单元,用于获得所述预测单元对所述商品的未知属性数据的预测结果。本专利技术提供的一种预测商品属性数据及训练其模型的方法和装置,具有以下效果:(1)本专利技术中,通过结合店铺的特征向量和商品属性的特征向量训练数学回归模型获得的预测商品属性数据模型能够获得更准确的预测结果。(2)本专利技术中,采用了高斯混合模型,能够有效地利用无监督聚类方法对店铺分级、基于词袋和向量将商品属性特征表示。(3)本专利技术中,集成了多个价值回归模型(包括随机森林回归、随机梯度下降、梯度提升决策树都是数据量在百万级以上时能够有效回归的方法),为预测商品属性数据提供了的一种新的方案,该方案能够获得更为准确的预测结果。(4)本专利技术适用于不同类型的店铺,包括线下实体店、线上电商和微商及各种不同销售渠道的店铺等。(5)本专利技术适用于不同商品的未知属性数据的预测,包括服装、电子产品、食品和日用品等等。综上所述,本专利技术针对不同品类,采用商品的已知属性(如尺寸、材质等)和店铺数据,利用高斯混合模型对店铺分类和进行特征向量表示,之后利用词袋获得商品属性特征向量表示,然后集成了随机森林回归、随机梯度下降、梯度提升决策树的集成模型,由此可以预测商品价值和影响价值的因素,从而得到预测商品属性数据的方法。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术实施例的训练预测商品属性数据模型的方法示意图;图2是本专利技术实施例的计算基于高斯混合模型的店铺分类和店铺特征向量表示的流程图;图3是本专利技术实施例的计算基于词袋对商品属性进行特征表示的流程图;图4是本专利技术实施例的基于集成价值回归模型训练和预测的流程图。下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。具体实施方式如图1所示,是本专利技术实施例的训练预测商品属性数据模型的方法,包括以下步骤:步骤S1,获取店铺的特征向量,店铺的特征向量包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值、该品类商品总数量的特征值和店铺等级的特征值,其中店铺等级的特征值基于高斯混合模型获得;高斯混合模型公式是:其中K为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,N(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;步骤S2,获取商品属性的特征向量,商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;其中商品品类所对应的属性类别基于词袋模型获得。当商品的描述与商品所属品类所对应的属性类别匹配,则该商品所属品类所对应的属性类别赋值为1,否则赋值为0。步骤S3,结合店铺的特征向量和商品属性的特征向量训练数学回归模型,以获得本文档来自技高网...

【技术保护点】
1.一种训练预测商品属性数据模型的方法,其特征在于,包括以下步骤:获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是

【技术特征摘要】
1.一种训练预测商品属性数据模型的方法,其特征在于,包括以下步骤:获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是其中K为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,N(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;获取商品属性的特征向量,所述商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;结合所述店铺的特征向量和所述商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。2.如权利要求1所述的训练预测商品属性数据模型的方法,其特征在于,所述店铺的特征向量还包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值和该品类商品总数量的特征值。3.如权利要求1所述的训练预测商品属性数据模型的方法,其特征在于,所述商品所述品类所对应的属性类别基于词袋模型获得。4.如权利要求1所述的训练预测商品属性数据模型的方法,其特征在于,当所述商品的描述与商品所属品类所对应的属性类别匹配,则该商品所属品类所对应的属性类别赋值为1,否则赋值为0。5.如权利要求1所述的训练预测商品属性数据模型的方法,其特征在于,还包括:在训练数学回归模型前,对特征值进行预处理,所述预处理包括归一化处理和/或高维变量处理。6.如权利要求5所述的训练预测商品属性数据模型的方法,其特征在于,所述归一化处理是将特征值除以该特征值所对应的最大值,所述高维变量处理是对特征值计算相应的平方项、立方项、四次方项和五次方项。7.如权利要求1所述的训练预测商品属性数据模型的方法,其特征在于,所述商品的未知属性数据为商品的价格,所述数学回归模型为价值回归模型。8.如权利要求7所述的训练预测商品属性数据模型的方法,其特征在于,所述价值回归模型包括随机森林回归模型、随机梯度下降模型和梯度提升决策模型中...

【专利技术属性】
技术研发人员:杨骏史建明李杰
申请(专利权)人:上海宏原信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1