将商品对象挂载到标准产品单元的方法及系统技术方案

技术编号:11729055 阅读:105 留言:0更新日期:2015-07-15 01:49
本申请公开了将商品对象挂载到标准产品单元的方法及系统,其中,所述方法包括:对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型;获取第一训练数据,生成SPU聚类中心;获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并分别进行特征提取,将二元组分别表示为特征向量;获取标注信息,得到第二训练数据;建立回归模型;将商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,以便向相关应用提供挂载结果。通过本申请,能更准确地将商品对象自动挂载到SPU上。

【技术实现步骤摘要】

本申请涉及商品对象信息分析
,特别是涉及将商品对象挂载到标准产品单元的方法及系统
技术介绍
在一个电子商务网站中,存在大量的交易信息,其中包括卖家出售的商品对象的描述信息。这些商品对象的描述信息一般是卖家在发布商品对象是通过枚举输入产生的。在实际应用中,出于获得更高的搜索命中率等目的,卖家在发布商品对象时,在对商品对象的名称进行描述时,除了最基本的商品名、型号等信息之外,往往还会添加进一些属性信息到名称中。例如,某商品对象是一款iPhone5S手机,但是卖家可能会将其名称描述为:“苹果iPhone5S16G内存800W像素”,另外一卖家可能会将其名称描述为:“假一赔命Apple/苹果iPhone5S代手机16G32G国际无锁正品包邮”,等等。这就会出现以下情况:许多不同的卖家会出售本质上相同的商品对象,但是对商品对象名称的具体描述却千差万别。另一方面,电子商务网站可以采用标准产品单元(Standard Product Unit,SPU)来描述本质上相同的商品。SPU是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品最本质的特性。例如,在前述手机的例子中,对应的SPU就可以描述为“苹果/iPhone5S16G”,等等。在实际应用中,往往会具有将商品对象映射到标准产品单元SPU的需求。将商品对象映射到SPU后的应用有很多。例如:通过观察同一SPU下不同商品的价格分布,识别电子商务中的假货问题;通过分析相同SPU商品的交易,可以得到电子商务领域中商品的供应链关系;通过识别相同SPU的商品,可以改进搜索结果的用户体验;等等。但是,如何将商品映射到SPU,是电子商务领域的基础性难题。现有技术对于商品挂载到SPU的处理方式为,让卖家自行填写商品的各种属性以及属性值,当商品的关键属性的属性值与SPU的关键属性的属性值完全匹配时,将商品挂载到该SPU上。可见,现有技术中的实现方式中,挂载结果的准确性在很大程度上依赖于用户手动输入的属性及属性值的准确性。但是,由于电子商务领域的属性与属性值的可能取值太过庞大,以至于卖家填写的过程非常复杂,而且在这种复杂的过程中,卖家往往会由于各种原因,发生漏填、错填或者填写不规范内容的情况。在这种情况下,商品就无法正常的挂载到正确的SPU上,这不但会降低商品发布效率,而且会浪费网络资源。因此,如何更准确地将商品对象自动挂载到正确的SPU上,是迫切需要本领域技术人员解决的技术问题。
技术实现思路
本申请提供了将商品对象挂载到标准产品单元的方法及系统,能够更准确地将商品对象自动挂载到正确的SPU上。本申请提供了如下方案:一种将商品对象挂载到标准产品单元的方法,包括:对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;其中,类型包括品牌词、产品词、属性词或普通词;获取第一训练数据,其中,各个SPU下预先挂载有预置数目的商品对象;对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的参数进行拟合,建立回归模型;将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下,以便向相关应用提供挂载结果。一种将商品对象挂载到标准产品单元的系统,包括:文本处理单元,用于对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;其中,类型包括品牌词、产品词、属性词或普通词;聚类单元,用于获取第一训练数据,其中,各个SPU下预先挂载有预置数目的商品对象;对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;近似对象识别单元,用于基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;特征提取单元,用于将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;训练数据获取单元,用于针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;回归模型建立单元,用于根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的参数进行拟合,建立回归模型;预测单元,用于将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下,以便向相关应用提供挂载结果。根据本申请提供的具体实施例,本申请公开了以下技术效果:通过本申请实施例,为SPU识别问题特别设计了文本挖掘方法,在该方法中,首先将商品对象以及SPU的文本描述信息用一个或多个<分词,权重,类型>三元组组成的向量来表示,并根据已经正确挂载到SPU下的部分商品对象进行聚类,得到SPU聚类中心,这样,可以提供丰富的语义信息;之后,为了降低计算量,还可以首先针对各个商品对象,计算出与商品对象距离比较仅的部分目标SPU聚类中心,再基于部分训练数据中的商品对象与目标SPU聚类中心组成的二元组进行模型的训练,利用训练出的模型对商品对象进行预测。这样可以将各个商品对象挂载到对应的SPU上,并且由于语义信息比较丰富,可以得到较高的准确性。其次,本申请实施例还提供了TF,IDF,Cosine距离,扩展Jaccard距离等各种距离度量指标。通过上述方法,提本文档来自技高网
...
将商品对象挂载到标准产品单元的方法及系统

【技术保护点】
一种将商品对象挂载到标准产品单元的方法,其特征在于,包括:对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;获取第一训练数据,其中,各个SPU下预先挂载有多个商品对象;对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的参数进行拟合,建立回归模型;将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下。...

【技术特征摘要】
1.一种将商品对象挂载到标准产品单元的方法,其特征在于,包括:
对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算
各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各
个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元
组向量进行描述;
获取第一训练数据,其中,各个SPU下预先挂载有多个商品对象;对挂载
在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;
基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距
离小于预置阈值的所有目标SPU聚类中心;
将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针
对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;
针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信
息用于表示商品对象是否属于对应的目标SPU聚类中心;
根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模
型中的参数进行拟合,建立回归模型;
将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确
定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下。
2.根据权利要求1所述的方法,其特征在于,所述获取各个分词所属的
类型,包括:
利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,
得到各个文本描述信息对应的初步切分序列,其中,在初步切分序列中,各条
文本描述信息被切分为一个或多个实体词,并确定出各个实体词所属的类型;
根据各个初步切分序列中包含的实体词,建立异构网络图模型,在所述异
构网络图模型中,将所述实体词作为节点,将实体词在同一文本描述信息中的
共现关系映射为节点之间的边,两个实体之间的条件概率作为边的权重;
将所述通用的CRF模型与所述异构网络图模型集成,得到优化的CRF模型,
利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,得到
各个文本描述信息对应的切分序列。
3.根据权利要求2所述的方法,其特征在于,所述通用的CRF模型中,
提取的特征包括切分序列中的元素在切分序列中的位置信息、上下文信息、词
性信息、语言类型信息和/或特殊词汇信息。
4.根据权利要求2所述的方法,其特征在于,将所述通用的CRF模型与
所述异构网络图模型集成时,根据同一文本描述信息中切分出的实体词,从异
构网络图中提取子图,提取的特征包括切分出的实体词在所述子图中的入度、
实体词在入边上的最大权重值、实体词在入边上的平均权重值和/或在子图中,
与实体词类型相同的节点个数。
5.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下
的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中包含的分词,根据挂载在该SPU下的各个商品对
象分别对应的三元组,计算分词的平均权重,利用该平均权重替换该SPU对应
的三元组中的权重信息。
6.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下
的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中未包含、但挂载在该SPU下的商品对象的三元组
向量中包含的分词,根据挂载在该SPU下的各个商品对象分别对应的三元组,
统计各分词在对应类型下出现的次数,以及平均权重,如果所述次数以及平均
权重符合预置条件,则将该分词、平均权重以及对应的类型组成的三元组...

【专利技术属性】
技术研发人员:陈俊波陈春明王力庞昂博蔡维佳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1