【技术实现步骤摘要】
本申请涉及商品对象信息分析
,特别是涉及将商品对象挂载到标准产品单元的方法及系统。
技术介绍
在一个电子商务网站中,存在大量的交易信息,其中包括卖家出售的商品对象的描述信息。这些商品对象的描述信息一般是卖家在发布商品对象是通过枚举输入产生的。在实际应用中,出于获得更高的搜索命中率等目的,卖家在发布商品对象时,在对商品对象的名称进行描述时,除了最基本的商品名、型号等信息之外,往往还会添加进一些属性信息到名称中。例如,某商品对象是一款iPhone5S手机,但是卖家可能会将其名称描述为:“苹果iPhone5S16G内存800W像素”,另外一卖家可能会将其名称描述为:“假一赔命Apple/苹果iPhone5S代手机16G32G国际无锁正品包邮”,等等。这就会出现以下情况:许多不同的卖家会出售本质上相同的商品对象,但是对商品对象名称的具体描述却千差万别。另一方面,电子商务网站可以采用标准产品单元(Standard Product Unit,SPU)来描述本质上相同的商品。SPU是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品最本质的特性。例如,在前述手机的例子中,对应的SPU就可以描述为“苹果/iPhone5S16G”,等等。在实际应用中,往往会具有将商品对象映射到标准产品单元SPU的需求。将商品对象映射到SPU后的应用有很多。例如:通过观察同一SPU下不同商品的价格分布,识别电子商务中的 ...
【技术保护点】
一种将商品对象挂载到标准产品单元的方法,其特征在于,包括:对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;获取第一训练数据,其中,各个SPU下预先挂载有多个商品对象;对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的参数进行拟合,建立回归模型;将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,并将待预测的 ...
【技术特征摘要】
1.一种将商品对象挂载到标准产品单元的方法,其特征在于,包括:
对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算
各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各
个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元
组向量进行描述;
获取第一训练数据,其中,各个SPU下预先挂载有多个商品对象;对挂载
在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;
基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距
离小于预置阈值的所有目标SPU聚类中心;
将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针
对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;
针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信
息用于表示商品对象是否属于对应的目标SPU聚类中心;
根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模
型中的参数进行拟合,建立回归模型;
将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确
定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下。
2.根据权利要求1所述的方法,其特征在于,所述获取各个分词所属的
类型,包括:
利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,
得到各个文本描述信息对应的初步切分序列,其中,在初步切分序列中,各条
文本描述信息被切分为一个或多个实体词,并确定出各个实体词所属的类型;
根据各个初步切分序列中包含的实体词,建立异构网络图模型,在所述异
构网络图模型中,将所述实体词作为节点,将实体词在同一文本描述信息中的
共现关系映射为节点之间的边,两个实体之间的条件概率作为边的权重;
将所述通用的CRF模型与所述异构网络图模型集成,得到优化的CRF模型,
利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,得到
各个文本描述信息对应的切分序列。
3.根据权利要求2所述的方法,其特征在于,所述通用的CRF模型中,
提取的特征包括切分序列中的元素在切分序列中的位置信息、上下文信息、词
性信息、语言类型信息和/或特殊词汇信息。
4.根据权利要求2所述的方法,其特征在于,将所述通用的CRF模型与
所述异构网络图模型集成时,根据同一文本描述信息中切分出的实体词,从异
构网络图中提取子图,提取的特征包括切分出的实体词在所述子图中的入度、
实体词在入边上的最大权重值、实体词在入边上的平均权重值和/或在子图中,
与实体词类型相同的节点个数。
5.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下
的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中包含的分词,根据挂载在该SPU下的各个商品对
象分别对应的三元组,计算分词的平均权重,利用该平均权重替换该SPU对应
的三元组中的权重信息。
6.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下
的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中未包含、但挂载在该SPU下的商品对象的三元组
向量中包含的分词,根据挂载在该SPU下的各个商品对象分别对应的三元组,
统计各分词在对应类型下出现的次数,以及平均权重,如果所述次数以及平均
权重符合预置条件,则将该分词、平均权重以及对应的类型组成的三元组...
【专利技术属性】
技术研发人员:陈俊波,陈春明,王力,庞昂博,蔡维佳,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。