The invention discloses a method and system for identifying the words of the core product, which relates to the field of computer technology. One embodiment of the method includes: obtaining image display of goods, including the determination of the title of the goods in multiple product candidate words, and determining a set of multiple product images, multiple product images in the collection of each product image set corresponding with each product candidate word multiple product candidate words; for each set of product image of the plurality of product images in the collection, according to the display of the image and the product image of each image in the collection, the display image to determine the similarity of goods and the product image set of candidate words corresponding to the product, so as to obtain multiple product candidate word similarity; the more than a preset threshold value of the similarity in similarity of corresponding products identified as the core word. In this way, the image information is added to the recognition of the core product words, making it more intuitive and accurate to determine the core product words of the commodity title.
【技术实现步骤摘要】
一种识别核心产品词的方法和系统
本专利技术涉及计算机
,尤其涉及一种识别核心产品词的方法和系统。
技术介绍
在电商领域中,准确的分析商品标题的成分,是用户意图识别、产品召回、个性化推荐等的基础。区别于一般自然语言分析,在电商场景中,需要区分商品标题中的品牌词、修饰词、产品词等成分。而且,在电商领域中,很多商品卖家为提高商品的点击量,会在商品标题中堆砌罗列产品词,甚至其中很多产品词并非是对应本商品。在卖家将商品上架之后,为了能将商品精准的提供给买家,需识别出商品标题中的核心产品词。其中,商品标题的核心产品词就是指标题描述的商品具体是什么产品。如:“韩版NY洋基队男女款鸭舌帽”的核心产品词是“鸭舌帽”。由于商品标题具有语义不清晰、产品词堆砌等特点,所以,如何识别出商品标题中的核心产品词一直是一个难题。现有技术中,识别商品标题中的核心产品词的方法主要包括:基于词表的规则方法、基于条件随机场的序列标注方法和基于LSTM的深度学习方法。基于词表的规则方法是指维护一个映射的词表。例如:空调滤芯-空调,当标题中同时出现“空调”和“滤芯”时,则认为“滤芯”是核心产品词。基于 ...
【技术保护点】
一种识别核心产品词的方法,其特征在于,包括:获取商品的展示图像,确定所述商品的标题中包含的多个候选产品词,以及确定多个产品图像集合,所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应;对于所述多个产品图像集合中的每个产品图像集合,根据所述展示图像和该产品图像集合中的各个图像,确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度,从而得到多个相似度;将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。
【技术特征摘要】
1.一种识别核心产品词的方法,其特征在于,包括:获取商品的展示图像,确定所述商品的标题中包含的多个候选产品词,以及确定多个产品图像集合,所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应;对于所述多个产品图像集合中的每个产品图像集合,根据所述展示图像和该产品图像集合中的各个图像,确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度,从而得到多个相似度;将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。2.根据权利要求1所述的方法,其特征在于,所述确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度的步骤包括:基于训练数据训练Siamese网络,以得到训练后的Siamese网络;对于所述多个产品图像集合中的每个产品图像集合,通过训练后的Siamese网络根据所述展示图像和该产品图像集合中的各个图像,确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度,从而得到多个相似度。3.根据权利要求2所述的方法,其特征在于,在基于训练数据训练Siamese网络,以得到训练后的Siamese网络之前,还包括:选取预定数量的训练产品词;对于每个训练产品词,根据商品搜索日志选取两个以上包含该训练产品词的搜索词;对于每个搜索词,根据该搜索词下商品的点击量以及点击率,选取相同数量的商品以及该商品的展示图像;对于每个训练产品词,将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对,将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。4.根据权利要求2所述的方法,其特征在于,所述基于训练数据训练Siamese网络的步骤包括:对于训练数据中每个训练产品词的展示图像,通过聚类算法对训练产品词的展示图像进行聚类处理,以获得一个以上的类别中心;将所述一个以上的类别中心作为该训练产品词的产品图像集合;并且,将每个训练产品词的产品图像集合保存至图像特征库;所述确定多个产品图像集合的步骤包括:根据所述图像特征库确定多个产品图像集合,所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应。5.根据权利要求1所述的方法,其特征在于,利用条件随机场确定所述商品的标题中包含的多个候选产品词。6.一种识别核心产品词的系统,其特征在于,包括:获取模块,用于获取商品的展示图像,确定所述商...
【专利技术属性】
技术研发人员:马超义,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。