The invention relates to a commodity matching method based on depth matching model, which includes the following steps: defining the similarity of titles and attributes of two commodities X and Y; calculating the similarity of titles and attributes of two commodities X and Y; merging the similarity SIMt of two commodities X and Y with the similarity SIMa of commodity attributes, and then judging two commodities. Whether a commodity matches or belongs to the same commodity. The invention can calculate the similarity degree of two commodities on different platforms, thereby judging whether the two commodity descriptions refer to the same commodity.
【技术实现步骤摘要】
一种基于深度匹配模型的跨平台商品匹配方法
本专利技术涉及一种商品匹配方法,特别是关于一种基于深度匹配模型的跨平台的商品匹配方法。
技术介绍
目前商品匹配的挖掘方法有很多,不同形式的商品描述信息通常需要采用不同的匹配方法。商品描述可以有多种形式,即商品可以以结构化的数据保存在数据库中,也可以以非结构化的数据存在于电商平台中。对于存储在数据库中的商品,匹配问题主要是对数据库中商品个体间匹配技术的解决;然而由于不同的数据库采取的设计模式是不同的,数据库商品个体匹配问题是有一定的挑战性。为了解决这个问题,针对记录联动、冗余检测和实体分解方面提出了一些方法。事实上,在真实的电商平台上,商品描述包括商品标题和商品详细信息列表(属性)。将电商平台上的商品描述和数据库中有结构化的商品进行匹配是一种真实场景。有研究者将商品标题转换为有结构的描述,然后将其与数据库中有结构化的商品进行匹配。同样,也有许多研究者直接关注电商平台上商品描述的匹配。在之前的部分研究工作中,商品的描述会首先被转换成有结构的数据并保存在数据库中,然后这个问题便转换为匹配数据库中的商品这一问题。然而,这一想法会有 ...
【技术保护点】
1.一种基于深度匹配模型的商品匹配方法,其特征在于包括以下步骤:1)定义两个商品X、Y的标题相似度和属性相似度;2)计算得到两个商品X、Y的商品标题相似度和商品属性相似度;3)将两个商品X、Y的商品标题相似度SIMt和商品属性相似度SIMa进行融合,进而判断出两个商品是否匹配,属于同一种商品。
【技术特征摘要】
1.一种基于深度匹配模型的商品匹配方法,其特征在于包括以下步骤:1)定义两个商品X、Y的标题相似度和属性相似度;2)计算得到两个商品X、Y的商品标题相似度和商品属性相似度;3)将两个商品X、Y的商品标题相似度SIMt和商品属性相似度SIMa进行融合,进而判断出两个商品是否匹配,属于同一种商品。2.如权利要求1所述商品匹配方法,其特征在于:所述步骤2)中,两个商品的相似度是通过商品标题和商品属性分别度量的,通过TMM和AMM分别得到商品标题匹配的相似度特征和商品属性匹配的相似度特征,将两种相似度特征组合后得到两个商品X、Y最后的匹配得分。3.如权利要求2所述商品匹配方法,其特征在于:所述TMM利用Bi-LSTM和CNN来计算标题相似度,计算方法如下:(1)分别对两个商品标题进行位置句子表示;(2)将两个商品标题位置句子表示进行交互得到交互矩阵,通过该交互矩阵表示两个标题的匹配情况;(3)卷积和池化操作:获得交互矩阵后,采用经典的卷积神经网络来抽取匹配模式;(4)获取两标题相似度。4.如权利要求3所述商品匹配方法,其特征在于:所述步骤(1)中,位置句子表示方法包括以下步骤:(1.1)给定输入的商品标题(x1,x2,...,xt,...,xm),词xt的位置句子表示ht是由前向的LSTM的隐含层向量和反向的LSTM的隐含层向量拼接的:(1.2)对于LSTM的每一个隐含层的输出,都是通过遗忘门、输入门和输出门三个门进行控制,前向的LSTM的隐含层向量为:其中:其中,tanh(.)和σ(.)是激活函数,其中tanh(.)用在状态和输出上,是对数据的处理,σ(.)用在各种gate上,用于产生0到1之间的值;为忘记门,用于决定需要从细胞状态中丢弃多少信息;为输入门,用于确定什么样的新信息被存放在细胞状态中;是更新得到的细胞新状态,它是通过将旧状态与相乘,再加上当前细胞状态中的新信息得到的;是得到的输出值,这个输出是基于细胞状态得到的,其中的是输出层的一部分,用于确定细胞状态的哪些信息作为输出信息;(1.3)反向的LSTM定义与步骤(1.2)相同;(1.4)根据步骤(1.2)和步骤(1.3)的计算结果,得到标题(x1,x2,...,xt,...,xm)的位置表示为隐含层状态(h1,h2,...,ht,...,hm)。5.如权利要求3所述商品匹配方法,其特征在于:所述步骤(3)中,获得交互矩阵后,采用经典的卷积神经网络来抽取匹配模式:(3.1)假设一个卷积核zt属于Rr×s,它表示第t个卷积核;对于每一个卷积核,都从左到右、从上到下滑动,之后一个卷积核对应输出一个特征映射Ft:其中,是第t个卷积核第x行第y列的元素,Mrow+x,col+y是交互矩阵中第row+x行第col+y列的元素,是第t个特征映射Ft的第row行第col列的元素;(3.2)采用最大池化操作来获得每一个特征映射的最重要的信息其中,dk是对应池化核的宽度,d′k是对应池化核的长度;表示第t个池化层的第e行第f列的元素;表示第t个卷积核对应得到的特征映射中第e·dk+a行第f·d'k+b列的元素。6.如权利要求3所述商品匹配方法,其特征在于:所述步骤(4)中,获取两标题相似度方法为:将池化层的输出压平然后拼接在一起做为G,G表示通过以上三个步骤获得的用于表示商品标题匹配的特征,然后使用多层感知机得到标题匹配的相似度SIMt:...
【专利技术属性】
技术研发人员:窦志成,李娟,文继荣,
申请(专利权)人:中国人民大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。