一种基于自然语言处理的跨平台商品匹配方法及系统技术方案

技术编号:28717765 阅读:14 留言:0更新日期:2021-06-06 02:38
本发明专利技术提供一种基于自然语言处理的跨平台商品匹配方法,涉及跨平台商品匹配技术领域,包括:获取待匹配的各平台商品数据,并进行数据预处理;根据预处理后的数据获取各商品的标题特征向量和属性特征向量;将各商品的标题特征向量和属性特征向量进行整合,得到各商品的全量特征向量;对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集,得到各平台下多个商品全量特征向量子集;计算不同平台下相对应的商品全量特征向量子集中各商品的相似度,根据计算结果获取到不同平台中相匹配的商品。本发明专利技术基于自然语言处理的跨平台商品匹配的方法,使大规模的多渠道商品,能够实现低成本、高精度的匹配。高精度的匹配。高精度的匹配。

【技术实现步骤摘要】
一种基于自然语言处理的跨平台商品匹配方法及系统


[0001]本专利技术涉及跨平台商品匹配
,尤其是涉及一种基于自然语言处理的跨平台商品匹配方法及系统。

技术介绍

[0002]目前商品匹配的方法有很多,不同形式的商品描述信息通常需要采用不同的匹配方法。商品的描述包括商品标题和商品详细信息列表(属性),商品的描述也有多种存储形式,既可以以结构化的数据保存在平台的数据库中,也可以以非结构化的数据(如文本、网页)存在于平台中;对于存储在数据库中的商品,匹配问题主要是对数据库中商品个体间匹配技术的解决,但由于不同的数据库采取的设计模式不同,使数据库中商品个体匹配问题具有了一定挑战性。
[0003]为了解决不同平台之间商品个体匹配问题,有研究者将平台中非结构化的商品标题转换为有结构的描述,将非结构化数据匹配转化为数据库中的结构化数据匹配,然后将其与其他平台数据库中结构化的商品进行比较;也有研究者只关注平台上非结构化商品描述的匹配。
[0004]第一种方法存在的缺点是:商品的标题是一个短文本,将文本转换为有结构的数据将会丢失一些语义和句法信息,同时由于转换方法的效果相对差也会引入一些误差;第二种方法,直接对平台上商品标题进行匹配,或同时考虑商品标题和商品属性进行匹配,但是它们大多是使用不同的相似度计算的方法得到最后的结果,没有考虑语义信息进行匹配;因此,使用现有的方法匹配得到的商品在精确度、数据完整性上均存在较大误差。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种基于自然语言处理的跨平台商品匹配方法及系统,能够在上亿级别的大数据中,计算出不同平台的多个商品的相似度,从而精确判断出这两个商品描述是否为一个商品。
[0006]为实现上述目的,本专利技术提供了一种基于自然语言处理的跨平台商品匹配方法,包括:
[0007]获取待匹配的各平台商品数据,并进行数据预处理;
[0008]根据预处理后的数据获取各商品的标题特征向量和属性特征向量;
[0009]将各商品的所述标题特征向量和所述属性特征向量进行整合,得到各商品的所述全量特征向量;
[0010]对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集,得到各平台下多个商品全量特征向量子集;
[0011]计算不同平台下相对应的所述商品全量特征向量子集中各商品的相似度,根据计算结果获取到不同平台中相匹配的商品。
[0012]作为本专利技术的进一步改进,所述根据预处理后的数据获取各商品的标题特征向量
和属性特征向量;包括:
[0013]在预处理后的数据中对商品标题信息进行命名实体识别,针对各所述商品标题中识别到的各商品词分别计算TF

IDF特征,并将各所述商品标题映射到向量空间中得到标题特征向量;
[0014]在预处理后的数据中对商品属性信息进行ETL和特征工程处理得到各商品的属性特征向量。
[0015]作为本专利技术的进一步改进,所述在预处理后的数据中对商品标题信息进行命名实体识别,针对各所述商品标题中识别到的各商品词分别计算TF

IDF特征;包括:
[0016]在预处理后的数据中对商品标题信息进行命名实体识别,得到所有商品关键词;
[0017]构建商品词字典和停用词字典;
[0018]根据所述关键词对匹配的正向和负向影响分别添加至商品词字典和停用词字典;
[0019]对各商品标题中包含在商品词字典中的商品词计算TF

IDF特征。
[0020]作为本专利技术的进一步改进,所述数据预处理包括:
[0021]将以非结构化形式存储在平台的数据转化为结构化数据,得到所述商品标题信息和所述商品属性信息;
[0022]对同平台下的重复商品数据进行去重,缺失数据进行填充,杂质数据进行丢弃。
[0023]作为本专利技术的进一步改进,所述对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集后,各平台得到的商品全量特征向量子集个数相同,且一一对应。
[0024]作为本专利技术的进一步改进,所述计算不同平台下相对应的所述商品全量特征向量子集中各商品的相似度,根据计算结果获取到不同平台中相匹配的商品;包括:
[0025]选择一个平台作为基准平台;
[0026]选择一个待匹配平台中的一个商品全量特征向量子集与基准平台中对应商品全量特征向量子集进行商品相似度匹配;
[0027]预设相似度阈值,获取到符合所述相似度阈值的多组匹配商品;
[0028]依次完成各待匹配平台中对应基准平台中该商品全量特征向量子集的商品相似度匹配;
[0029]依次完成各待匹配平台中各商品全量特征向量子集与基准平台中对应商品全量特征向量子集的商品相似度匹配,获得所有匹配商品。
[0030]作为本专利技术的进一步改进,所述得到符合预设相似度阈值的多组匹配商品;包括:
[0031]预设最大循环次数;
[0032]依次计算待匹配平台中该商品全量特征向量子集中各商品和基准平台中对应商品全量特征向量子集中各商品的相似度;
[0033]循环取出相似度最高的一组商品,与预设的所述相似度阈值进行比较,若大于或等于所述相似度阈值,则将该组商品记为一组匹配结果,直至达到所述最大循环次数;
[0034]若小于所述相似度阈值,则进入下一待匹配平台。
[0035]作为本专利技术的进一步改进,预设匹配结果组数,所述匹配结果组数不超过本次匹配的基准平台商品全量特征向量子集和待匹配平台中商品全量特征向量子集中商品个数较多的一个;
[0036]当匹配结果组数不满足条件时,进入下一待匹配平台。
[0037]作为本专利技术的进一步改进,所述统一分配规则包括商品类目及品牌。
[0038]本专利技术还提供了一种基于如上所述的基于自然语言处理的跨平台商品匹配方法的系统,包括:预处理模块、特征提取模块、商品全量特征整合及分类模块和商品匹配模块;
[0039]所述预处理模块,用于:
[0040]获取待匹配的各平台商品数据,并进行数据预处理;
[0041]所述特征提取模块,用于:
[0042]根据预处理后的数据获取各商品的标题特征向量和属性特征向量;
[0043]所述商品全量特征整合及分类模块,用于:
[0044]将各商品的所述标题特征向量和所述属性特征向量进行整合,得到各商品的所述全量特征向量;
[0045]对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集,得到各平台下多个商品全量特征向量子集;
[0046]所述商品匹配模块,用于:
[0047]计算不同平台下相对应的所述商品全量特征向量子集中各商品的相似度,根据计算结果获取到不同平台中相匹配的商品。
[0048]与现有技术相比,本专利技术的有益效果为:
[0049]结合了电商平台中商品既具有商本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的跨平台商品匹配方法,其特征在于,包括:获取待匹配的各平台商品数据,并进行数据预处理;根据预处理后的数据获取各商品的标题特征向量和属性特征向量;将各商品的所述标题特征向量和所述属性特征向量进行整合,得到各商品的所述全量特征向量;对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集,得到各平台下多个商品全量特征向量子集;计算不同平台下相对应的所述商品全量特征向量子集中各商品的相似度,根据计算结果获取到不同平台中相匹配的商品。2.根据权利要求1所述的方法,其特征在于:所述根据预处理后的数据获取各商品的标题特征向量和属性特征向量;包括:在预处理后的数据中对商品标题信息进行命名实体识别,针对各所述商品标题中识别到的各商品词分别计算TF

IDF特征,并将各所述商品标题映射到向量空间中得到标题特征向量;在预处理后的数据中对商品属性信息进行ETL和特征工程处理得到各商品的属性特征向量。3.根据权利要求2所述的方法,其特征在于:所述在预处理后的数据中对商品标题信息进行命名实体识别,针对各所述商品标题中识别到的各商品词分别计算TF

IDF特征;包括:在预处理后的数据中对商品标题信息进行命名实体识别,得到所有商品关键词;构建商品词字典和停用词字典;根据所述关键词对匹配的正向和负向影响分别添加至商品词字典和停用词字典;对各商品标题中包含在商品词字典中的商品词计算TF

IDF特征。4.根据权利要求1所述的方法,其特征在于,所述数据预处理包括:将以非结构化形式存储在平台的数据转化为结构化数据,得到所述商品标题信息和所述商品属性信息;对同平台下的重复商品数据进行去重,缺失数据进行填充,杂质数据进行丢弃。5.根据权利要求1所述的方法,其特征在于:所述对所有商品按照平台进行分类,再按照统一分类规则,将各平台商品划分为多个子集后,各平台得到的商品全量特征向量子集个数相同,且一一对应。6.根据权利要求1所述的方法,其特征在于,所述计算不同平台下相对应的所述商品全量特征向量子集中各商品的相似度,根据计算结果...

【专利技术属性】
技术研发人员:蒋哲宇考文鹏
申请(专利权)人:翻车信息科技杭州有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1