一种基于大数据的商品匹配方法组成比例

技术编号:31501233 阅读:44 留言:0更新日期:2021-12-22 23:18
本发明专利技术公开了一种基于大数据的商品匹配方法,本发明专利技术通过将商品数据的文本和视频对应的数据分别合并成多个文本数据,通过建立TF特征矩阵再提取TF特征向量,减少一个视频中存在多个产品的数据从而造成的相同关键词所带来的相互干扰,并且本发明专利技术方法不需要预先构建或训练其他词库或词向量词典,并且有效从视频中提取有用信息,本发明专利技术方法可大幅提升智能商品匹配的准确性。本发明专利技术作为一种基于大数据的商品匹配方法可广泛应用于数据处理领域。品匹配方法可广泛应用于数据处理领域。品匹配方法可广泛应用于数据处理领域。

【技术实现步骤摘要】
一种基于大数据的商品匹配方法


[0001]本专利技术涉及数据处理领域,尤其是一种基于大数据的商品匹配方法。

技术介绍

[0002]电子商务的持续发展给人们带来了庞大的数据总量以及复杂的数据形式,数据的关联形态正在发生变化,这些都给数据处理带来了极大的挑战。以互联网环境下丰富的网络商品为例,随着商品多样性的提升,同一网络商品在不同网络平台往往以各种形式存在着,相似商品信息散落在各个网络平台,网络商品的搜索空间不断增加,使得消费者在感兴趣的商品信息的搜索与整合上耗费了大量精力。如将散落在各个网络平台的商品信息关联起来,势必有利于商品信息的搜索与整合,从而免去消费者繁重的搜索工作。而为了将来自不同网络平台的商品信息进行关联,首要任务是完成商品的匹配,即从不同网络平台中找出同一网络商品的不同表述。
[0003]目前常用的面向网络商品匹配的算法主要有WHIRL(word

based heterogeneous information retrieval logic)算法、TMWM(title model words metho本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的商品匹配方法,其特征在于,包括有以下步骤:获取商品数据,所述商品数据中包括第一文本数据和视频数据;获取视频数据中的音频数据对应的第二文本数据,根据第一文本数据和第二文本数据构建分类数据集;采用分类数据集中的部分数据作为SVM分类器的训练数据进行分类标注以及中文分词,将训练数据中每一类的数据分为训练集和测试集;针对训练集中的每一类的数据,将所有第一文本数据和所有第二文本数据合并为第三文本数据,并计算第三文本数据的关键词及其对应的TF

IDF值,并根据TF

IDF值降序排列从而得到相应的词列表及其对应的IDF特征向量;针对训练集中的每一类的数据,将所有第一文本数据分别与第二文本数据中的至少一个组合作为多个第四文本数据,并计算所述多个第四文本数据的TF特征矩阵,根据预设方式从TF特征矩阵中提取TF特征向量;根据训练集中的每一类的数据的IDF特征向量和TF特征向量得到词列表对应的TF

IDF特征向量;根据训练集中的每一类的数据的词列表及其对应的TF

IDF特征向量建立关键词列表和特征词典;将训练集中第一文本数据和第二文本数据映射到关键词列表中,得到文本特征向量;将训练集和测试集对应的数据生成的文本特征向量,进行SVM分类器的训练,并根据最后得到的SVM分类器对分类数据集分类从而得到商品匹配结果。2.根据权利要求1所述的一种基于大数据的商品匹配方法,其特征在于:所述采用分类数据集中的部分数据作为SVM分类器的训练数据进行分类标注以及中文分词这一步骤中,包括根据视频数据类型对对应的第二文本数据进行标注,其中:第一视频数据类型对应的第二文本数据标注为第五文本数据,所述第一视频数据对应单一产品的视频;第二视频数据类型对应的第二文本数据标注为第六文本数据,所述第二视频数据对应单一产品品类或单一产品品牌的视频;第三视频数据类型对应的第二文本数据标注为第七文本数据,所述第三视频数据对应多个产品品类和多个产品品牌的视频。3.根据权利要求2所述的一种基于大数据的商品匹配方法,其特征在于:所述针对训练集中的每一类的数据,将所有第一文本数据分别与第二文本数据中的至少一个组合作为多个第四文本数据,具体包括针对训练集中的每一类的数据,将所有第一文本数据分别与每一个第六文本数据组合作为多个第四文本数据,并且将所有第一文本数据分别与每一个第七文本数据组合为作为多个第四文本数据。...

【专利技术属性】
技术研发人员:甘洪霖梁天爵王睿
申请(专利权)人:广东省信息网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1