基于融合模型的多平台商品分类方法及系统技术方案

技术编号:33395422 阅读:19 留言:0更新日期:2022-05-11 23:14
本发明专利技术公开了一种基于融合模型的多平台商品分类方法及系统,方法包括:爬取多个不同平台的商品样本数据,并分别进行商品类目标签标注以及分词和停词处理,得到各平台的数据集;将多个平台的数据集合并,并划分为训练数据集和测试数据集;采用动态表征模型BERT进行文本向量化表示,分别输入基模型RCNN、CNN和SVM,并采用5折交叉验证方法进行训练和验证,将三个基模型的预测结果合并后输入XGBoost模型,寻至最优参数组合解得到融合模型;将待分类数据输入融合模型,以预测结果作为类目属性,实现商品分类。通过本发明专利技术的技术方案,提高了商品分类的精准度,还能同时处理多个不同平台数据,具有更高的泛化能力和更广泛的数据处理能力。理能力。理能力。

【技术实现步骤摘要】
基于融合模型的多平台商品分类方法及系统


[0001]本专利技术涉及数据管理
,尤其涉及一种基于融合模型的多平台商品分类方法以及一种基于融合模型的多平台商品分类系统。

技术介绍

[0002]商品的增值源于商家对商品的有效分类与组织,商品分类组织的有效性与合理性直接影响用户获取商品的效率与心情,从而影响用户的网上消费和电子商务平台的交易水平。
[0003]从不同群体的利益上看,商品分类是一项可以为顾客、零售商和数据分析人员三方都带来收益的商业流程活动。首先对于顾客而言,商品分类可以使其提高其搜索效率、降低时间成本、愉悦购物体验。对于零售商而言,商品分类可以使其优化运营管理、精确商品定位、提高整体利润。以凡客平台为例,其主营业务为衣物销售,绝大部分的商品分类涉及到衣物的面向人群和属性功能(如男装外套和女装裙子),针对性的商品分类能让顾客快速了解凡客的衣物特点并进行选取。于数据分析人员而言,商品分类可以方便其对各类商品的销售情况进行可视化分析和根据对顾客购买的商品数据进行数据挖掘,从而为数据分析系统提供用户画像和基于商品类别的商品推荐的基础。
[0004]然而不同平台的商品分类标准和数据的形式存在差异,以京东为例,其需要为零售平台上的品牌商提供商品分类指引,具有泛用性与统一性的商品分类框架可以引导商家合理分类商品,让消费者可以简单有效地进行购物。除此之外,商品分类还为各类商业运营活动带来了丰富的想象空间,如从购买商品属性上挖掘用户特征、门店特征,进行购物篮分析等等,从而创造潜在价值。
[0005]可见,现有的不同电商平台具有结构不一、种类繁多、特征稀疏等复杂的商品分类规则,现有的数据分析管理平台缺乏针对多个平台的订单数据的分类模型,电商网站下的分类模型存在精准度低、泛化能力差等问题,无法应对数据“爆炸式增长”的时代发展。

技术实现思路

[0006]针对上述问题,本专利技术提供了一种基于融合模型的多平台商品分类方法及系统,通过利用动态表征模型BERT对词符级的多义进行编码,利用改进的TF

IDF算法来提取商品文本中的关键词信息,利用多头自注意力机制保留文本的上下文语境,并分别利用CNN和RCNN来提取文本的局部特征,最终通过XGBoost分类器实现三模型融合的方法来提高针基模型的精准度,然后将融合模型部署和应用到个人数据管理系统中。融合模型不仅可以提高商品分类的分类精准度,而且还能够同时处理多个来自不同网站的订单数据,大大提高了数据分析网站对数据操作能力,具有更高的泛化能力和更广泛的数据处理能力,从而能够有效地提高数据分析网站对订单数据进一步分析和挖掘的效率,精准度高的模型预测结果为分析系统做数据可视化分析展示、用户画像构建和个性化商品推荐提供了科学、正确、坚实的理论基础。
[0007]为实现上述目的,本专利技术提供了一种基于融合模型的多平台商品分类方法,包括:
[0008]通过爬虫技术爬取多个不同平台的商品样本数据,并通过人工标注方式分别对所述商品样本数据进行商品类目标签标注;
[0009]根据预设词库对所述商品样本数据进行分词和停词处理,得到各平台的数据集;
[0010]将该多个平台的数据集合并,并按照预设比例将合并的数据集划分为训练数据集和测试数据集;
[0011]采用动态表征模型BERT对所述训练数据集和所述测试数据集进行文本向量化表示,并分别输入基模型RCNN、基模型CNN和基模型SVM;
[0012]采用5折交叉验证方法分别对基模型RCNN、基模型CNN和基模型SVM进行训练和验证,并将三个基模型的预测结果进行合并;
[0013]将合并的预测结果输入XGBoost模型,通过网格搜索寻至最优参数组合解,得到融合模型;
[0014]将待分类的商品订单数据预处理后输入所述融合模型,以预测结果作为类目属性,实现商品分类。
[0015]在上述技术方案中,优选地,基于融合模型的多平台商品分类方法还包括:
[0016]若所述融合模型对输入的商品订单数据抛出异常行为,则判定所述商品订单数据中出现新商品词汇,将所述新商品词汇更新至商品语料库,并定期通过所述动态表征模型BERT进行迭代训练融合模型;
[0017]若所述融合模型对输入的商品订单数据无异常行为,则输出预测结果。
[0018]在上述技术方案中,优选地,针对输入基模型RCNN的词向量,利用Bi

LSTM获取所述词向量的文本上下文信息,将获得的隐层输出和所述词向量拼接,并将拼接后的向量非线性映射至低维,取时序上的最大值作为最终特征向量,再对所述最终特征向量采用softmax分类,通过5折交叉验证方法进行训练。
[0019]在上述技术方案中,优选地,针对输入基模型CNN的词向量,通过多头注意力机制获取文本上下文依赖关系,通过残差链接得到句子向量,通过卷积层提取文本的局部特征,再对所述局部特征采用softmax分类,通过5折交叉验证方法进行训练。
[0020]在上述技术方案中,优选地,在将词向量输入基模型SVM前,通过TF

IDF算法对所述词向量进行关键词特征提取及句向量表示,将得到的句向量作为所述基模型SVM的输入,通过5折交叉验证方法进行训练。
[0021]在上述技术方案中,优选地,针对待分类的商品订单数据,通过所述商品订单数据的数据源属性确定数据来源平台,根据所述商品订单数据所属数据来源平台,按照对应的预设预处理方式进行预处理,将所述商品订单数据进行分词和停词处理,再输入所述融合模型进行商品类目预测。
[0022]本专利技术还提出一种基于融合模型的多平台商品分类系统,应用如上述技术方案中任一项公开的基于融合模型的多平台商品分类方法,包括:
[0023]数据获取标注模块,用于通过爬虫技术爬取多个不同平台的商品样本数据,并通过人工标注方式分别对所述商品样本数据进行商品类目标签标注;
[0024]数据集预处理模块,用于根据预设词库对所述商品样本数据进行分词和停词处理,得到各平台的数据集;
[0025]数据合并划分模块,用于将该多个平台的数据集合并,并按照预设比例将合并的数据集划分为训练数据集和测试数据集;
[0026]数据向量嵌入模块,用于采用动态表征模型BERT对所述训练数据集和所述测试数据集进行文本向量化表示,并分别输入基模型RCNN、基模型CNN和基模型SVM;
[0027]模型训练合并模块,用于采用5折交叉验证方法分别对基模型RCNN、基模型CNN和基模型SVM进行训练和验证,并将三个基模型的预测结果进行合并;
[0028]最优模型融合模块,用于将合并的预测结果输入XGBoost模型,通过网格搜索寻至最优参数组合解,得到融合模型;
[0029]模型分类预测模块,用于将待分类的商品订单数据预处理后输入所述融合模型,以预测结果作为类目属性,实现商品分类。
[0030]在上述技术方案中,优选地,基于融合模型的多平台商品分类系统还包括迭本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合模型的多平台商品分类方法,其特征在于,包括:通过爬虫技术爬取多个不同平台的商品样本数据,并通过人工标注方式分别对所述商品样本数据进行商品类目标签标注;根据预设词库对所述商品样本数据进行分词和停词处理,得到各平台的数据集;将该多个平台的数据集合并,并按照预设比例将合并的数据集划分为训练数据集和测试数据集;采用动态表征模型BERT对所述训练数据集和所述测试数据集进行文本向量化表示,并分别输入基模型RCNN、基模型CNN和基模型SVM;采用5折交叉验证方法分别对基模型RCNN、基模型CNN和基模型SVM进行训练和验证,并将三个基模型的预测结果进行合并;将合并的预测结果输入XGBoost模型,通过网格搜索寻至最优参数组合解,得到融合模型;将待分类的商品订单数据预处理后输入所述融合模型,以预测结果作为类目属性,实现商品分类。2.根据权利要求1所述的基于融合模型的多平台商品分类方法,其特征在于,还包括:若所述融合模型对输入的商品订单数据抛出异常行为,则判定所述商品订单数据中出现新商品词汇,将所述新商品词汇更新至商品语料库,并定期通过所述动态表征模型BERT进行迭代训练融合模型;若所述融合模型对输入的商品订单数据无异常行为,则输出预测结果。3.根据权利要求1或2所述的基于融合模型的多平台商品分类方法,其特征在于,针对输入基模型RCNN的词向量,利用Bi

LSTM获取所述词向量的文本上下文信息,将获得的隐层输出和所述词向量拼接,并将拼接后的向量非线性映射至低维,取时序上的最大值作为最终特征向量,再对所述最终特征向量采用softmax分类,通过5折交叉验证方法进行训练。4.根据权利要求1或2所述的基于融合模型的多平台商品分类方法,其特征在于,针对输入基模型CNN的词向量,通过多头注意力机制获取文本上下文依赖关系,通过残差链接得到句子向量,通过卷积层提取文本的局部特征,再对所述局部特征采用softmax分类,通过5折交叉验证方法进行训练。5.根据权利要求1或2所述的基于融合模型的多平台商品分类方法,其特征在于,在将词向量输入基模型SVM前,通过TF

IDF算法对所述词向量进行关键词特征提取及句向量表示,将得到的句向量作为所述基模型SVM的输入,通过5折交叉验证方法进行训练。6.根据权利要求1所述的基于融合模型的多平台商品分类方法,其特征在于,针对待分类的商品订单数据,通过所述商品订单数据的数据源属性确定数据来源平台,根据所述商品订单数据所属数据来源平台,按照对应的预设预处理方式进行预处理,将所述商品订单数据进行分词和停词处理,再输入所述融合模型进行商品类目预测。7.一种基于融合模型的多平台商品分类系统,其特征...

【专利技术属性】
技术研发人员:何泾沙魏巍朱娜斐陈燕博洪睿
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1