多个分类器协同的商品智能分类方法、系统、设备及介质技术方案

技术编号:37330062 阅读:27 留言:0更新日期:2023-04-21 23:07
本发明专利技术提供一种多个分类器协同的商品智能分类方法、系统、设备及介质,包括:步骤S1:获取数据量分布均匀的训练集;步骤S2:对训练集中每个商品的描述信息做切词、去停用词,得到分词结果;步骤S3:对每个分词进行特征编码,并计算分词的TF

【技术实现步骤摘要】
多个分类器协同的商品智能分类方法、系统、设备及介质


[0001]本专利技术涉及商品分类
,具体地,涉及一种多个分类器协同的商品智能分类方法、系统、设备及介质。

技术介绍

[0002]企业电子商务平台是建立在Internet网上进行商务活动的虚拟网络空间和保障商务顺利运营的管理环境;是协调、整合信息流、货物流、资金流有序、关联、高效流动的重要场所。企业、商家可充分利用电子商务平台提供的网络基础设施、支付平台、安全平台、管理平台等共享资源有效地、低成本地开展自己的商业活动。
[0003]现有技术中存在以下缺点:电商平台上的商品存在覆盖范围广泛,分类体系较复杂,易出现卖家对商品类别的填写不规范或漏填等情况;不同卖家上传的商品信息存在差异化,信息不完整的情况,一般分类方法表现较差。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术提供一种多个分类器协同的商品智能分类方法、系统、设备及介质。
[0005]根据本专利技术提供的一种多个分类器协同的商品智能分类方法、系统、设备及介质,所述方案如下:
[0006]第一方面,提供了一种多个分类器协同的商品智能分类方法,所述方法包括:
[0007]步骤S1:获取数据量分布均匀的训练集;
[0008]步骤S2:对所述训练集中每个商品的描述信息做切词、去停用词,得到分词结果;
[0009]步骤S3:分词后,对每个分词进行特征编码,并计算分词的TF

IDF值,将各分词TF

IDF值作为该词汇的编码权重值;
[0010]步骤S4:每个分词的特征编码与权重值相乘的积作为该分词所属在所属品类下的加权特征,商品中的所有分词加权特的和作为商品的特征编码;
[0011]步骤S5:将全部数据划分为用于训练分类器的训练集和测试集,分别训练多个分类器;
[0012]步骤S6:计算各分类器的权重值,将各分类器结果加权求和;
[0013]步骤S7:将得分最高的类别作为分类结果。
[0014]优选地,所述步骤S3中TF

IDF的计算包括:TF和IDF;
[0015]其中,TF表示某个词汇在某篇文档出现的频率;IDF表示一个词汇普遍重要性的度量,即若包含某个词汇的文档越少,IDF越大,则说明该词汇具有很好的类别区分能力;若某个词汇在一篇文档中出现的频率TF高,且在其他文档中很少出现,则认为此词汇具有很好的类别区分能力,适合用来分类。
[0016]优选地,第i个词汇t
i
关于第j个文档d
j
的TF

IDF计算如下:
[0017][0018]其中,n
ij
表示第i个词汇t
i
出现在第j个文档d
j
的次数;S为文档总数;k表示第j个文档中的词汇数量;I表示包含t
i
的多有文档的集合。
[0019]优选地,所述步骤S6采用AIC信息准则:
[0020]AIC
K


2logl
k
+2λ
k
[0021]其中,l
k
和λ
k
分别是第k个分类器的极大似然函数和分类器参数量;
[0022]每个分类器的权重为:
[0023][0024]设上述k种算法得到的每个样本i分类到类别j的概率分别为
[0025]由此可得,分类器加权后,第i个样本分到类别J的概为:
[0026][0027]第i个样本选择作为分类结果。
[0028]第二方面,提供了一种多个分类器协同的商品智能分类系统,所述系统包括:
[0029]模块M1:获取数据量分布均匀的训练集;
[0030]模块M2:对所述训练集中每个商品的描述信息做切词、去停用词,得到分词结果;
[0031]模块M3:分词后,对每个分词进行特征编码,并计算分词的TF

IDF值,将各分词TF

IDF值作为该词汇的编码权重值;
[0032]模块M4:每个分词的特征编码与权重值相乘的积作为该分词所属在所属品类下的加权特征,商品中的所有分词加权特的和作为商品的特征编码;
[0033]模块M5:将全部数据划分为用于训练分类器的训练集和测试集,分别训练多个分类器;
[0034]模块M6:计算各分类器的权重值,将各分类器结果加权求和;
[0035]模块M7:将得分最高的类别作为分类结果。
[0036]优选地,所述模块M3中TF

IDF的计算包括:TF和IDF;
[0037]其中,TF表示某个词汇在某篇文档出现的频率;IDF表示一个词汇普遍重要性的度量,即若包含某个词汇的文档越少,IDF越大,则说明该词汇具有很好的类别区分能力;若某个词汇在一篇文档中出现的频率TF高,且在其他文档中很少出现,则认为此词汇具有很好的类别区分能力,适合用来分类。
[0038]优选地,第i个词汇t
i
关于第j个文档d
j
的TF

IDF计算如下:
[0039][0040]其中,n
ij
表示第i个词汇t
i
出现在第j个文档d
j
的次数;S为文档总数;k表示第j个文档中的词汇数量;I表示包含t
i
的多有文档的集合。
[0041]优选地,所述模块M6采用AIC信息准则:
[0042]AIC
K


2logl
k
+2λ
k
[0043]其中,l
k
和λ
k
分别是第k个分类器的极大似然函数和分类器参数量;
[0044]每个分类器的权重为:
[0045][0046]设上述k种算法得到的每个样本i分类到类别j的概率分别为
[0047]由此可得,分类器加权后,第i个样本分到类别J的概为:
[0048][0049]第i个样本选择作为分类结果。
[0050]第三方面,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述多个分类器协同的商品智能分类方法中的步骤。
[0051]第四方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述多个分类器协同的商品智能分类方法中的步骤。
[0052]与现有技术相比,本专利技术具有如下的有益效果:
[0053]1、本专利技术通过商品描述信息,自动进行统一规范地分类,降低人工成本;
[0054]2、本专利技术仅依靠商品名称和型号规格两部分对其进行分类,并通过多个模型加权组合的方式,提升方法的分类效果。
[0055]本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多个分类器协同的商品智能分类方法,其特征在于,包括:步骤S1:获取数据量分布均匀的训练集;步骤S2:对所述训练集中每个商品的描述信息做切词、去停用词,得到分词结果;步骤S3:分词后,对每个分词进行特征编码,并计算分词的TF

IDF值,将各分词TF

IDF值作为该词汇的编码权重值;步骤S4:每个分词的特征编码与权重值相乘的积作为该分词所属在所属品类下的加权特征,商品中的所有分词加权特的和作为商品的特征编码;步骤S5:将所有商品的特征编码划分为用于训练分类器的训练集和测试集,分别训练多个分类器;步骤S6:计算各分类器的权重值,将各分类器结果加权求和;步骤S7:将得分最高的类别作为分类结果。2.根据权利要求1所述的多个分类器协同的商品智能分类方法,其特征在于,所述步骤S3中TF

IDF的计算包括:TF和IDF;其中,TF表示某个词汇在某篇文档出现的频率;IDF表示一个词汇普遍重要性的度量,即若包含某个词汇的文档越少,IDF越大,则说明该词汇具有很好的类别区分能力;若某个词汇在一篇文档中出现的频率TF高,且在其他文档中很少出现,则认为此词汇具有很好的类别区分能力,适合用来分类。3.根据权利要求2所述的多个分类器协同的商品智能分类方法,其特征在于,第i个词汇t
i
关于第j个文档d
j
的TF

IDF计算如下:其中,n
ij
表示第i个词汇t
i
出现在第j个文档d
j
的次数;S为文档总数;k表示第j个文档中的词汇数量;I表示包含t
i
的多有文档的集合。4.根据权利要求1所述的多个分类器协同的商品智能分类方法,其特征在于,所述步骤S6采用AIC信息准则:AIC
K


2logl
k
+2λ
k
其中,l
k
和λ
k
分别是第k个分类器的极大似然函数和分类器参数量;每个分类器的权重为:设上述k种算法得到的每个样本i分类到类别j的概率分别为由此可得,分类器加权后,第i个样本分到类别j的概为:第i个样本选择作为分类结果。5.一种多个分类器协同的商品智能分类系统,其特征在于,包括:模块M1:获取数据量分布均匀的训练集;模块M2:对所述训练集中每个商品的描述信息做切词、去停用词,得到分词结果;
模块...

【专利技术属性】
技术研发人员:王静李燕北朱俊夏竟翔戴智鑫闫晨光沈达峰
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1