一种对货物数据进行商品分类方法、系统和存储介质技术方案

技术编号:41369268 阅读:31 留言:0更新日期:2024-05-20 10:15
本发明专利技术公开了一种对货物数据进行商品分类方法、系统和存储介质,通过获取用于训练的海关货物数据集,对不在海关商品分类表中的商品记录进行相似特征匹配和商品类别特征替换,通过随机抽取两个未训练的样本数据输入货物多分类模型以计算余弦相似度并做标准的二分类处理的方式构建货物多分类模型并对其进行训练,并使用强行映射后所得到的商品类别特征均在海关商品分类表中的第三样本集对完成初步训练的货物多分类模型继续进行训练,最后将不具有商品类别特征的待分类海关货物数据输入完成训练的货物多分类模型,得到所述待分类海关货物数据中的各商品对应的第一类特征,增强预训练数据集的利用率,提高分类模型的训练和分类效果。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种对货物数据进行商品分类方法、系统和存储介质


技术介绍

1、在对海关货物利用分类算法进行分类的实际任务中,由于预训练所采用的数据集的标签繁杂混乱,与实际海关货物分类表中所采用的固定分类标签大多不一致,使得分类模型的训练和分类效果大大降低,因此对训练集中的标签进行去噪处理,使其被配置在实际分类标签中以提高模型的分类能力是十分重要的。当前所采用的方法大多是直接删除与实际分类标签不同的样本数据或通过强行映射的方式将不一致的标签直接映射至实际分类类别中,该两种方法前者会造成极大的数据丢失,导致样本数据利用率低,而后者的直接强行映射将导致标签被污染严重、标签分类误差较大,对模型分类的准确性影响也较大。


技术实现思路

1、本专利技术针对现有技术中的不足,提供了对货物数据进行商品分类方法,包括如下步骤:

2、获取用于训练的海关货物数据集,所述海关货物数据集中包含多条作为训练样本的商品记录,所述商品记录包括商品id、商品类别特征和商品文本描述信息,其中所述商品类别特征为第一类特本文档来自技高网...

【技术保护点】

1.一种对货物数据进行商品分类方法,其特征在于,包括:

2.根据权利要求1所述的对货物数据进行商品分类方法,其特征在于,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

3.根据权利要求2所述的对货物数据进行商品分类方法,其特征在于,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛...

【技术特征摘要】

1.一种对货物数据进行商品分类方法,其特征在于,包括:

2.根据权利要求1所述的对货物数据进行商品分类方法,其特征在于,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

3.根据权利要求2所述的对货物数据进行商品分类方法,其特征在于,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

4.根据权利要求3所述的对货物数据进行商品分类方法,其特征在于:所述货物多分类模型还包含在全连接网络的输出层叠加的一归一化指数函数层,所述归一化指数函数层包含与海关商品分类表中的商品类别数量相同的输出节点,所述归一化指数函数层用于根据全连接网络的输出预测各商品类别的概率。

5.根据权利要求4所述的对货物数据进行商品分类方法,其特征在于,还包括构建归一化指数函数层的损失函数,利用反向传播更新全连接网络和归一化指数函数层的参数,其中所述损失函数被配置为:根据随机抽取的分别输入两个货物多分类模型进行训练的第一样本集和第二样本集中的两样本的...

【专利技术属性】
技术研发人员:唐科伟杨子祺陈声鸿
申请(专利权)人:浙江孚临科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1