System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种对货物数据进行商品分类方法、系统和存储介质技术方案_技高网

一种对货物数据进行商品分类方法、系统和存储介质技术方案

技术编号:41369268 阅读:4 留言:0更新日期:2024-05-20 10:15
本发明专利技术公开了一种对货物数据进行商品分类方法、系统和存储介质,通过获取用于训练的海关货物数据集,对不在海关商品分类表中的商品记录进行相似特征匹配和商品类别特征替换,通过随机抽取两个未训练的样本数据输入货物多分类模型以计算余弦相似度并做标准的二分类处理的方式构建货物多分类模型并对其进行训练,并使用强行映射后所得到的商品类别特征均在海关商品分类表中的第三样本集对完成初步训练的货物多分类模型继续进行训练,最后将不具有商品类别特征的待分类海关货物数据输入完成训练的货物多分类模型,得到所述待分类海关货物数据中的各商品对应的第一类特征,增强预训练数据集的利用率,提高分类模型的训练和分类效果。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种对货物数据进行商品分类方法、系统和存储介质


技术介绍

1、在对海关货物利用分类算法进行分类的实际任务中,由于预训练所采用的数据集的标签繁杂混乱,与实际海关货物分类表中所采用的固定分类标签大多不一致,使得分类模型的训练和分类效果大大降低,因此对训练集中的标签进行去噪处理,使其被配置在实际分类标签中以提高模型的分类能力是十分重要的。当前所采用的方法大多是直接删除与实际分类标签不同的样本数据或通过强行映射的方式将不一致的标签直接映射至实际分类类别中,该两种方法前者会造成极大的数据丢失,导致样本数据利用率低,而后者的直接强行映射将导致标签被污染严重、标签分类误差较大,对模型分类的准确性影响也较大。


技术实现思路

1、本专利技术针对现有技术中的不足,提供了对货物数据进行商品分类方法,包括如下步骤:

2、获取用于训练的海关货物数据集,所述海关货物数据集中包含多条作为训练样本的商品记录,所述商品记录包括商品id、商品类别特征和商品文本描述信息,其中所述商品类别特征为第一类特征或第二类特征,所述第一类特征为该商品类别特征在海关商品分类表中,所述第二类特征为该商品类别特征不在海关商品分类表中,所述训练样本中至少包含一具有第一类特征的商品记录、和一具有第二类特征的商品记录;

3、对具有第二类特征的商品记录选用预设规则进行相似特征匹配,如果能匹配到对应的第一类特征则将用该匹配到的第一类特征替换该商品记录中的第二类特征,将本次训练样本中的各商品记录分成第一样本集和第二样本集,所述第一样本集包括具有第一类特征的商品记录,所述第二样本集包括具有第二类特征的商品记录;

4、分别随机抽取第一样本集和第二样本集中的一样本输入两个未训练的货物多分类模型中,所述货物多分类模型包含嵌入层和全连接网络,其中两全连接网络共享参数,对两全连接层网络的最后输出层计算余弦相似度并做标准的二分类处理来进行模型训练,得到完成初步训练的货物多分类模型;

5、将第二样本集中的所有商品记录通过一训练好的神经网络模型识别到模糊匹配的第一类特征后,替换原商品记录中的第二类特征,并将完成替换的商品记录添加至第一样本集形成第三样本集,用所述第三样本集训练完成初步训练的货物多分类模型;

6、将不具有商品类别特征的待分类海关货物数据输入完成训练的货物多分类模型,得到所述待分类海关货物数据中的各商品对应的第一类特征。

7、优选的,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

8、优选的,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

9、优选的,所述货物多分类模型还包含在全连接网络的输出层叠加的一归一化指数函数层,所述归一化指数函数层包含与海关商品分类表中的商品类别数量相同的输出节点,所述归一化指数函数层用于根据全连接网络的输出预测各商品类别的概率。

10、优选的,还包括构建归一化指数函数层的损失函数,利用反向传播更新全连接网络和归一化指数函数层的参数,其中所述损失函数被配置为:根据随机抽取的分别输入两个货物多分类模型进行训练的第一样本集和第二样本集中的两样本的相似度标签来确定损失函数,如果两样本的相似度标签为1,则对应损失函数为 ,如果两样本的相似度标签为0则对应损失函数为 ,其中si和sj分别为对应两样本的全连接网络最后一层向量。

11、本专利技术还公开了一种对货物数据进行商品分类系统,包括数据获取模块、特征匹配模块、模型训练模块、特征映射模块和特征输出模块,数据获取模块,用于获取用于训练的海关货物数据集,所述海关货物数据集中包含多条作为训练样本的商品记录,所述商品记录包括商品id、商品类别特征和商品文本描述信息,其中所述商品类别特征为第一类特征或第二类特征,所述第一类特征为该商品类别特征在海关商品分类表中,所述第二类特征为该商品类别特征不在海关商品分类表中,所述训练样本中至少包含一具有第一类特征的商品记录、和一具有第二类特征的商品记录;特征匹配模块,用于对具有第二类特征的商品记录选用预设规则进行相似特征匹配,如果能匹配到对应的第一类特征则将用该匹配到的第一类特征替换该商品记录中的第二类特征,将本次训练样本中的各商品记录分成第一样本集和第二样本集,所述第一样本集包括具有第一类特征的商品记录,所述第二样本集包括具有第二类特征的商品记录;模型训练模块,用于分别随机抽取第一样本集和第二样本集中的一样本输入两个未训练的货物多分类模型中,所述货物多分类模型包含嵌入层和全连接网络,其中两全连接网络共享参数,对两全连接层网络的最后输出层计算余弦相似度并做标准的二分类处理来进行模型训练,得到完成初步训练的货物多分类模型;特征映射模块,用于将第二样本集中的所有商品记录通过一训练好的神经网络模型识别到模糊匹配的第一类特征后,替换原商品记录中的第二类特征,并将完成替换的商品记录添加至第一样本集形成第三样本集,用所述第三样本集训练完成初步训练的货物多分类模型;特征输出模块,用于将不具有商品类别特征的待分类海关货物数据输入完成训练的货物多分类模型,得到所述待分类海关货物数据中的各商品对应的第一类特征。

12、优选的,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

13、优选的,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

14、本专利技术还公开了一种对货物数据进行商品分类装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述任一所述方法的步骤。

15、本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一所述方法的步骤。

16、本专利技术公开的对货物数据进行商品分类方法、系统和存储介质,在获取用于训练的海关货物数据集后,对不在海关商品分类表中的商品记录进行相似特征匹配和商本文档来自技高网...

【技术保护点】

1.一种对货物数据进行商品分类方法,其特征在于,包括:

2.根据权利要求1所述的对货物数据进行商品分类方法,其特征在于,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

3.根据权利要求2所述的对货物数据进行商品分类方法,其特征在于,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

4.根据权利要求3所述的对货物数据进行商品分类方法,其特征在于:所述货物多分类模型还包含在全连接网络的输出层叠加的一归一化指数函数层,所述归一化指数函数层包含与海关商品分类表中的商品类别数量相同的输出节点,所述归一化指数函数层用于根据全连接网络的输出预测各商品类别的概率。

5.根据权利要求4所述的对货物数据进行商品分类方法,其特征在于,还包括构建归一化指数函数层的损失函数,利用反向传播更新全连接网络和归一化指数函数层的参数,其中所述损失函数被配置为:根据随机抽取的分别输入两个货物多分类模型进行训练的第一样本集和第二样本集中的两样本的相似度标签来确定损失函数,如果两样本的相似度标签为1,则对应损失函数为 ,如果两样本的相似度标签为0,则对应损失函数为 ,其中si和sj分别为对应两样本的全连接网络最后一层向量。

6.一种对货物数据进行商品分类系统,其特征在于,包括:

7.根据权利要求6所述的对货物数据进行商品分类系统,其特征在于,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

8.根据权利要求7所述的对货物数据进行商品分类系统,其特征在于,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

9.一种对货物数据进行商品分类装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-5任一所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5任一所述方法的步骤。

...

【技术特征摘要】

1.一种对货物数据进行商品分类方法,其特征在于,包括:

2.根据权利要求1所述的对货物数据进行商品分类方法,其特征在于,所述预设规则包括第一标签匹配规则,所述第一标签匹配规则被配置为对具有第二类特征的第一商品记录中的商品文本描述信息进行分词处理,计算与具有第一类特征的第二商品记录的商品文本描述信息的分词相似度,当分词相似度大于设定阈值时用所述第二商品记录的第一类特征替换所述第一商品记录的第二类特征。

3.根据权利要求2所述的对货物数据进行商品分类方法,其特征在于,所述预设规则还包括第二标签匹配规则,所述第一标签匹配规则被配置为使用预训练好的网络模型通过零样本学习筛选出针对具有第二类特征的第一商品记录中的商品文本描述信息在海关商品分类表中最接近的至少一个第一类特征,获取其中超过设定阈值的第一类特征替换所述第一商品记录的第二类特征。

4.根据权利要求3所述的对货物数据进行商品分类方法,其特征在于:所述货物多分类模型还包含在全连接网络的输出层叠加的一归一化指数函数层,所述归一化指数函数层包含与海关商品分类表中的商品类别数量相同的输出节点,所述归一化指数函数层用于根据全连接网络的输出预测各商品类别的概率。

5.根据权利要求4所述的对货物数据进行商品分类方法,其特征在于,还包括构建归一化指数函数层的损失函数,利用反向传播更新全连接网络和归一化指数函数层的参数,其中所述损失函数被配置为:根据随机抽取的分别输入两个货物多分类模型进行训练的第一样本集和第二样本集中的两样本的...

【专利技术属性】
技术研发人员:唐科伟杨子祺陈声鸿
申请(专利权)人:浙江孚临科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1