【技术实现步骤摘要】
一种商品品目标签分类方法、装置、设备和介质
[0001]本专利技术涉及计算机
,特别涉及一种商品品目标签分类方法、装置、设备和介质。
技术介绍
[0002]当今市场上电商平台数量多,每个电商平台面向的目标客户都不一样,对商品类目的定义各不相同,并且因为商品的种类繁多,商品的类目与类目之间可能会存在包含关系,商户也可能存在一些对商品类目理解上的偏差造成商品放错所属类目,这就导致在用户检索时候,得到的结果就不准确。
[0003]现在针对电商平台商品分类的深度技术大体上是用商品的图片信息和文字信息作为输入,输出是商品的类目,以此搭建神经网络模型,对电商平台进行商品分类;这种做法有一定局限性,当商品进行更新迭代后,一些不同类目的商品可能会整合到同一种类目下,产生出一个新的商品;或者是在原有基础上增加功能,使商品具备更多的属性;这种现象在电器类型商品尤为常见,比如笔记本电脑和平板电脑原来严格来说是不同的类目,但是随着技术发展,笔记本电脑渐渐具备了平板电脑的功能,平板电脑也能通过追加外接设备(键盘等)和变更操作系统达到笔记 ...
【技术保护点】
【技术特征摘要】
1.一种商品品目标签分类方法,其特征在于,包括:步骤1、收集商品数据;步骤2、将商品数据进行预处理,得到处理后的数据;步骤3、将处理后的数据通过神经网络模型进行提取,获取到对应的至少一个标签以及至少一个分类;所述神经网络模型包括两个输入通道,用于接收图像数据以及文本数据;将图像数据通过预训练模型efficientNet6网络结构进行处理,得到输出(1),输出(1)通过全局平均池化层处理得到输出(2),输出(2)再经过批量归一化层处理得到输出(3);将文本数据经过预训练模型albert
‑
base
‑
chinese网络结构处理,得到输出(4),输出(4)输入到双向长短记忆层中进行处理得到输出(5);将输出(3)和输出(5)合并成一个向量作为输出(6);再对输出(6)、输出(3)和输出(5)分别做不同形状的relu层处理产生输出(7)、输出(3
‑
1)和输出(5
‑
1),将输出(3
‑
1)和输出(5
‑
1)做合并处理得到输出(6
‑
1),将输出(6
‑
1)和输出(7)作一个向量加运算得到输出(8),再将输出(8)作dropout正则化处理得到输出(9),然后通过一个形状为(batch_size,200)的relu层进行处理,得到输出(10),输出(10)经过一个设定维数的sigmoid层处理,得到一个概率分布;概率分布代表神经网络模型对输入图像和文本的分类结果,其中每个元素表示分类的概率;设定一阈值,遍历输出(10)的向量,将输出(10)中所有大于等于0阈值的标量重新赋值为1,小于阈值的重新赋值为0,得到位置编码,位置编码中为1的标量映射一个对应标签,得到一个标签的集合,之后通过控制映射的配置文件得出对应的类目。2.根据权利要求1所述的一种商品品目标签分类方法,其特征在于,所述不同形状的relu层分别为:(batch_size,4608)的relu层、(batch_size,2304)的relu层、(batch_size,2304)的relu层;所述(batch_size,4608)的relu层用于处理输出(6)得到输出(7);所述(batch_size,2304)的relu层用于处理输出(3)得到输出(3
‑
1)、(batch_size,2304)的relu层用于处理输出(5)得到输出(5
‑
1)。3.根据权利要求1所述的一种商品品目标签分类方法,其特征在于,所述神经网络模型在训练时,将所标注的位置编码和输出(10)通过现有的交叉熵损失函数,计算得出该概率分布与实际标签之间的交叉熵,以交叉熵作为损失去计算神经网络模型的参数梯度,最后将参数梯度通过反向传播算法和自动微分计算更新神经网络模型的参数。4.根据权利要求1所述的一种商品品目标签分类方法,其特征在于,所述商品数据包括图片数据和文字数据;将图片数据转化成矩阵,若图片只有一张,则将这张图片转化成形状为(528,528,3)的图片,长宽不一致的图片需要设定颜色像素补全至正方形图片矩阵;若图片数量在2至4张,则将每张图片转化成形状为(264,264,3)的图片,按随机次序拼接成四宫格图片形状为(528,528,3)的矩阵,数量不足四张图则创造设定个数的设定颜色形状为(264,264,3)的正方形图片矩阵代替;若图片数量在5至9张,每张图片形状转化成形状为(176,176,3)的图片,按随机次序拼接成九宫格图片形状为(528,528,3)的矩阵,数量不足九张图则创造设定个数设定颜色的形状为(176,176,3)的正方形图片矩阵代替;若图片在九张以上,则随机选取其中9张图片,每张图片形状转化成形状为(176,176,3)的图片,按随机次序拼接成九宫
格图片(528,528,3)矩阵;若商品无图片,则创建一个白色形状为(528,528,3)的矩阵作为图片数据得输入据整;选中的图片在拼接的之前,需要对每张图片作噪声处理,随机选取一噪声处理方式,对设定概率的图片进行噪声处理;将文字数据拼接成字符串,根据建立的分词表字符串映射成词向量,并在句首和句尾分别加入起始的id和结束的id,文本不足最大句子长度的部分用设定的id补全,若文本长度超过设定最大长度,则对文本进行强制截断,截断的文本长度为设定最大长度,并在文本句首和句尾分别加入起始的id和结束的id。5.一种商品品目标签分类装置,其特征在于,包括:收集模块,收集商品数据;预处理模块,将商品数据进行预处理,得到处理后的数据;分类模块,将处理后的数据通...
【专利技术属性】
技术研发人员:王荣俊,吴方毅,黄家元,施雅娟,林泽然,刘子威,
申请(专利权)人:博思数采科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。