The application relates to a commodity information format processing method, device, computer equipment and storage medium. The method includes: acquiring commodity information, the commodity information includes a plurality of commodity items; segmentation processing of the contents of the commodity items to obtain a plurality of words; acquiring the weight vectors corresponding to the plurality of words trained by the word vector model, generating the weight matrix using the weight vectors corresponding to the plurality of words; and acquiring the quotient. The coding of a plurality of words corresponding to an item is input to the trained multi-layer cyclic neural network, and a description of the preset format corresponding to the item is output by the trained multi-layer cyclic neural network based on the coding of the plurality of words and the weight matrix. This method can effectively improve the processing efficiency when unifying the format of commodity information.
【技术实现步骤摘要】
商品信息格式处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种商品信息格式处理方法、装置、计算机设备和存储介质。
技术介绍
海关报关单中涉及到各种各样的商品信息,虽然报关单中规定了统一的申报格式,但是不同的申报人填写商品信息的顺序和形式不同,导致报关单中的商品信息格式并不统一。大量的海关人员对不同格式的商品信息进行解读,费时费力,而且对海关进出口业务风控管理也造成了较多阻碍。为了对商品信息格式进行有效的统一化处理,在传统的方式中,开发人员通常采特定的模板配合专有词典对关键信息进行匹配,将商品信息的格式进行统一。然而这种方式需要开发人员开发多种模板以及收集多种专有名词库构建专有词典,导致统一商品信息格式的处理效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种在统一商品信息格式时能够有效提高处理效率的商品信息格式处理方法、装置、计算机设备和存储介质。一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。在其中一个实施例中,所述方法还包括:获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;统计多个商品项中训练词的词汇数量,将最大词汇数量标记为 ...
【技术保护点】
1.一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。
【技术特征摘要】
1.一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;统计多个商品项中训练词的词汇数量,将最大词汇数量标记为最长输入参数;利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量;利用所述最长输入参数以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络。3.根据权利要求2所述的方法,其特征在于,所述利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量包括:获取与商品信息对应的语料库,所述语料库中包括多个语料词;所述语料词中包括部分预设字符;利用所述语料词对词向量模型进行训练,得到语料权重矩阵;所述语料权重矩阵包括多个语料权重向量;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;根据增加词汇数量后的商品项,在所述语料权重矩阵中选择训练词以及一个或多个预设字符对应的语料权重向量,标记为训练词对应的输入向量;通过所述词向量模型加载多个输入向量,通过所述词向量模型的隐含层进行训练得到训练权重矩阵,所述训练权重矩阵包括多个训练词以及预设字符对应的权重向量。4.根据权利要求2所述的方法,其特征在于,所述利用所述最长输入参数、所述训练词以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络包括:获取所述商品信息对应的映射文件,所述映射文件中记录了商品项中多个训练词的原始描述与预设格式的描述;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;将所述训练词以及预设字符对应的权重向量生成与商品项对应的训练权重矩阵;将增加词汇数量后的商品项中的训练词、预设字符以及对应的权重向量矩阵,通过所述多层循环神经网络进行训练,输出商品项中多个训练词预设格式的描述。5.根据权利要求4...
【专利技术属性】
技术研发人员:金鑫,杨雨芬,赵媛媛,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。