商品信息格式处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19009254 阅读:37 留言:0更新日期:2018-09-22 09:06
本申请涉及一种商品信息格式处理方法、装置、计算机设备和存储介质。所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。采用本方法在统一商品信息格式时能够有效提高处理效率。

Commodity information format processing method, device, computer equipment and storage medium

The application relates to a commodity information format processing method, device, computer equipment and storage medium. The method includes: acquiring commodity information, the commodity information includes a plurality of commodity items; segmentation processing of the contents of the commodity items to obtain a plurality of words; acquiring the weight vectors corresponding to the plurality of words trained by the word vector model, generating the weight matrix using the weight vectors corresponding to the plurality of words; and acquiring the quotient. The coding of a plurality of words corresponding to an item is input to the trained multi-layer cyclic neural network, and a description of the preset format corresponding to the item is output by the trained multi-layer cyclic neural network based on the coding of the plurality of words and the weight matrix. This method can effectively improve the processing efficiency when unifying the format of commodity information.

【技术实现步骤摘要】
商品信息格式处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种商品信息格式处理方法、装置、计算机设备和存储介质。
技术介绍
海关报关单中涉及到各种各样的商品信息,虽然报关单中规定了统一的申报格式,但是不同的申报人填写商品信息的顺序和形式不同,导致报关单中的商品信息格式并不统一。大量的海关人员对不同格式的商品信息进行解读,费时费力,而且对海关进出口业务风控管理也造成了较多阻碍。为了对商品信息格式进行有效的统一化处理,在传统的方式中,开发人员通常采特定的模板配合专有词典对关键信息进行匹配,将商品信息的格式进行统一。然而这种方式需要开发人员开发多种模板以及收集多种专有名词库构建专有词典,导致统一商品信息格式的处理效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种在统一商品信息格式时能够有效提高处理效率的商品信息格式处理方法、装置、计算机设备和存储介质。一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。在其中一个实施例中,所述方法还包括:获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;统计多个商品项中训练词的词汇数量,将最大词汇数量标记为最长输入参数;利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量;利用所述最长输入参数以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络。在其中一个实施例中,所述利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量包括:获取与商品信息对应的语料库,所述语料库中包括多个语料词;所述语料词中包括部分预设字符;利用所述语料词对词向量模型进行训练,得到语料权重矩阵;所述语料权重矩阵包括多个语料权重向量;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;根据增加词汇数量后的商品项,在所述语料权重矩阵中选择训练词以及一个或多个预设字符对应的语料权重向量,标记为训练词对应的输入向量;通过所述词向量模型加载多个输入向量,通过所述词向量模型的隐含层进行训练得到训练权重矩阵,所述训练权重矩阵包括多个训练词以及预设字符对应的权重向量。在其中一个实施例中,所述利用所述最长输入参数、所述训练词以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络包括:获取所述商品信息对应的映射文件,所述映射文件中记录了商品项中多个训练词的原始描述与预设格式的描述;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;将所述训练词以及预设字符对应的权重向量生成与商品项对应的训练权重矩阵;将增加词汇数量后的商品项中的训练词、预设字符以及对应的权重向量矩阵,通过所述多层循环神经网络进行训练,输出商品项中多个训练词预设格式的描述。在其中一个实施例中,所述多层循环神经网络神经包括多个隐含层;所述将增加词汇数量后的商品项中的训练词、预设字符以及对应的权重向量矩阵,通过所述多层循环神经网络进行训练包括:向每层隐含层分配随机向量作为隐含层的初始权重矩阵;根据所述最长输入参数在所述输入层与第一层隐含层设置与增加词汇数量后的商品项相对应的训练权重矩阵;将增加词汇数量后的商品项的训练词所对应的编码以及预设字符对应的编码输入至所述多层循环神经网络的输入层;通过多层隐含层利用所述初始权重矩阵以及训练权重矩阵进行训练,使得输出层输出商品项中多个训练词预设格式的描述。在其中一个实施例中,所述方法还包括:获取多个训练集对应的样本文件数量;获取验证集,所述验证集中包括多个商品项的词;利用验证集对多个训练集在通过训练后输出的商品项的预设格式进行验证;当验证的准确度达到阈值时,将初次达到所述阈值对应的样本文件数量标记为最大批量训练的样本文件数量。一种商品信息格式处理装置,所述装置包括:信息获取模块,用于获取商品信息,所述商品信息包括多个商品项;分词处理模块,用于对所述商品项的内容进行分词处理,得到多个词;权重矩阵生成模块,用于获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;格式统一化模块,用于获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。在其中一个实施例中,所述装置还包括:第一训练模块,用于获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;统计多个商品项中训练词的词汇数量,将最大词汇数量标记为最长输入参数;利用所述最长输入参数以及所述训练词对词向量模型进行训练,得到所述训练词对应的权重向量;第二训练模块,用于利用所述最长输入参数以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例中的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例中的步骤。上述商品信息格式处理方法、装置、计算机设备和存储介质,当需要对商品信息中原始描述进行格式统一时,服务器可以对商品项中的内容进行分词处理,得到商品项对应的多个词。服务器可以根据商品项的多个词获取相应的权重向量,继而生成多个词对应的权重矩阵。由于每个词的权重向量均是通过词向量模型训练得到的,由此能够准确反映每个词的矢量,有效提高多层循环神经网络的收敛效果,从而能够提高输出效果的准确性。服务器将商品项的多个词的编码输入至训练后的多层循环神经网络,通过训练后的多层循环神经网络利用多个词的编码以及权重矩阵进行运算,输出商品项对应的预设格式的描述。由于多层循环神经网络是经过训练的,可以使得商品项中每个词都能输出为预设格式的描述。整个过程无需开发多种模板以及构建专有词典,多种类型的商品信息均可输出所需的统一格式,实现了商品信息格式统一效率的提高。附图说明图1为一个实施例中商品信息格式处理方法的应用场景图;图2为一个实施例中商品信息格式处理方法的流程示意图;图3为一个实施例中2层循环神经网络在时间上的展开图;图4为一个实施例中4层循环神经网络在时间上的展开图;图5为一个实施例中6层循环神经网络在时间上的展开图;图6为一个实施例中词向量模型训练以及多层循环神经网络训练的步骤的流程示意图;图7为一个实施例中商品信息格式处理装置的结构框图;图8为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的本文档来自技高网...
商品信息格式处理方法、装置、计算机设备和存储介质

【技术保护点】
1.一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。

【技术特征摘要】
1.一种商品信息格式处理方法,所述方法包括:获取商品信息,所述商品信息包括多个商品项;对所述商品项的内容进行分词处理,得到多个词;获取通过词向量模型训练得到的多个词对应的权重向量,利用多个词对应的权重向量生成权重矩阵;获取所述商品项的多个词对应的编码,将多个词的编码输入至训练后的多层循环神经网络;通过所述训练后的多层循环神经网络,基于所述多个词的编码以及所述权重矩阵进行运算,输出所述商品项对应的预设格式的描述。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与商品信息对应的训练集,所述训练集中包括多个商品项以及商品项对应的多个训练词;统计多个商品项中训练词的词汇数量,将最大词汇数量标记为最长输入参数;利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量;利用所述最长输入参数以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络。3.根据权利要求2所述的方法,其特征在于,所述利用所述最长输入参数以及所述训练词,对词向量模型进行训练,得到所述训练词对应的权重向量包括:获取与商品信息对应的语料库,所述语料库中包括多个语料词;所述语料词中包括部分预设字符;利用所述语料词对词向量模型进行训练,得到语料权重矩阵;所述语料权重矩阵包括多个语料权重向量;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;根据增加词汇数量后的商品项,在所述语料权重矩阵中选择训练词以及一个或多个预设字符对应的语料权重向量,标记为训练词对应的输入向量;通过所述词向量模型加载多个输入向量,通过所述词向量模型的隐含层进行训练得到训练权重矩阵,所述训练权重矩阵包括多个训练词以及预设字符对应的权重向量。4.根据权利要求2所述的方法,其特征在于,所述利用所述最长输入参数、所述训练词以及所述训练词对应的权重向量对多层循环神经网络进行训练,得到训练后的多层循环神经网络包括:获取所述商品信息对应的映射文件,所述映射文件中记录了商品项中多个训练词的原始描述与预设格式的描述;利用预设字符将多个商品项的训练词的词汇数量增加至与所述最长输入参数相同的数量;将所述训练词以及预设字符对应的权重向量生成与商品项对应的训练权重矩阵;将增加词汇数量后的商品项中的训练词、预设字符以及对应的权重向量矩阵,通过所述多层循环神经网络进行训练,输出商品项中多个训练词预设格式的描述。5.根据权利要求4...

【专利技术属性】
技术研发人员:金鑫杨雨芬赵媛媛
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1