资产数据识别方法、装置、电子设备和计算机存储介质制造方法及图纸

技术编号:35355681 阅读:18 留言:0更新日期:2022-10-26 12:32
本公开涉及互联网技术领域,提供一种资产数据识别方法、装置、电子设备和计算机存储介质,包括:将文本类型的资产数据编码为表示向量;基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM

【技术实现步骤摘要】
资产数据识别方法、装置、电子设备和计算机存储介质


[0001]本公开涉及互联网
,特别涉及一种资产数据识别方法、装置、电子设备和计算机存储介质。

技术介绍

[0002]现有技术中,目标资源识别模型常常借助SVM(Support Vector Machine,支持向量机)、朴素贝叶斯分类器、基于N

Gram统计语言模型的文本分类方法等,对文本类型的资产数据进行有效分类,以识别出资产数据的具体类别。然而,上述目标资源识别模型在对文本类型的资产数据进行分类的过程中,会面临对文本类型的资产数据进行数值化表示时数据稀疏以及建模之间语义相似度较大、类型识别准确率低、无法深度理解数据语义等问题,且需要进行分类识别的资产数据通常数量庞大、种类繁杂,使得上述目标资源识别模型识别效率低下且不够灵活。

技术实现思路

[0003]本公开旨在至少解决现有技术中存在的问题之一,提供一种资产数据识别方法、装置、电子设备和计算机存储介质。
[0004]本公开的一个方面,提供了一种资产数据识别方法,包括:
[0005]将文本类型的资产数据编码为表示向量;
[0006]基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM

CNN的深度神经网络模型进行训练得到。
[0007]可选的,训练好的资源识别模型根据以下步骤训练得到:
[0008]为表示向量添加真实标签,并将添加真实标签后的表示向量划分为训练数据和测试数据,其中,真实标签用于指示表示向量对应的资产数据的资源类别;
[0009]构建预设的基于LSTM

CNN的深度神经网络模型,确定预设的基于LSTM

CNN的深度神经网络模型所包括的隐含层的层数和默认参数值,其中,隐含层包括嵌入层、LSTM模型、CNN模型;
[0010]将训练数据输入预设的基于LSTM

CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使预设的基于LSTM

CNN的深度神经网络模型的损失函数最小化;
[0011]利用测试数据,对损失函数最小化的预设的基于LSTM

CNN的深度神经网络模型进行测试,以得到训练好的资源识别模型。
[0012]可选的,CNN模型包括卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,将训练数据输入预设的基于LSTM

CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使预设的基于LSTM

CNN的深度神经网络模型的损失函数最小化,包括:
[0013]将训练数据输入嵌入层,得到训练数据的嵌入表示;
[0014]将训练数据的嵌入表示提供给LSTM模型,以生成LSTM特征向量,并将训练数据的
嵌入表示提供给卷积层和最大池化层,以生成CNN特征向量;
[0015]利用Merge层将LSTM特征向量和CNN特征向量进行融合,得到融合特征向量;
[0016]利用Dropout层将融合特征向量正则化,得到正则化向量;
[0017]利用全连接层对正则化向量进行数据降维;
[0018]将数据降维后的正则化向量输入SoftMax层,得到训练数据的概率矩阵,并将概率矩阵中概率值最大的位置所对应的真实标签作为训练数据对应的预测标签;
[0019]将预测标签与训练数据对应的真实标签进行比对,通过反向传播算法更新预设的基于LSTM

CNN的深度神经网络模型的参数,直至预设的基于LSTM

CNN的深度神经网络模型的损失函数达到最小。
[0020]可选的,将文本类型的资产数据编码为表示向量,包括:
[0021]对文本类型的资产数据进行预处理;
[0022]基于训练好的栈式去噪自编码器,对预处理后的文本类型的资产数据进行降维处理,得到文本类型的资产数据对应的表示向量;其中,训练好的栈式去噪自编码器是预先根据预处理后的文本类型的资产数据对预设栈式去噪自编码器进行训练得到。
[0023]可选的,训练好的栈式去噪自编码器通过以下步骤训练得到:
[0024]利用预设的去噪自编码器对预处理后的文本类型的资产数据进行降维重构,得到训练数据集;
[0025]将去噪自编码器组合堆叠成深度学习层级结构,以构建预设栈式去噪自编码器;
[0026]调整预设栈式去噪自编码器的参数,利用训练数据集逐层对预设栈式去噪自编码器进行无监督训练,以使预设栈式去噪自编码器的损失函数最小化;
[0027]从训练数据集中选择预设数量的数据组成测试数据集;
[0028]利用测试数据集,根据损失函数值对损失函数最小化的预设栈式去噪自编码器的参数进行调整优化,得到预设栈式去噪自编码器的最优参数。
[0029]可选的,对文本类型的资产数据进行预处理,包括:
[0030]使用正则表达式去除文本类型的资产数据中的特殊字符及标签;
[0031]根据去除特殊字符及标签后的文本类型的资产数据中缺失值缺失的情况,采用删除方法、同类均值插补方法、极大似然估计方法中的至少一者对缺失值进行处理;
[0032]采用词频逆文档频率、word2vec、独热编码中的至少一者,对缺失值处理后的文本类型的资产数据进行符号特征数值化;
[0033]将符号特征数值化的文本类型的资产数据进行标准化和归一化处理,以将符号特征数值化的文本类型的资产数据转换到[0,1]的范围。
[0034]本公开的另一个方面,提供了一种资产数据识别装置,包括:
[0035]编码模块,用于将文本类型的资产数据编码为表示向量;
[0036]分类模块,用于基于训练好的资源识别模型,对表示向量进行资源分类,以得到文本类型的资产数据对应的资源类别;其中,训练好的资源识别模型是预先根据表示向量对预设的基于LSTM

CNN的深度神经网络模型进行训练得到。
[0037]本公开的另一个方面,提供了一种电子设备,包括:
[0038]至少一个处理器;以及,
[0039]与至少一个处理器通信连接的存储器;其中,
[0040]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前文记载的所述的方法。
[0041]本公开的另一个方面,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现前文记载的所述的方法。
[0042]本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现前文记载的所述的方法。
[0043]本公开相对于现有技术而言,将文本类型的资产数据编码为表示向量,并基于预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资产数据识别方法,其特征在于,所述方法包括:将文本类型的资产数据编码为表示向量;基于训练好的资源识别模型,对所述表示向量进行资源分类,以得到所述文本类型的资产数据对应的资源类别;其中,所述训练好的资源识别模型是预先根据所述表示向量对预设的基于LSTM

CNN的深度神经网络模型进行训练得到。2.根据权利要求1所述的方法,其特征在于,所述训练好的资源识别模型根据以下步骤训练得到:为所述表示向量添加真实标签,并将添加真实标签后的所述表示向量划分为训练数据和测试数据,其中,所述真实标签用于指示所述表示向量对应的所述资产数据的资源类别;构建所述预设的基于LSTM

CNN的深度神经网络模型,确定所述预设的基于LSTM

CNN的深度神经网络模型所包括的隐含层的层数和默认参数值,其中,所述隐含层包括嵌入层、LSTM模型、CNN模型;将所述训练数据输入所述预设的基于LSTM

CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使所述预设的基于LSTM

CNN的深度神经网络模型的损失函数最小化;利用所述测试数据,对损失函数最小化的所述预设的基于LSTM

CNN的深度神经网络模型进行测试,以得到所述训练好的资源识别模型。3.根据权利要求2所述的方法,其特征在于,所述CNN模型包括卷积层、最大池化层、Merge层、Dropout层、全连接层、SoftMax层,所述将所述训练数据输入所述预设的基于LSTM

CNN的深度神经网络模型,利用反向传播算法进行有监督训练,以使所述预设的基于LSTM

CNN的深度神经网络模型的损失函数最小化,包括:将所述训练数据输入所述嵌入层,得到所述训练数据的嵌入表示;将所述训练数据的嵌入表示提供给所述LSTM模型,以生成LSTM特征向量,并将所述训练数据的嵌入表示提供给所述卷积层和所述最大池化层,以生成CNN特征向量;利用所述Merge层将所述LSTM特征向量和所述CNN特征向量进行融合,得到融合特征向量;利用所述Dropout层将所述融合特征向量正则化,得到正则化向量;利用所述全连接层对所述正则化向量进行数据降维;将数据降维后的所述正则化向量输入所述SoftMax层,得到所述训练数据的概率矩阵,并将所述概率矩阵中概率值最大的位置所对应的所述真实标签作为所述训练数据对应的预测标签;将所述预测标签与所述训练数据对应的所述真实标签进行比对,通过所述反向传播算法更新所述预设的基于LSTM

CNN的深度神经网络模型的参数,直至所述预设的基于LSTM

CNN的深度神经网络模型...

【专利技术属性】
技术研发人员:徐桂忠方赴洋张淯舒马勋
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1