一种面向能源电商领域的神经网络分词方法与装置制造方法及图纸

技术编号：31801145 阅读：23 留言：0更新日期：2022-01-08 11:02

本发明专利技术公开了一种面向能源电商领域的神经网络分词方法和装置，该方法包括：通过OCR技术对待识别的图像进行识别，得到文本信息，并基于预先训练的分词模型对文本信息进行分词处理，得到分词结果，其中，分词模型是将能源电商领域的文本作为训练样本，以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。由此，卷积神经网络对文本信息进行分词能够进一步优化OCR识别的结果的准确度，并且提升了分词结果的准确度。确度。确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向能源电商领域的神经网络分词方法与装置

[0001]本专利技术涉及能源电商领域，尤其涉及一种面向能源电商领域的神经网络分词方法与装置。

技术介绍

[0002]在能源电商领域会面临大量的数据需要进行处理，在一些场景下，通过OCR技术识别了文本后，需要对识别到的文本进行分词处理。
[0003]传统的机械分词法存在严重依赖词典，很难处理歧义和未登陆词的问题。而基于统计的分词方法虽然有较强的歧义区分和新词发现能力，但需要大规模标注语料库的支持，系统开销较大。

技术实现思路

[0004]有鉴于此，本专利技术实施例公开了一种面向能源电商领域的神经网络分词方法，不仅进一步优化OCR识别的结果的准确度，并且提升了分词结果的准确度。
[0005]本专利技术实施例公开了一种面向能源电商领域的神经网络分词方法，包括：
[0006]通过OCR技术对待识别的图像进行识别，得到文本信息；
[0007]将所述文本信息输入到预先训练的分词模型中进行分词处理，得到分词结果；
[0008]所述分词模型是将能源电商领域的文本作为训练样本，以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。
[0009]可选的，还包括：
[0010]设置所述卷积神经网络隐藏层的超参数，以使所述卷积神经网络不同的隐藏层学习到不同的特征。
[0011]可选的，将所述文本信息输入到预先训练的分词模型中进行分词处理，包括：
[0012]采用双向循环神经网...

【技术保护点】

【技术特征摘要】
1.一种面向能源电商领域的神经网络分词方法，其特征在于，包括：通过OCR技术对待识别的图像进行识别，得到文本信息；将所述文本信息输入到预先训练的分词模型中进行分词处理，得到分词结果；所述分词模型是将能源电商领域的文本作为训练样本，以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。2.根据权利要求1所述的方法，其特征在于，还包括：设置所述卷积神经网络隐藏层的超参数，以使所述卷积神经网络不同的隐藏层学习到不同的特征。3.根据权利要求1所述的方法，其特征在于，将所述文本信息输入到预先训练的分词模型中进行分词处理，包括：采用双向循环神经网络BiLSTM分别从文本信息的开头和结尾开始对所述文本信息进行处理；对所述文本信息的上下文信息进行编码；采用Viterbi算法进行编码，输出编码结果；对所述编码结果进行解码，得到分词结果。4.根据权利要求1所述的方法，其特征在于，所述分词模型的训练过程包括：构建卷积神经网络模型；获取训练样本；所述训练样本为能源电商领域的文本信息；将所述训练样本输入到卷积神经网络模型中，以所述卷积神经网络模型对训练样本输出分词结果趋近于标准的分词结果为目的对所述卷积神经网络模型进行训练。5.根据权利要求1所述的方法，其特征在于，还包括：对所述卷积神经网络进行训练的过程中，通过迭代的方法，对卷积神经网络的参数进行训练，得到最优参数。6.一种面向能源电商领域的神经网络分...

【专利技术属性】
技术研发人员：孙喜民，周晶，田晓芸，刘丹，李晓明，孙博，
申请(专利权)人：国网电商科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人