一种面向能源电商领域的神经网络分词方法与装置制造方法及图纸

技术编号:31801145 阅读:23 留言:0更新日期:2022-01-08 11:02
本发明专利技术公开了一种面向能源电商领域的神经网络分词方法和装置,该方法包括:通过OCR技术对待识别的图像进行识别,得到文本信息,并基于预先训练的分词模型对文本信息进行分词处理,得到分词结果,其中,分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。由此,卷积神经网络对文本信息进行分词能够进一步优化OCR识别的结果的准确度,并且提升了分词结果的准确度。确度。确度。

【技术实现步骤摘要】
一种面向能源电商领域的神经网络分词方法与装置


[0001]本专利技术涉及能源电商领域,尤其涉及一种面向能源电商领域的神经网络分词方法与装置。

技术介绍

[0002]在能源电商领域会面临大量的数据需要进行处理,在一些场景下,通过OCR技术识别了文本后,需要对识别到的文本进行分词处理。
[0003]传统的机械分词法存在严重依赖词典,很难处理歧义和未登陆词的问题。而基于统计的分词方法虽然有较强的歧义区分和新词发现能力,但需要大规模标注语料库的支持,系统开销较大。

技术实现思路

[0004]有鉴于此,本专利技术实施例公开了一种面向能源电商领域的神经网络分词方法,不仅进一步优化OCR识别的结果的准确度,并且提升了分词结果的准确度。
[0005]本专利技术实施例公开了一种面向能源电商领域的神经网络分词方法,包括:
[0006]通过OCR技术对待识别的图像进行识别,得到文本信息;
[0007]将所述文本信息输入到预先训练的分词模型中进行分词处理,得到分词结果;
[0008]所述分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。
[0009]可选的,还包括:
[0010]设置所述卷积神经网络隐藏层的超参数,以使所述卷积神经网络不同的隐藏层学习到不同的特征。
[0011]可选的,将所述文本信息输入到预先训练的分词模型中进行分词处理,包括:
[0012]采用双向循环神经网络BiLSTM分别从文本信息的开头和结尾开始对所述文本信息进行处理;
[0013]对所述文本信息的上下文信息进行编码;
[0014]采用Viterbi算法进行编码,输出编码结果;
[0015]对所述编码结果进行解码,得到分词结果。
[0016]可选的,所述分词模型的训练过程包括:
[0017]构建卷积神经网络模型;
[0018]获取训练样本;所述训练样本为能源电商领域的文本信息;
[0019]将所述训练样本输入到卷积神经网络模型中,以所述卷积神经网络模型对训练样本输出分词结果趋近于标准的分词结果为目的对所述卷积神经网络模型进行训练。
[0020]可选的,还包括:
[0021]对所述卷积神经网络进行训练的过程中,通过迭代的方法,对卷积神经网络的参数进行训练,得到最优参数。
[0022]本专利技术实施例公开了一种面向能源电商领域的神经网络分词装置,包括:
[0023]识别单元,用于通过OCR技术对待识别的图像进行识别,得到文本信息;
[0024]分词单元,用于将所述文本信息输入到预先训练的分词模型中进行分词处理,得到分词结果;
[0025]所述分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。
[0026]可选的,还包括:
[0027]设置单元,用于设置所述卷积神经网络隐藏层的超参数,以使所述卷积神经网络不同的隐藏层学习到不同的特征。
[0028]可选的,所述分词单元,包括:
[0029]第一处理单元,用于采用双向循环神经网络BiLSTM分别从句子的开头和结尾开始对所述文本信息进行处理;
[0030]第一编码单元,用于对所述文本信息的上下文信息进行编码;
[0031]第二编码单元,用于采用Viterbi算法进行编码,输出编码结果;
[0032]解码单元,用于对所述编码结果进行解码,得到分词结果。
[0033]可选的,还包括:
[0034]训练单元,用于:
[0035]获取训练样本;所述训练样本为能源电商领域的文本信息;
[0036]将所述训练样本输入到卷积神经网络模型中,以所述卷积神经网络模型对训练样本的输出分词结果趋近于标准的分词结果为目的对所述卷积神经网络模型进行训练。
[0037]本专利技术实施例公开了一种电子设备,包括:
[0038]存储器和处理器;
[0039]所述存储器用于存储程序,所述处理器用于执行上述所述的一种面向能源电商领域的神经网络分词方法。
[0040]本专利技术实施例公开了一种面向能源电商领域的神经网络分词方法和装置,该方法包括:通过OCR技术对待识别的图像进行识别,得到文本信息,并基于预先训练的分词模型对文本信息进行分词处理,得到分词结果,其中,分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。由此,卷积神经网络对文本信息进行分词能够进一步优化OCR识别的结果的准确度,并且提升了分词结果的准确度。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0042]图1示出了本专利技术实施例提供的一种面向能源电商领域的神经网络分词方法的流程示意图;
[0043]图2示出了对卷积神经网络进行训练的流程示意图;
[0044]图3示出了本专利技术实施例提供的一种面向能源电商领域的神经网络分词装置的结构示意图;
[0045]图4示出了本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0046]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]在能源电商领域,客服对用户的问题进行自动答复的过程中,若接收到的是图像,需要对图像进行识别,并对识别出的文本进行分词,从而基于分词的结果进行答复,现有技术中采用的分词方法,存在两方面的问题,基于词典的分词方法,很难处理歧义和未知词,基于统计的分词方法,需要大规模的标注语料库支持,系统开销较大。
[0048]为了解决上述问题,本专利技术实施例在OCR识别出文本信息后,基于预先训练的卷积神经网络模型(表示为分词模型)对识别出的文本信息进行分词处理,其中,分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。
[0049]由此,预先训练的卷积神经网络模型,不仅具备分词的能力,并且训练好的卷积神经网络模型无需大量语料的支撑,还可以基于学习的功能,识别未知词,除此之外,能够识别具有歧义的词,由此,提升了分词结果的准确度。
[0050]参考图1,示出了本专利技术实施例提供的一种面向能源电商领域的神经网络分词方法的流程示意图,在本实施例中,该方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向能源电商领域的神经网络分词方法,其特征在于,包括:通过OCR技术对待识别的图像进行识别,得到文本信息;将所述文本信息输入到预先训练的分词模型中进行分词处理,得到分词结果;所述分词模型是将能源电商领域的文本作为训练样本,以输出的分词结果趋近于标准的分词结果为目的对待训练的卷积神经网络模型进行训练后得到的。2.根据权利要求1所述的方法,其特征在于,还包括:设置所述卷积神经网络隐藏层的超参数,以使所述卷积神经网络不同的隐藏层学习到不同的特征。3.根据权利要求1所述的方法,其特征在于,将所述文本信息输入到预先训练的分词模型中进行分词处理,包括:采用双向循环神经网络BiLSTM分别从文本信息的开头和结尾开始对所述文本信息进行处理;对所述文本信息的上下文信息进行编码;采用Viterbi算法进行编码,输出编码结果;对所述编码结果进行解码,得到分词结果。4.根据权利要求1所述的方法,其特征在于,所述分词模型的训练过程包括:构建卷积神经网络模型;获取训练样本;所述训练样本为能源电商领域的文本信息;将所述训练样本输入到卷积神经网络模型中,以所述卷积神经网络模型对训练样本输出分词结果趋近于标准的分词结果为目的对所述卷积神经网络模型进行训练。5.根据权利要求1所述的方法,其特征在于,还包括:对所述卷积神经网络进行训练的过程中,通过迭代的方法,对卷积神经网络的参数进行训练,得到最优参数。6.一种面向能源电商领域的神经网络分...

【专利技术属性】
技术研发人员:孙喜民周晶田晓芸刘丹李晓明孙博
申请(专利权)人:国网电商科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1