文本识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24208540 阅读:17 留言:0更新日期:2020-05-20 15:46
本申请涉及一种文本识别方法、装置、计算机设备和存储介质。该方法包括:利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;将提取特征输入至分类网络,确定文本内容的类别。采用本方法能够提高文本类别识别的准确性。

Text recognition methods, devices, computer equipment and storage media

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文本识别方法、装置、计算机设备和存储介质。
技术介绍
在日常工作学习过程中,当查阅文档时,难免会遇到一些无法复制的网页文字或者PDF(PortableDocumentFormat,可移植文档格式)文件,这时候如果需要该文档的可编辑版本,那么就会采用文字识别软件来对该网页或PDF上的文本进行识别,以得到其上的文本。目前文本识别常用的方法主要由文本定位和文本识别组成,首先将文本图像输入定位网络,得到文本定位结果和文本分类结果,之后将得到的文本定位结果送入识别网络,利用输入图像的文本信息进行识别,当待识别的表单中出现相近的目标时,例如,表单中存在多种日期时(开始日期、结束日期、当前日期),在定位网络处理时,得到的文本分类结果可能会造成误分类,再者不同表单中的文本格式也存在差别,这又增加了分类的难度,因此最终根据识别网络的识别结果,无法正确定位哪个是当前日期。可见,上述方法存在识别的文本类别不准确的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高识别文本类别的文本识别方法、装置、计算机设备和存储介质。一种文本识别方法,该方法包括:利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;将提取特征输入至分类网络,确定文本内容的类别。在其中一个实施例中,上述将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征,包括:根据文本内容以及文本内容的空间分布信息,将文本框图像转化成文本框图像的节点图;该文本框图像的节点图包括节点和边线,节点包括文本内容,边线表征文本内容的空间分布信息;将文本框图像的节点图输入至第二神经网络中进行特征提取,得到文本框图像对应的融合特征。在其中一个实施例中,上述将文本框图像的节点图输入至第二神经网络中进行特征提取,得到文本框图像对应的融合特征,包括:将节点和边线进行拼接,并将拼接后的信息输入至多层感知机网络中进行特征提取,得到文本框的中间特征;根据文本框的中间特征和预设的注意力系数,得到文本框图像的融合特征。在其中一个实施例中,上述分类网络为条件随机场网络。在其中一个实施例中,上述第一长短期记忆网络为双向长短期记忆网络。在其中一个实施例中,上述预设的第一神经网络包括识别网络和词向量网络,上述将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量,包括:将文本框图像输入至识别网络中进行文本识别,得到文本框图像中的文本;将文本框图像中的文本输入至词向量网络中进行转换处理,得到文本框图像中文本的词向量。在其中一个实施例中,上述识别网络包括残差网络和第二长短期记忆网络,上述将文本框图像输入至识别网络中进行文本识别,得到文本框图像中的文本,包括:将文本框图像输入至残差网络进行特征提取,得到文本框图像的残差特征图;将残差特征图输入至第二长短期记忆网络进行文本识别,得到文本中各个文字的类别;根据各个文字的类别,在预设的映射关系中得到各个文字的类别对应的文字,并将各个文字的类别对应的文字确定为文本框图像中的文本;该预设的映射关系包括文字和文字类别之间的对应关系。一种文本识别装置,该装置包括:检测模块,用于利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;识别模块,用于将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;第一提取模块,用于将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;第二提取模块,用于将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;分类模块,用于将提取特征输入至分类网络,确定文本内容的类别。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;将提取特征输入至分类网络,确定文本内容的类别。一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;将提取特征输入至分类网络,确定文本内容的类别。上述文本识别方法、装置、计算机设备和存储介质,通过对获取的文本图像进行检测,得到各个文本框图像,并将各文本框图像进行文本识别和词向量转换,得到文本框图像中文本的词向量,同时通过将文本框图像输入至第二神经网络进行特征提取,得到文本框图像的融合特征,并通过将该文本框图像的融合特征进行特征提取以及输入分类网络,得到文本框图像中文本内容的类别。在该方法中,由于文本框图像的融合特征可以表征文本框图像中的文本内容和文本内容空间分布信息,那么在通过该融合特征进行分类时,得到的文本内容的类别就是结合文本信息和文本内容的空间信息得到的,相比传统的只是通过文本信息得到文本内容的类别,本方法得到的文本内容的类别更加准确;尤其是在内容丰富的文本文档中,当存在文本内容接近的文本时,通过文本信息和空间信息的结合,可以得到更加精确的文本内容的类别。附图说明图1为一个实施例中计算机设备的内部结构图;图2为一个实施例中文本识别方法的流程示意图;图3a为一个实施例中文本识别方法的流程示意图;图3b为一个实施例中文本框图像转化成节点图的示意图;本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:/n利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;/n将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到所述文本框图像中文本的词向量;/n将所述文本框图像输入至预设的第二神经网络中进行特征提取,得到所述文本框图像对应的融合特征;所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息;/n将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;/n将所述提取特征输入至分类网络,确定所述文本内容的类别。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:
利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;
将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到所述文本框图像中文本的词向量;
将所述文本框图像输入至预设的第二神经网络中进行特征提取,得到所述文本框图像对应的融合特征;所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息;
将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;
将所述提取特征输入至分类网络,确定所述文本内容的类别。


2.根据权利要求1所述的方法,其特征在于,所述将所述文本框图像输入至预设的第二神经网络中进行特征提取,得到所述文本框图像对应的融合特征,包括:
根据所述文本内容以及所述文本内容的空间分布信息,将所述文本框图像转化成文本框图像的节点图;所述文本框图像的节点图包括节点和边线,所述节点包括所述文本内容,所述边线表征文本内容的空间分布信息;
将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取,得到所述文本框图像对应的融合特征。


3.根据权利要求2所述的方法,其特征在于,所述将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取,得到所述文本框图像对应的融合特征,包括:
将所述节点和所述边线进行拼接,并将拼接后的信息输入至多层感知机网络中进行特征提取,得到文本框的中间特征;
根据所述文本框的中间特征和预设的注意力系数,得到所述文本框图像的融合特征。


4.根据权利要求1所述的方法,其特征在于,所述分类网络为条件随机场网络。


5.根据权利要求4所述的方法,其特征在于,所述第一长短期记忆网络为双向长短期记忆网络。


6.根据权利要求1所述的方法,其特征在于,所述预设的第一神经网络包括识别网络和词向量网络,所述将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到所述...

【专利技术属性】
技术研发人员:周康明冯晓锐
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1