文本识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24208540 阅读：17 留言：0更新日期：2020-05-20 15:46

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。该方法包括：利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息；将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；将提取特征输入至分类网络，确定文本内容的类别。采用本方法能够提高文本类别识别的准确性。

Text recognition methods, devices, computer equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。
技术介绍
在日常工作学习过程中，当查阅文档时，难免会遇到一些无法复制的网页文字或者PDF(PortableDocumentFormat，可移植文档格式)文件，这时候如果需要该文档的可编辑版本，那么就会采用文字识别软件来对该网页或PDF上的文本进行识别，以得到其上的文本。目前文本识别常用的方法主要由文本定位和文本识别组成，首先将文本图像输入定位网络，得到文本定位结果和文本分类结果，之后将得到的文本定位结果送入识别网络，利用输入图像的文本信息进行识别，当待识别的表单中出现相近的目标时，例如，表单中存在多种日期时(开始日期、结束日期、当前日期)，在定位网络处理时，得到的文本分类结果可能会造成误分类，再者不同表单中的文本格式也存在差别，这又增加了分类的难度，因此最终根据识别网络的识别结果，无法正确定位哪个是当前日期。可见，上述方法存在识别的文本类别不准确的问题。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高识别文本类别的文本识别方法、装置、计算机设备和存储介质。一种文本识别方法，该方法包括：利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的...

【技术保护点】
1.一种文本识别方法，其特征在于，所述方法包括：/n利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；/n将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述文本框图像中文本的词向量；/n将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征；所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息；/n将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；/n将所述提取特征输入至分类网络，确定所述文本内容的类别。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：
利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；
将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述文本框图像中文本的词向量；
将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征；所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息；
将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；
将所述提取特征输入至分类网络，确定所述文本内容的类别。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征，包括：
根据所述文本内容以及所述文本内容的空间分布信息，将所述文本框图像转化成文本框图像的节点图；所述文本框图像的节点图包括节点和边线，所述节点包括所述文本内容，所述边线表征文本内容的空间分布信息；
将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征，包括：
将所述节点和所述边线进行拼接，并将拼接后的信息输入至多层感知机网络中进行特征提取，得到文本框的中间特征；
根据所述文本框的中间特征和预设的注意力系数，得到所述文本框图像的融合特征。

4.根据权利要求1所述的方法，其特征在于，所述分类网络为条件随机场网络。

5.根据权利要求4所述的方法，其特征在于，所述第一长短期记忆网络为双向长短期记忆网络。

6.根据权利要求1所述的方法，其特征在于，所述预设的第一神经网络包括识别网络和词向量网络，所述将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述...

【专利技术属性】
技术研发人员：周康明，冯晓锐，
申请(专利权)人：上海眼控科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人