一种提取文本信息的方法、装置和存储介质制造方法及图纸

技术编号：23891950 阅读：28 留言：0更新日期：2020-04-22 06:50

本申请公开了一种提取文本信息的方法、装置和存储介质，具体为首先获取待处理图像，并在待处理图像中提取第一区域，其中，第一区域为待处理图像中的固定文本所在的文本区域，其次，将第一区域与模板图像中的第二区域进行匹配，并在模板图像中筛选出符合匹配条件的待适配模板图像，然后，计算待处理图像与待适配模板图像的适配比，最后，选取数值最大的适配比对应的待适配模板图像作为适配模板图像，并将待处理图像投影至适配模板图像，识别待处理图像投影在适配模板图像的至少一个结构化区域中的文本信息。本申请实施例通过为每一张待处理图像适配模板图像，并根据适配模板图像解析待处理图像中的文本信息，以对文本信息进行结构化提取。

A method, device and storage medium for extracting text information

全部详细技术资料下载

【技术实现步骤摘要】
一种提取文本信息的方法、装置和存储介质
本申请涉及互联网
，尤其涉及一种提取文本信息的方法、装置和存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition，OCR)技术能够是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文本的过程。因其可以检测和识别图片中的文本信息被广泛应用于多个领域。OCR技术可以辅助录入票据信息和辅助审核校验，节约大量的人工成本。应用OCR技术后可以获得图片中的文本位置及其对应的文本内容。在多数情况下，尤其是针对票据类型图片的OCR任务中，如票据种类版式繁多，没有统一固定的格式，仅仅获得这些文本位置和内容信息并不能够实现信息的有效获取，可能会造成信息类型的错误提取等问题。
技术实现思路
本申请实施例提供了一种提取文本信息的方法，克服了不能有效提取图片上位置和文本信息的技术问题。该方法包括：获取待处理图像，并在所述待处理图像中提取第一区域，其中，所...

【技术保护点】
1.一种提取文本信息的方法，其特征在于，包括：/n获取待处理图像，并在所述待处理图像中提取第一区域，其中，所述第一区域为所述待处理图像中的固定文本所在的文本区域；/n将所述第一区域与模板图像中的第二区域进行匹配，并在所述模板图像中筛选出符合匹配条件的待适配模板图像，其中，所述第二区域为所述模板图像中的固定文本所在的文本区域；/n计算所述待处理图像与所述待适配模板图像的适配比；/n选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像，并将所述待处理图像投影至所述适配模板图像，识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。/n

【技术特征摘要】
1.一种提取文本信息的方法，其特征在于，包括：
获取待处理图像，并在所述待处理图像中提取第一区域，其中，所述第一区域为所述待处理图像中的固定文本所在的文本区域；
将所述第一区域与模板图像中的第二区域进行匹配，并在所述模板图像中筛选出符合匹配条件的待适配模板图像，其中，所述第二区域为所述模板图像中的固定文本所在的文本区域；
计算所述待处理图像与所述待适配模板图像的适配比；
选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像，并将所述待处理图像投影至所述适配模板图像，识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述并在所述模板图像中筛选出符合匹配条件的待适配模板图像的步骤包括：
获取所述待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息；
根据所述第一坐标信息，在至少一个所述模板图像中确定与至少一个所述第一坐标信息对应的所述第二区域；
将所述第一文本信息与对应在所述第二区域中的第二文本信息进行匹配，并记录文本信息相同的所述第一区域的数量；
当所述文本信息相同的所述第一区域的数量大于预设数量时，将所述第二区域对应的所述模板图像确定为所述待适配模板图像。

3.根据权利要求2所述的方法，其特征在于，所述计算所述待处理图像与所述待适配模板图像的适配比的步骤包括：
计算所述待处理图像在所述待适配模板图像上的最优映射点；
根据所述最优映射点，计算所述待处理图像与所述待适配模板图像的变换矩阵，并按照所述变换矩阵，将所述待处理图像投影至所述待适配模板上；
分别计算所述待处理图像投影的所述第一区域和所述待适配模板图像的所述第二区域上的交集，以及所述第一区域和所述第二区域的并集；
基于所述交集与所述并集的比值，计算所述待处理图像与所述待适配模板图像的适配比。

4.根据权利要求3所述的方法，其特征在于，所述计算所述待处理图像在所述待适配模板图像上的最优映射点的步骤包括：
在所述待处理图像中与所述待适配模板图像的文本信息相同的所述第一区域的所述第一坐标信息中，选取与所述待适配模板图像的四个顶点的距离最近的四个坐标值作为所述最优映射点。

5.根据权利要求4所述的方法，其特征在于，所述并将所述待处理图像投影至所述适配模板图像的步骤和所述在所述适配模板图像中提取所述待处理图像中的文本信息的步骤之间，所述方法进一...

【专利技术属性】
技术研发人员：李壮，
申请(专利权)人：贝壳技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人