文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号：40305674 阅读：4 留言：0更新日期：2024-02-07 20:50

本发明专利技术涉及计算机技术领域，公开了一种文本识别方法、装置、设备及存储介质，该方法包括：对待识别图片进行文本识别，获得已识别文本，对已识别文本进行键值分类，获得分类结果，根据分类结果生成待识别图片的文本识别结果；由于本发明专利技术在生成文本识别结果之前，还对已识别文本进行key和value的二分类，相较于现有的文本识别方式，本发明专利技术具备更强的泛化性能，从而能够避免出现键值对匹配错位的情况，进而能够提高文本识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种文本识别方法、装置、设备及存储介质。

技术介绍

1、光学字符识别(optical character recognition，ocr)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

2、现有的ocr识别方式为在key的附近位置基于设定阈值进行键值对匹配，但是，现有的文本识别方式容易出现键值对匹配错位的情况，从而导致文本识别错误。

技术实现思路

1、本专利技术的主要目的在于提供一种文本识别方法、装置、设备及存储介质，旨在解决现有的文本识别方式容易出现键值对匹配错位的情况，从而导致文本识别错误的技术问题。

2、为实现上述目的，本专利技术提供一种文本识别方法，所述文本识别方法包括：

3、对待识别图片进行文本识别，获得已识别文本；

4、对所述已识别文本进行键值分类，获得分类结果；

5、根据所述分类结果生成所述待识别图片的文本识别结果。

6、可选地，所述对所述已识别文本进行键值分类，获得分类结果，包括：

7、通过改进后bert模型对所述已识别文本进行键值分类，获得分类结果，所述改进后bert模型包括bert模型、bigru模型以及分类器。

8、可选地，所述通过改进后bert模型对所述已识别文本进行键值分类，获得分类结果，包括：

9、通过所述bert模型对所述已识别

10、通过所述bigru模型增强所述语义表示特征，获得增强后语义表示特征；

11、根据所述增强后语义表示特征通过所述分类器对所述已识别文本进行键值分类，获得分类结果。

12、可选地，所述根据所述分类结果生成所述待识别图片的文本识别结果，包括：

13、获取所述已识别文本的文本位置和文本内容；

14、根据所述文本位置和所述文本内容对所述分类结果中的值进行合并；

15、根据合并后分类结果生成所述待识别图片的文本识别结果。

16、可选地，所述根据所述文本位置和所述文本内容对所述分类结果中的值进行合并，包括：

17、根据所述文本位置对所述分类结果中的值进行位置排序，获得位置排序结果；

18、根据所述文本内容通过改进后n-gram语言模型对所述分类结果中的值进行语义排序，获得语义排序结果；

19、根据所述位置排序结果和所述语义排序结果对所述分类结果中的值进行合并。

20、可选地，所述根据所述分类结果生成所述待识别图片的文本识别结果，包括：

21、根据所述分类结果和缓存规则生成分别具有不同精度等级的缓存键的多个键值对结构化数据；

22、根据所述具有不同精度等级的缓存键的多个键值对结构化数据生成所述待识别图片的文本识别结果。

23、可选地，所述对待识别图片进行文本识别，获得已识别文本，包括：

24、通过yolo模型在待识别图片中进行键值对匹配；

25、根据匹配结果将所述待识别图片划分为待识别子图片；

26、通过改进后east模型对所述待识别子图片进行文本识别，获得已识别文本。

27、此外，为实现上述目的，本专利技术还提出一种文本识别装置，所述文本识别装置包括：

28、识别模块，用于对待识别图片进行文本识别，获得已识别文本；

29、分类模块，用于对所述已识别文本进行键值分类，获得分类结果；

30、生成模块，用于根据所述分类结果生成所述待识别图片的文本识别结果。

31、此外，为实现上述目的，本专利技术还提出一种文本识别设备，所述文本识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本识别程序，所述文本识别程序配置为实现如上文所述的文本识别方法。

32、此外，为实现上述目的，本专利技术还提出一种存储介质，所述存储介质上存储有文本识别程序，所述文本识别程序被处理器执行时实现如上文所述的文本识别方法。

33、在本专利技术中，公开了对待识别图片进行文本识别，获得已识别文本，对已识别文本进行键值分类，获得分类结果，根据分类结果生成待识别图片的文本识别结果；由于本专利技术在生成文本识别结果之前，还对已识别文本进行key和value的二分类，相较于现有的文本识别方式，本专利技术具备更强的泛化性能，从而能够避免出现键值对匹配错位的情况，进而能够提高文本识别的准确性。

本文档来自技高网...

【技术保护点】

1.一种文本识别方法，其特征在于，所述文本识别方法包括：

2.如权利要求1所述的文本识别方法，其特征在于，所述对所述已识别文本进行键值分类，获得分类结果，包括：

3.如权利要求2所述的文本识别方法，其特征在于，所述通过改进后BERT模型对所述已识别文本进行键值分类，获得分类结果，包括：

4.如权利要求1至3中任一项所述的文本识别方法，其特征在于，所述根据所述分类结果生成所述待识别图片的文本识别结果，包括：

5.如权利要求4所述的文本识别方法，其特征在于，所述根据所述文本位置和所述文本内容对所述分类结果中的值进行合并，包括：

6.如权利要求1至3中任一项所述的文本识别方法，其特征在于，所述根据所述分类结果生成所述待识别图片的文本识别结果，包括：

7.如权利要求1至3中任一项所述的文本识别方法，其特征在于，所述对待识别图片进行文本识别，获得已识别文本，包括：

8.一种文本识别装置，其特征在于，所述文本识别装置包括：

9.一种文本识别设备，其特征在于，所述文本识别设备包括：存储器、处理器及存

10.一种存储介质，其特征在于，所述存储介质上存储有文本识别程序，所述文本识别程序被处理器执行时实现如权利要求1至7中任一项所述的文本识别方法。

...

【技术特征摘要】

1.一种文本识别方法，其特征在于，所述文本识别方法包括：

2.如权利要求1所述的文本识别方法，其特征在于，所述对所述已识别文本进行键值分类，获得分类结果，包括：

3.如权利要求2所述的文本识别方法，其特征在于，所述通过改进后bert模型对所述已识别文本进行键值分类，获得分类结果，包括：

4.如权利要求1至3中任一项所述的文本识别方法，其特征在于，所述根据所述分类结果生成所述待识别图片的文本识别结果，包括：

5.如权利要求4所述的文本识别方法，其特征在于，所述根据所述文本位置和所述文本内容对所述分类结果中的值进行合并，包括：

6.如权利要求1至3中任一项所述的文本识别方法，其特征...

【专利技术属性】
技术研发人员：陈国，张春，李超，周庆达，李翠芳，钱丽丽，
申请(专利权)人：中移动信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人