文字识别方法、装置、设备、存储介质和智能词典笔制造方法及图纸

技术编号：30792785 阅读：11 留言：0更新日期：2021-11-16 07:56

本公开公开了一种文字识别方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别OCR等场景。具体实现方案为：获取针对文档连续扫描得到的多个图像序列；基于多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对多个识别结果进行去重处理，得到针对文档的文字识别结果。得到针对文档的文字识别结果。得到针对文档的文字识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法、装置、设备、存储介质和智能词典笔

[0001]本公开涉及人工智能
，具体为计算机视觉和深度学习
，可应用于光学字符识别(Optical Character Recognition，简称OCR)等场景。具体涉及一种文字识别方法、装置、设备、存储介质、智能词典笔和计算机程序产品。

技术介绍

[0002]近些年来，搭载着OCR功能的智能硬件产品在教育市场应运而生，比如智能词典笔、智能平板等。其中智能词典笔得到了各大企业的关注和布局，比如很多企业都已有自有品牌的智能词典笔。
[0003]搭载着OCR功能的智能硬件产品，通常需要具有文字唤醒功能和文字识别功能。并且，这种智能硬件产品通常具有基于高速相机捕捉的文字片段进行处理并展示对应原文、译文、以及相关搜索内容和推荐内容的基本功能。这些基本功能要求智能硬件产品能够在连续视频帧场景下对大量文字片段进行精准识别。

技术实现思路

[0004]本公开提供了一种文字识别方法、装置、设备、存储介质、智能词典笔和计算机程序产品。
[0005]根据本公开的一方面，提供了一种文字识别方法，包括：获取针对文档连续扫描得到的多个图像序列；基于所述多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于所述多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果。
[...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法，包括：获取针对文档连续扫描得到的多个图像序列；基于所述多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于所述多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果。2.根据权利要求1所述的方法，其中，基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，包括：对于两两连续拼接图像帧，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性；以及基于所述两帧图像中标注的各单字的重叠字属性，对由所述两帧图像得到的两个识别结果进行去重处理。3.根据权利要求2所述的方法，其中，基于所述两帧图像中标注的各单字的重叠字属性，对由所述两帧图像得到的两个识别结果进行去重处理，包括：对于所述两帧图像中具有相同重叠字属性的两个单字，在对所述两个识别结果进行去重处理过程中，保留所述两个单字中置信度高的单字识别结果。4.根据权利要求2或3所述的方法，其中，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，包括：自后往前遍历所述前帧拼接图像中各单字，并自前往后遍历所述后帧拼接图像中各单字，以标注两帧图像中各单字的重叠字属性；以及在本次遍历过程中，响应于针对所述前帧拼接图像遍历到首个不存在重叠字属性的单字，停止本次遍历。5.根据权利要求2或3所述的方法，其中，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，包括：对于所述前帧拼接图像中已标注有重叠字属性的至少一个单字，在本次遍历过程中跳过所述至少一个单字，并继续遍历其他尚未标注重叠字属性的单字。6.根据权利要求2所述的方法，其中，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，包括：遍历所述前帧拼接图像中各单字，以确定当前遍历到的目标单字的位置信息；基于单应矩阵和所述目标单字的位置信息，确定所述目标单字在所述后帧拼接图像中的预测位置信息；遍历所述后帧拼接图像中各单字，以确定所述目标单字在所述后帧拼接图像中的真实位置信息；以及响应于所述预测位置信息表征的区域和所述真实位置信息表征的区域是重叠区域，分别为所述前帧拼接图像和所述后帧拼接图像中的所述目标单字标注上对应的重叠字属性。7.一种文字识别装置，包括：图像获取模块，用于获取针对文档连续扫描得到的多个图像序列；图像拼接模块，用于基于所述多个图像序列进行图像拼接，得到对应的多个连续拼接
图像帧，其中，两两连续拼接图像帧之间存在重叠区域；...

【专利技术属性】
技术研发人员：刘珊珊，乔美娜，吴亮，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人