文本识别方法、装置、存储介质、计算机设备制造方法及图纸

技术编号：27687122 阅读：25 留言：0更新日期：2021-03-17 04:05

本发明专利技术提供的一种文本识别方法、装置、存储介质、计算机设备，在将待识别图像输入至识别模型中得到多个原始字符序列后，利用原始字符序列中识别概率第二的字符替换识别概率第一的字符，从而得到多个中间字符序列，若识别概率最大的原始字符序列为正确的，则中间字符序列中可能存在多种错误类型的序列；若识别概率最大的原始字符序列是错误的，则可以通过中间字符序列进行修正，然后将待修正的字符序列、中间字符序列以及识别概率最大的原始字符序列作为最终的识别结果序列，这样得到的识别结果序列中既包含了正确的序列，又包含了错误的序列，无论后续采取怎样的判题策略，都能够准确进行判题，且该识别过程较为简便，极大地提高了工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、存储介质、计算机设备
本专利技术涉及图像处理
，尤其涉及一种文本识别方法、装置、存储介质、计算机设备。
技术介绍
近几年随着AI技术的迅速发展，其在机器视觉、自然语言处理、音频处理等领域均取得了较大的成就。例如，在教育场景中，作业批改本身是一件繁琐而又十分重要的事情，深度学习的进步带来了OCR技术的变革，使得自动批改作业成为可能，从而解决了作业批改费时费力的问题，大大提高了作业批改的效率，将老师和家长从繁重的作业批改任务中解放出来。但是，由于学生笔迹的不同、拍照光线的影响、拍照设备的不同、题目种类繁多等原因，给文字识别带来种种困难，而作业批改是一种对识别精度要求很高的任务，因此文字识别的精度直接影响判题的准确性。现有技术中通过收集大量的样本来提升文字识别准确度，但是在作业批改这种复杂场景下纯粹依赖收集样本依然无法解决判题准确度的问题，而且样本的收集与标注比较耗费人力及成本。因此，在作业批改场景中通常借助OCR来识别多个结果，然后添加一些判题策略来提升判题的精度，例如，在作业批改场景中使用beamsearch(束搜索)对作业进行识别并输出，然后利用判题策略进行判题。但是，由于实际操作过程中算法存在一定的漏洞，beamsearch输出的前五结果中可能会存在错误类型比较单一的情况，比如候选结果中都是误识别或都是漏识别或都是多识别的情况，给后续的判题策略带来较大的挑战，影响判题准确度，另外beamsearch的工作效率也比较低。
技术实现思路
本专利技术的目的旨在至少能解...

【技术保护点】
1.一种文本识别方法，其特征在于，所述方法包括：/n将获取到的待识别图像输入到预先训练好的识别模型中，得到所述识别模型输出的多个原始字符序列，所述原始字符序列为依据所述待识别图像的每个字符在当前位置的识别概率进行排序后得到的不同位置处的字符集合；/n将识别概率最大的原始字符序列中各个位置处的字符逐一替换为识别概率第二的原始字符序列中相同位置处的字符，直到所有位置处的字符均替换完毕，得到与所述原始字符序列长度对应的多个中间字符序列；/n根据所述中间字符序列和所述识别概率最大的原始字符序列确定是否需要采取修正策略，若需要，则在所述中间字符序列中查找待修正的字符序列，并将所述待修正的字符序列、所述中间字符序列、所述识别概率最大的原始字符序列作为最终的识别结果序列。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：
将获取到的待识别图像输入到预先训练好的识别模型中，得到所述识别模型输出的多个原始字符序列，所述原始字符序列为依据所述待识别图像的每个字符在当前位置的识别概率进行排序后得到的不同位置处的字符集合；
将识别概率最大的原始字符序列中各个位置处的字符逐一替换为识别概率第二的原始字符序列中相同位置处的字符，直到所有位置处的字符均替换完毕，得到与所述原始字符序列长度对应的多个中间字符序列；
根据所述中间字符序列和所述识别概率最大的原始字符序列确定是否需要采取修正策略，若需要，则在所述中间字符序列中查找待修正的字符序列，并将所述待修正的字符序列、所述中间字符序列、所述识别概率最大的原始字符序列作为最终的识别结果序列。

2.根据权利要求1所述的文本识别方法，其特征在于，所述将识别概率最大的原始字符序列中各个位置处的字符逐一替换为识别概率第二的原始字符序列中相同位置处的字符的步骤之前，还包括：
获取未合并的识别概率最大的原始字符序列；
对所述识别概率最大的原始字符序列中的各个字符按照识别概率进行升序排序，得到升序后的原始字符序列。

3.根据权利要求2所述的文本识别方法，其特征在于，将识别概率最大的原始字符序列中各个位置处的字符逐一替换为识别概率第二的原始字符序列中相同位置处的字符，直到所有位置处的字符均替换完毕，得到与所述原始字符序列长度对应的多个中间字符序列的步骤，包括：
遍历所述升序后的原始字符序列，并将所述升序后的原始字符序列中当前位置处的字符替换为识别概率第二的原始字符序列中相同位置处的字符，将替换后的原始字符序列中重复的字符进行合并，得到对应的中间字符序列；
将所述升序后的原始字符序列中下一位置处的字符替换为识别概率第二的原始字符序列中相同位置处的字符，直到所有位置处的字符均替换完毕，得到与所述原始字符序列长度对应的多个中间字符序列。

4.根据权利要求1所述的文本识别方法，其特征在于，根据所述中间字符序列和所述识别概率最大的原始字符序列确定是否需要采取修正策略的步骤，包括：
将各个中间字符序列分别与所述识别概率最大的原始字符序列进行比对，确定所述中间字符序列或所述识别概率最大的原始字符序列中是否存在误识别、漏识别、多识别的字符序列中的至少一种，若有，则需要采取修正策略。

5.根据权利要求4所述的文本识别方法，其特征在于，若需要，则在所述中间字符序列中查找待修正的字符序列的步骤，包括：
若所述中间字符序列或所述识别概率最大的原始字符序列中存在误识别的字符序列，则遍历所述中间字符序列，依次查找所述中间字符序列中与所述识别概率...

【专利技术属性】
技术研发人员：兴百桥，刘涛，黄家冕，李保俊，曾鹏，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人