【技术实现步骤摘要】
图像识别数据纠错方法、装置、计算机设备和存储介质
本申请涉及人工智能
,特别是涉及一种图像识别数据纠错方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术的发展,深度学习发挥了越来越重要的作用,越来越多的人工领域被自动化取代。图像数据识别人工智能发展过程中的一项重要产物,对于图像数据,能够通过OCR(OpticalCharacterRecognition,光学字符识别)处理,识别出图像数据中的文字信息,但光学文字识别的处理过程会受到扫描效果、纸质文件本身的字体清晰度,文字的排列情况等外部因素的干扰,从而导致OCR的识别效果准确性较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够通过解决识别错误问题来提高识别准确性的图像识别数据纠错方法、装置、计算机设备和存储介质。一种图像识别数据纠错方法,方法包括:获取图像识别数据;提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据;获取图像识别数据对应的目标知识库,根据结构化 ...
【技术保护点】
1.一种图像识别数据纠错方法,其特征在于,所述方法包括:/n获取图像识别数据;/n提取所述图像识别数据中各字符的置信度,并获取所述图像识别数据对应的结构化的文本数据;/n获取所述图像识别数据对应的目标知识库,根据所述结构化的文本数据的对应字段在所述目标知识库中对应的参考数据,确定所述文本数据与所述参考数据的相异字符和编辑距离;/n根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理。/n
【技术特征摘要】
1.一种图像识别数据纠错方法,其特征在于,所述方法包括:
获取图像识别数据;
提取所述图像识别数据中各字符的置信度,并获取所述图像识别数据对应的结构化的文本数据;
获取所述图像识别数据对应的目标知识库,根据所述结构化的文本数据的对应字段在所述目标知识库中对应的参考数据,确定所述文本数据与所述参考数据的相异字符和编辑距离;
根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,所述获取所述图像识别数据对应的目标知识库包括:
识别所述图像识别数据对应文本数据中的目标标识字符;
根据预设的专用知识库携带的标识字符,通过模糊匹配得到与所述目标标识字符对应的专用知识库匹配结果;
若专用知识库匹配结果为存在匹配的专用知识库,则将匹配的专用知识库标记为目标知识库;
若专用知识库匹配结果为不存在匹配的专用知识库,则将预设的通用知识库标记为目标知识库。
3.根据权利要求1所述的方法,其特征在于,所述目标知识库为专用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理包括:
若所述编辑距离大于预设编辑距离阈值,将所述相异字符替换为所述专用知识库中对应的参考数据;
若所述编辑距离不大于预设编辑距离阈值且所述相异字符的置信度小于预设置信度阈值,将所述相异字符替换为所述专用知识库中的参考数据。
4.根据权利要求1所述的方法,其特征在于,所述目标知识库为专用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理之后,还包括:
获取所述图像识别数据中文本数据的总条目数量以及进行了纠错处理的纠错条目数量;
若所述纠错条目数量占所述总条目数量的比值大于预设纠错比率,舍弃纠错处理结果,并将所述图像识别数据对应的目标知识库由专用知识库替换为通用知识库。
5.根据权利要求1所述的方法,其特征在于,所述目标知识库为通用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理之前,还包括:
根据所述结构化的文本数据,确定字段构成的数据组;
对所述数据组中的字段进行纠错预处理,得到预处理数据,所述纠错预处理包括数据名称标准化、字段重划分以及噪音字符处理中的至少一种;
所述根据所述编辑距离以及所述相异字符的置信度,对所述...
【专利技术属性】
技术研发人员:王斌,康安,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。