【技术实现步骤摘要】
扫描文字修正方法、装置、计算机设备和存储介质
本申请涉及扫描文字修正
,特别是涉及一种扫描文字修正方法、装置、计算机设备和存储介质。
技术介绍
随着数据技术的发展,越来越多的信息都通过网络处理和交互,因而对于纸质材料转换为电子格式的技术也层出不穷。传统地,终端多采用OCR(OpticalCharacterRecognition,光学字符识别)技术检查图片上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。然而,专利技术人意识到,终端在通过OCR技术识别图片中的文字时,可能因为采集图片的设备质量较差,如相机像素较低,或者采集环境的光线较弱等原因造成识别出的文字出现部分受损,导致文字识别不准确。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够修正扫描文件识别不准确的扫描文字修正方法、装置、计算机设备和存储介质。一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部 ...
【技术保护点】
1.一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;将所述待纠正部分替换为所述内容关键词。
【技术特征摘要】
1.一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;将所述待纠正部分替换为所述内容关键词。2.根据权利要求1所述的方法,其特征在于,所述将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,包括:将所述内容关键词进行拆分得到内容单字;将所述内容单字按照所述内容单字在所述内容关键词中的排列顺序输入训练好的错误联想词库模型中;将所述扫描文档输入所述错误联想词库模型中,根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分。3.根据所述权利要求2所述的方法,其特征在于,所述根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分,包括:根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序识别所述扫描文档中的错别字;将所述错别字输入所述错误联想词库模型得到所述错别字对应的备选字;将所述错别字替换为所述备选字,并将所述内容单字与所述备选字按照所述内容关键词中的排列顺序进行组合得到待检验关键词;判断所述待检验关键词与所述内容关键词是否一致;若一致,将所述待检验关键词作为待纠正部分。4.根据权利要求3所述的方法,其特征在于,所述判断所述待检验关键词与所述内容关键词是否一致之后,还包括:若不一致,生成错误信息;将所述错误信息发送至管理终端,并接收所述管理终端根据所述错误信息返回的更新指令;根据所述更新指令更新所述错误联想词库模型;将所述错别字输入更新后的所述错误联想词库模型得到所述错别字对应的备选字,继续所述将所述错别字替换为所述备选字,直至所述待检验关键词与所述内容关键词一致。5.根据权利要求1所述的方法,其特征在于,所述从所述扫描文档中识别出与所述内容关键词对应...
【专利技术属性】
技术研发人员:许剑勇,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。