The invention discloses a text recognition error correction method, device, device and computer readable storage medium. The method comprises reading the extension of the file to be corrected and determining the attribute of the file to be corrected according to the extension when receiving the file to be corrected, and judging whether the attribute of the file to be corrected is a read-only file if waiting. The attributes of error correction files are read-only files, so the attributes of the error correction files are converted to editable files; the keywords in the editable files are read to form keyword phrases, and the target file types of the editable files are determined according to the keyword phrases; the file types of the editable files and the default mapping of the error correction library are determined according to the keyword phrases. The projection relation determines the target error correction library corresponding to the target file type, and calls the target error correction library to correct the editable file. This scheme sets different error correction libraries according to different file types, and uses the target error correction libraries corresponding to file types to correct errors, which can make error correction more accurate and improve error correction efficiency.
【技术实现步骤摘要】
文字识别纠错方法、装置、设备及计算机可读存储介质
本专利技术主要涉及智能识别
,具体地说,涉及一种文字识别纠错方法、装置、设备及计算机可读存储介质。
技术介绍
目前很多场景需要将不可编辑文件(如PDF、图片)中的文字识别转换为可编辑文件,识别过程中对于相似的字可能难以区分而导致转换的文件中存在错别字,目前对转换后的错别字没有识别机制,也没有纠错机制;此外对于人工编辑文件中所存在的错别字,同样没有识别纠错机制,只能通过人工检查,费时费力。
技术实现思路
本专利技术的主要目的是提供一种文字识别纠错方法、装置、设备及计算机可读存储介质,旨在解决现有技术中对于文件中错别字没有识别纠错机制的问题。为实现上述目的,本专利技术提供一种文字识别纠错方法,所述文字识别纠错方法包括以下步骤:当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文 ...
【技术保护点】
1.一种文字识别纠错方法,其特征在于,所述文字识别纠错方法包括以下步骤:当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
【技术特征摘要】
1.一种文字识别纠错方法,其特征在于,所述文字识别纠错方法包括以下步骤:当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。2.如权利要求1所述的文字识别纠错方法,其特征在于,所述调用所述目标纠错库对所述可编辑文件纠错的步骤包括:识别所述可编辑文件中的至少一个语句,并检测识别出的所述各语句中的连接词,按照所述连接词将所述各语句划分为多个待识别词组;逐一将所述待识别词组与所述目标纠错库中各预设词组对比,判断所述目标纠错库中是否存在与所述待识别词组一致的预设词组;若所述目标纠错库中不存在与所述待识别词组一致的预设词组,则获取所述目标纠错库中与所述待识别词组相似度最高的目标预设词组,并将所述待识别词组替换为所述目标预设词组。3.如权利要求2所述的文字识别纠错方法,其特征在于,所述将所述待识别词组替换为所述目标预设词组的步骤包括:获取与当前待识别词组相邻的待识别词组,并将所述相邻的待识别词组与所述目标预设词组形成待识别语句,根据所述待识别语句判断所述目标预设词组与所述可编辑文件的语义情景匹配性;若所述目标预设词组与所述可编辑文件匹配,则将所述待识别词组替换为所述目标预设词组。4.如权利要求1所述的文字识别纠错方法,其特征在于,所述根据所述关键词组确定所述可编辑文件的目标文件类型的步骤包括:将所述关键词组和预设关键词组库对比,确定所述预设关键词组库中的目标关键词组,其中所述目标关键词组与所述关键词组的元素匹配率最高;根据所述预设关键词组库中关键词组与文件类型的映射关系,确定与所述目标关键词组对应的目标文件类型,将所述对应的目标文件类型确定为所述可编辑文件的目标文件类型。5.如权利要求1所述的文字识别纠错方法,其特征在于,所述对所述待纠错文件进行属性转换,生成可编辑文件的步骤包括:对...
【专利技术属性】
技术研发人员:张远,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。