文本识别方法、图像识别分类方法、文档识别处理方法技术

技术编号:26764546 阅读:55 留言:0更新日期:2020-12-18 23:40
本发明专利技术提供一种文本识别方法、图像识别分类方法、文档识别处理方法。在进行文本识别时,首先对文本图像中待识别文本中的文本行进行通用文本行框标注,再采用字符识别模型对各个文本行进行识别,得到待识别文本的初步识别结果,然后对初步识别结果进行语言类型的识别,根据识别出的语言类型调用相应的语言识别模型对该语言类型对应的字符部分进行进一步识别,得到优化后的字符识别结果。由于本实施例在得到待识别文本的初步识别结果之后,还根据其中涉及的语言类型采用单独的语言识别模型进行精准识别,从而提高了文本识别的准确度。

【技术实现步骤摘要】
文本识别方法、图像识别分类方法、文档识别处理方法
本专利技术涉及机器学习
,特别涉及一种文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在OCR识别时,通常可采用识别模型来识别文档中的字符,然而针对各种不同语言的文档无法使用同一个模型识别,需要知道文档是何种语言才能调用相应的识别模型,如果是混合语言的文档则更加难以识别,可见现有的OCR识别技术针对不同语言的文档存在文本识别准确率不高的问题。此外,还存在识别后的文档无法有效分类的问题,导致识别后的文档管理较为凌乱,而且不便于查找;由于待识别的文档存在曲线弧度等问题,导致识别后的排版出现与原文档不一致的情况,甚至出现乱码。
技术实现思路
本专利技术的目的在于提供一种文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质。具体技术方案如下:为达到上述目的,本专利技术提供一种文本识别方法,包括:识别文本图像中待识别文本中的文本行,并对每一所述文本行以通用文本行框进行标注;采用字符识别模型识别每一所述文本行中的字符,得到所述待识别文本的初步识别结果;采用语言分类模型对所述初步识别结果进行语言识别,获取所述初步识别结果中涉及的语言类型,并根据所述语言类型将所述初步识别结果划分为多个不同的字符部分;根据所述语言类型调用相应的语言识别模型,对相应的字符部分进行识别,得到所述待识别文本的目标识别结果。可选的,在上述文本识别方法中,还包括:识别文本图像中待识别文本的方向,若方向不符合预设条件,则对所述待识别文本的方向进行校正处理;其中,所述识别文本图像中的待识别文本的方向,包括:采用方向识别模型识别所述文本图像中的待识别文本的方向,所述方向识别模型为基于CNN的神经网络模型。可选的,在上述文本识别方法中,所述字符识别模型为基于CTC联结主义时间分类技术和Attention注意力机制的神经网络模型。可选的,在上述文本识别方法中,所述字符识别模型采用包含CJK字符集和ISO88591-16字符集的训练样本集训练得到。可选的,在上述文本识别方法中,所述语言分类模型为基于wiki数据集的fasttext<N-Gram>语言分类模型。基于同一专利技术构思,本专利技术还提供一种图像识别分类方法,包括:采用图像识别模型对待分类图像进行识别,识别出文本类图像或非文本类图像;采用如上文所述的文本识别方法对所述文本类图像或非文本类图像中的文本进行识别,得到所述文本类图像或非文本类图像的文本识别结果;根据所述文本识别结果确定关键词,根据所述关键词确定所述文本类图像的内容的第一细分类型或所述非文本类图像的内容的第二细分类型,并将所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像归类到所述第二细分类型对应的文件夹中。可选的,在上述图像识别分类方法中,在确定所述关键词之后,还包括:利用所述关键词对所述文本类图像或所述非文本类图像进行自动命名。可选的,在上述图像识别分类方法中,在识别出文本类图像或非文本类图像之后,还包括:将所述文本类图像归类到文本类图像文件夹中,将所述非文本类图像归类到非文本类图像文件夹中;相应的,所述将所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像归类到所述第二细分类型对应的文件夹中,包括:将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像文件夹中的所述非文本类图像归类到所述第二细分类型对应的文件夹中。可选的,在上述图像识别分类方法中,所述第一细分类型包括:笔记、证件、收据、截屏、文档、证书中的一种或多种。可选的,在上述图像识别分类方法中,对于识别出的所述非文本类图像,所述图像识别模型识别出所述非文本类图像中的内容;所述方法还包括:根据所述非文本类图像的内容确定所述第二细分类型,并将所述非文本类图像归类到所述第二细分类型对应的文件夹中。可选的,在上述图像识别分类方法中,在识别出所述非文本类图像中的内容之后,还包括:根据所述非文本类图像中的内容对所述非文本类图像进行自动命名。可选的,在上述图像识别分类方法中,在将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中之后,还包括:响应于用户输入搜索词的操作,搜索是否存在与所述搜索词相匹配的关键词,如果存在,则输出所述相匹配的关键词对应的文本类图像。可选的,在上述图像识别分类方法中,在将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中之后,还包括:响应于用户的打印操作,根据预先配置的一键导入功能,导入所述第一细分类型对应的文件夹中的所有文本类图像以便于打印。可选的,在上述图像识别分类方法中,在执行打印前,还包括:若导入的所有文本类图像中存在需要签名的文本类图像,则在所述需要签名的文本类图像中预设的签名区域进行签名;和/或,若导入的所有文本类图像中存在具有缺陷的文本类图像,则对具有缺陷的文本类图像进行滤镜处理。基于同一专利技术构思,本专利技术还提供一种文档识别处理方法,包括:获取输入图像,所述输入图像中包含待识别的原始文档;采用如上文所述的文本识别方法对所述输入图像中的所述原始文档进行识别,得到所述原始文档的字符识别结果;根据所述输入图像中所述原始文档的各个字符的位置信息,对所述原始文档的字符识别结果进行排布,得到识别文档。可选的,在上述文档识别处理方法中,根据所述输入图像中所述原始文档的各个字符的位置信息,对所述原始文档的字符识别结果进行排布,得到识别文档,包括:根据所述输入图像中所述原始文档的各个字符的位置信息,将所述原始文档的字符识别结果替换所述原始文档中的原始文本,得到识别文档。可选的,在上述文档识别处理方法中,在得到识别文档之后,还包括:将所述原始文档与所述识别文档进行对比,判断所述识别文档与所述原始文档是否存在区别点,如果存在则在所述识别文档中对所述区别点进行修正。可选的,在上述文档识别处理方法中,在对所述输入图像进行识别之前,还包括:采用校正模型识别所述输入图像中所述原始文档的曲线弧度,若所述曲线弧度满足预设的校正条件,则对所述输入图像中所述原始文档进行校正处理以去除所述原始文档的曲线弧度。可选的,在上述文档识别处理方法中,本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n识别文本图像中待识别文本中的文本行,并对每一所述文本行以通用文本行框进行标注;/n采用字符识别模型识别每一所述文本行中的字符,得到所述待识别文本的初步识别结果;/n采用语言分类模型对所述初步识别结果进行语言识别,获取所述初步识别结果中涉及的语言类型,并根据所述语言类型将所述初步识别结果划分为多个不同的字符部分;/n根据所述语言类型调用相应的语言识别模型,对相应的字符部分进行识别,得到所述待识别文本的目标识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
识别文本图像中待识别文本中的文本行,并对每一所述文本行以通用文本行框进行标注;
采用字符识别模型识别每一所述文本行中的字符,得到所述待识别文本的初步识别结果;
采用语言分类模型对所述初步识别结果进行语言识别,获取所述初步识别结果中涉及的语言类型,并根据所述语言类型将所述初步识别结果划分为多个不同的字符部分;
根据所述语言类型调用相应的语言识别模型,对相应的字符部分进行识别,得到所述待识别文本的目标识别结果。


2.如权利要求1所述的文本识别方法,其特征在于,还包括:识别文本图像中待识别文本的方向,若方向不符合预设条件,则对所述待识别文本的方向进行校正处理;
其中,所述识别文本图像中的待识别文本的方向,包括:
采用方向识别模型识别所述文本图像中的待识别文本的方向,所述方向识别模型为基于CNN的神经网络模型。


3.如权利要求1所述的文本识别方法,其特征在于,所述字符识别模型为基于CTC联结主义时间分类技术和Attention注意力机制的神经网络模型。


4.如权利要求1所述的文本识别方法,其特征在于,所述字符识别模型采用包含CJK字符集和ISO88591-16字符集的训练样本集训练得到。


5.如权利要求1所述的文本识别方法,其特征在于,所述语言分类模型为基于wiki数据集的fasttext<N-Gram>语言分类模型。


6.一种图像识别分类方法,其特征在于,包括:
采用图像识别模型对待分类图像进行识别,识别出文本类图像或非文本类图像;
采用如权利要求1-5任一项所述的文本识别方法对所述文本类图像或所述非文本类图像中的文本进行识别,得到所述文本类图像或所述非文本类图像的文本识别结果;
根据所述文本识别结果确定关键词,根据所述关键词确定所述文本类图像的内容的第一细分类型或所述非文本类图像的内容的第二细分类型,并将所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像归类到所述第二细分类型对应的文件夹中。


7.如权利要求6所述的图像识别分类方法,其特征在于,在确定所述关键词之后,还包括:
利用所述关键词对所述文本类图像或所述非文本类图像进行自动命名。


8.如权利要求6所述的图像识别分类方法,其特征在于,在识别出文本类图像或非文本类图像之后,还包括:
将所述文本类图像归类到文本类图像文件夹中,将所述非文本类图像归类到非文本类图像文件夹中;
相应的,所述将所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像归类到所述第二细分类型对应的文件夹中,包括:
将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中,将所述非文本类图像文件夹中的所述非文本类图像归类到所述第二细分类型对应的文件夹中。


9.如权利要求6所述的图像识别分类方法,其特征在于,所述第一细分类型包括:笔记、证件、收据、截屏、文档、证书中的一种或多种。


10.如权利要求6所述的图像识别分类方法,其特征在于,对于识别出的所述非文本类图像,所述图像识别模型识别出所述非文本类图像中的内容;
所述方法还包括:
根据所述非文本类图像的内容确定所述第二细分类型,并将所述非文本类图像归...

【专利技术属性】
技术研发人员:徐青松李青
申请(专利权)人:杭州睿琪软件有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1