一种低资源语种与通用语种的字典词条提取及识别方法技术

技术编号:25600182 阅读:47 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种低资源语种与通用语种的字典词条提取及识别方法,在完成训练基础网络模型之后,包括以下步骤:首先对输入的字典图像进行几何校正和二值化等预处理;检测字典分栏情况,字典被分为两栏或多栏,将文本框间小于一定阈值T的框选为统一栏;在每一栏中进行图像词条切割;将切割获得的目标词条图像传入文本识别模块。本发明专利技术一种低资源语种与通用语种的字典词条提取及识别方法,通过先对输入的字典图像进行预处理矫正,再对输入的字典图像进行文本检测,然后再对字典进行分栏检测,将切割获得的词条文本图像传入文本识别模块,最后对识别结果按语料库格式规范化并自动导入指定语料库,极大提高字典词条导入语料库的效率。

【技术实现步骤摘要】
一种低资源语种与通用语种的字典词条提取及识别方法
本专利技术涉及一种字典词条提取及识别方法,具体为一种低资源语种与通用语种的字典词条提取及识别方法。
技术介绍
自然语言处理技术不断迭代更新,愈多小语种被圈入科研范围内,在国内机器学习热,潮盛行之下,愈加需要小语种与通用语种如中文等建立词条对应关系,进一一步丰富目标语言语料库,以便于后续进行自然语言处理,为运用多种深度学习模型夯实基础。目前现有市场,暂无针对小语种的字典词条提取与识别,自动化对接导入语料库的技术和工作。本专利技术拟希望开拓针对多种小语种字典词条识别与提取的工作方向,建立更为完善的小语种与中文、英文的词条对应关系,进一步推动针对小语种等多个语种的自然语言处理技术,进一步推动针对低资源语料的处理工作。目前现有市场,暂无针对排版多样化的字典词条提取与识别工具,并且无法做到规范化输出。本专利技术拟希望解决一项兼容问题,该问题是如何兼容不同词典的排版多样化;本专利技术将针对不同排版的字典提出一种灵活兼容的提取方法。目前现有市场,暂无针对字典词条提取及识别而开发对应的技术与产品,推而广之,目前在场景文本、光学字符识别技术方面逐步发展。己能对多数场景的文本、书籍文本、特定场景内容如身份证等进行识别,但目前的技术仅能对所摄图片的所有文字无排版的词条提取与识别的需求。因此我们对此做出改进,提出一种低资源语种与通用语种的字典词条提取及识别方法,并且能够对接深度学习训练的语料库,实现自动格式规范化导入。
技术实现思路
为解决现有技术存在的缺陷,本专利技术提供一种低资源语种与通用语种的字典词条提取及识别方法。为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术一种低资源语种与通用语种的字典词条提取及识别方法,包括以下步骤:S1:首先检测输入图像是否需要进行预处理校正,若通过图像参数等鉴别方法读取为非灰度图像、非扫描图像时,则需要进行下一步骤S2,否则可直接跳过S2步骤;S2:首先对输入的字典图像进行预处理矫正,首先需要将输入图像进行边缘检测,将检测结果交由几何校正,以将实体字典边缘四角对齐到图像边缘四角;再使用文本方向检测网络VGG16,通过训练0、90、180、270度检测的分类模型,实现对不同方向偏转的图像分类,完成文本朝向修正;最后通过灰度化及二值化增强提升文字辨识度,去噪以减少对后续步骤的干扰影响,完成对输入图像的预处理校正;S3:针对不同的字典语种需求,训练所需要的文本检测模块,输入相应的语料数据集,进行文本检测网络模型的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字检测功能;该步骤针对每一词典只需执行一次,可跳过无需重复执行;S4:对输入的字典图像进行文本检测,以改进的Adaboost为核心分类器,嵌入并同时进行三种文本检测网络:采用基于回归的方法的EAST文本检测网络、采用由FastRCNN改进而来的基于部件或字符级检测的方法CTPN网络、采用基于分割的方法的PSENet网络进行实现,创新性地Adaboost使用对象从弱分类器中转移至文本检测网络中,可以更高精度地实现对字典印刷体图像的文本检测;S5:字典通常被分为两栏或多栏,经过文本检测之后,需要进行进一步分块,以免提取文本时发生错行错栏,该方法拟使用聚类思想,将上一步骤获取的文本检测框的具体坐标信息,建立以图像左下角为原点的笛卡尔系,将文本框间小于一定阈值T的框不断聚类,最后聚合选为统一栏;S6:对每一栏中通过获取每一文本检测框的坐标信息,对每一文本检测框计算其检测框左边缘至笛卡尔系纵轴的距离,当该距离小于或大于一定阈值时,实现对每一词条的图像裁切功能;S7:针对不同的字典语种需求,训练所需要的文本识别模块,输入相应的语料数据集,进行CRNN网络、Tesseract和字符模板匹配模块的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字识别功能,并且使用多个模块集成处理能使识别效果精度提高;该步骤针对每一词典只需执行一次,可跳过无需重复执行;S8:将切割获得的目标词条图像传入文本识别模块。文本识别模块拟运用多个识别模型:采用CRNN文字识别网络、采用传统识别工具Tesseract、采用字符模板匹配模块进行实现;以置信度为输入传入改进Adaboost迭代算法中,创新性地Adaboost使用对象从弱分类器中转移至文本识别网络中,以进一步加强原算法的文本预测精度;S9:将得到的识别结果,通过使用一定的文本处理方法以及正则表达式等方式,实现对结果格式规范化,以实现能对接并导入指定的语料数据库系统中。作为本专利技术的一种优选技术方案,步骤S2中对输入图像进行Canny算子边缘检测、几何校正,将图像灰度化并设置阈值为0.9的二值化,使得字体更易检测与识别,以达到近似扫描件的效果。作为本专利技术的一种优选技术方案,步骤S2中若使用者输入的目标字典图像为扫描件,若扫描件的字迹清晰、文字方向正确,即可无需进行第一步的预处理操作,直接送入步骤S4中,进行文字检测;但若存在文本方向有误等问题,还需要进行预处理操作进行初始化。作为本专利技术的一种优选技术方案,步骤S4中文字检测模块在第一次使用前,使用者需要根据字典语料,训练所需要的语种文本检测网络,网络模型无需大幅变化,只需要更改输入的不同语种数据集,该网络能够灵活的接受各种语种数据集的输入进行训练,实现对不同语种的文本检测功能。作为本专利技术的一种优选技术方案,步骤S4中将赋予CTPN网络更大的权重,在三个网络投票结果中以CTPN网络为核心,EAST、PSENet为辅助,由于不同语种的字体形态不同,不同的文本检测网络效果差异较大,借助Adaboost集成迭代方法集成多个文本检测网络的结果以实现更高的文本检测精度。作为本专利技术的一种优选技术方案,步骤S5中的分栏功能,针对不同的字典排版,通常会被分为单栏、两栏、多栏,其中两栏字典最为常见;为了实现自动分栏,我们的算法能够自由的针对不同栏数的字典进行灵活分栏,通过文字检测后,建立笛卡尔系,计算其框间距,应用以空间距离为核方法的聚类算法,实现灵活分栏功能。作为本专利技术的一种优选技术方案,步骤S5中通过聚类方法进行自动分栏的算法功能,该算法为迭代算法,所用时长与文字检测框个数有关,我们将该自动化分栏的算法分解步骤如下五个步骤:(1)获取上一步骤获取的文本检测框的具体坐标信息,建立以图像左下角为原点的笛卡尔系;(2)计算文本检测框的距离;给定文本检测结果框样本集合M,M是2维实数向量空间R2中点的集合,其中存在M1,M2,.....,Mn∈M;对于M集合中每一个元素Mi=(X1,X2)T,X1和X2分别表示某文字检测框在笛卡尔系中的横纵坐标;若文本检测框样本元素Mi和Mj都属于该集合M,我们使用闵可夫斯基距离,该距离在本方法定义为:其中dij为任意两个文本检测框的拟用于分类的距离,本方法中使用参数p=2;(3)首先构造n个分栏,n为集合M的大小,每个栏中只包含一个文本本文档来自技高网...

【技术保护点】
1.一种低资源语种与通用语种的字典词条提取及识别方法,其特征在于,包括以下步骤:/nS1:首先检测输入图像是否需要进行预处理校正,若通过图像参数等鉴别方法读取为非灰度图像、非扫描图像时,则需要进行下一步骤S2,否则可直接跳过S2步骤;/nS2:对输入的字典图像进行预处理矫正,首先需要将输入图像进行边缘检测,将检测结果交由几何校正,以将实体字典边缘四角对齐到图像边缘四角;再使用文本方向检测网络VGG16,通过训练0、90、180、270度检测的分类模型,实现对不同方向偏转的图像分类,完成文本朝向修正;最后通过灰度化及二值化增强提升文字辨识度,去噪以减少对后续步骤的干扰影响,完成对输入图像的预处理校正;/nS3:针对不同的字典语种需求,训练所需要的文本检测模块,输入相应的语料数据集,进行文本检测网络模型的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字检测功能;该步骤针对每一词典只需执行一次,可跳过无需重复执行;/nS4:对输入的字典图像进行文本检测,以改进的Adaboost为核心分类器,嵌入并同时进行三种文本检测网络:采用基于回归的方法的EAST文本检测网络、采用由FastRCNN改进而来的基于部件或字符级检测的方法CTPN网络、采用基于分割的方法的PSENet网络进行实现;结合这三类基本网络类型,创新性地Adaboost使用对象从弱分类器中转移至文本检测网络中,可以更高精度地实现对字典印刷体图像的文本检测;/nS5:字典通常被分为两栏或多栏,经过文本检测之后,需要进行进一步分块,以免提取文本时发生错行错栏,该方法拟使用聚类思想,将上一步骤获取的文本检测框的具体坐标信息,建立以图像左下角为原点的笛卡尔系,将文本框间小于一定阈值T的框不断聚类,最后聚合选为统一栏;/nS6:对每一栏中通过获取每一文本检测框的坐标信息,对每一文本检测框计算其检测框左边缘至笛卡尔系纵轴的距离,当该距离小于或大于一定阈值时,实现对每一词条的图像裁切功能;/nS7:针对不同的字典语种需求,训练所需要的文本识别模块,输入相应的语料数据集,进行CRNN网络、Tesseract和字符模板匹配模块的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字识别功能,并且使用多个模块集成处理能使识别效果精度提高;该步骤针对每一词典只需执行一次,可跳过无需重复执行;/nS8:将切割获得的目标词条图像传入文本识别模块;文本识别模块拟运用多个识别模型:采用CRNN文字识别网络、采用传统识别工具Tesseract、采用字符模板匹配模块进行实现;以置信度为输入传入改进Adaboost迭代算法中,创新性地Adaboost使用对象从弱分类器中转移至文本识别网络中,以进一步加强原算法的文本预测精度;/nS9:将得到的识别结果,通过使用一定的自然语言处理方法以及正则表达式等方式,常用的自然语言处理方法有,如分词、机械压缩、符号半角全角统一等操作,实现对结果格式规范化,以实现能对接并导入指定的语料数据库系统中。/n...

【技术特征摘要】
1.一种低资源语种与通用语种的字典词条提取及识别方法,其特征在于,包括以下步骤:
S1:首先检测输入图像是否需要进行预处理校正,若通过图像参数等鉴别方法读取为非灰度图像、非扫描图像时,则需要进行下一步骤S2,否则可直接跳过S2步骤;
S2:对输入的字典图像进行预处理矫正,首先需要将输入图像进行边缘检测,将检测结果交由几何校正,以将实体字典边缘四角对齐到图像边缘四角;再使用文本方向检测网络VGG16,通过训练0、90、180、270度检测的分类模型,实现对不同方向偏转的图像分类,完成文本朝向修正;最后通过灰度化及二值化增强提升文字辨识度,去噪以减少对后续步骤的干扰影响,完成对输入图像的预处理校正;
S3:针对不同的字典语种需求,训练所需要的文本检测模块,输入相应的语料数据集,进行文本检测网络模型的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字检测功能;该步骤针对每一词典只需执行一次,可跳过无需重复执行;
S4:对输入的字典图像进行文本检测,以改进的Adaboost为核心分类器,嵌入并同时进行三种文本检测网络:采用基于回归的方法的EAST文本检测网络、采用由FastRCNN改进而来的基于部件或字符级检测的方法CTPN网络、采用基于分割的方法的PSENet网络进行实现;结合这三类基本网络类型,创新性地Adaboost使用对象从弱分类器中转移至文本检测网络中,可以更高精度地实现对字典印刷体图像的文本检测;
S5:字典通常被分为两栏或多栏,经过文本检测之后,需要进行进一步分块,以免提取文本时发生错行错栏,该方法拟使用聚类思想,将上一步骤获取的文本检测框的具体坐标信息,建立以图像左下角为原点的笛卡尔系,将文本框间小于一定阈值T的框不断聚类,最后聚合选为统一栏;
S6:对每一栏中通过获取每一文本检测框的坐标信息,对每一文本检测框计算其检测框左边缘至笛卡尔系纵轴的距离,当该距离小于或大于一定阈值时,实现对每一词条的图像裁切功能;
S7:针对不同的字典语种需求,训练所需要的文本识别模块,输入相应的语料数据集,进行CRNN网络、Tesseract和字符模板匹配模块的训练,借助Adaboost集成迭代算法,以实现对不同语种的文字识别功能,并且使用多个模块集成处理能使识别效果精度提高;该步骤针对每一词典只需执行一次,可跳过无需重复执行;
S8:将切割获得的目标词条图像传入文本识别模块;文本识别模块拟运用多个识别模型:采用CRNN文字识别网络、采用传统识别工具Tesseract、采用字符模板匹配模块进行实现;以置信度为输入传入改进Adaboost迭代算法中,创新性地Adaboost使用对象从弱分类器中转移至文本识别网络中,以进一步加强原算法的文本预测精度;
S9:将得到的识别结果,通过使用一定的自然语言处理方法以及正则表达式等方式,常用的自然语言处理方法有,如分词、机械压缩、符号半角全角统一等操作,实现对结果格式规范化,以实现能对接并导入指定的语料数据库系统中。


2.根据权利要求1所述的一种低资源语种与通用语种的字典词条提取及识别方法,其特征在于,所述步骤S2中若输入图像为扫描件,即可跳过该预处理步骤;若不为扫描件输入,将需要使用预处理操作,需应用边缘检测Canny算子方法、几何校正采用四点法的透视变换、灰度化及二值化增强等预处理操作。


3.根据权利要求1所述的一种低资源语种与通用语种的字典词条提取及识别方法,其特征在于,所述步骤S4中创新性地Adaboost对象从传统机器学习的弱分类器中转移至文本检测网络中;Adaboost本用于传统机器学习方法中的弱分类器的综合改进,将多个弱分类器组成在一起训练构成一个强分类器;借助该思想,创新性地将其应用于深度学习网络上,实现更好的检测效果;文本检测网络前期准备时,所需要达成的识别语种效果是非常灵活的,可以根据使用者所需要的语种,对文本检测网络训练相应的语种数...

【专利技术属性】
技术研发人员:颜学明薛海威蒋盛益刘建明
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1