一种低资源语种与通用语种的字典词条提取及识别方法技术

技术编号：25600182 阅读：47 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种低资源语种与通用语种的字典词条提取及识别方法，在完成训练基础网络模型之后，包括以下步骤：首先对输入的字典图像进行几何校正和二值化等预处理；检测字典分栏情况，字典被分为两栏或多栏，将文本框间小于一定阈值T的框选为统一栏；在每一栏中进行图像词条切割；将切割获得的目标词条图像传入文本识别模块。本发明专利技术一种低资源语种与通用语种的字典词条提取及识别方法，通过先对输入的字典图像进行预处理矫正，再对输入的字典图像进行文本检测，然后再对字典进行分栏检测，将切割获得的词条文本图像传入文本识别模块，最后对识别结果按语料库格式规范化并自动导入指定语料库，极大提高字典词条导入语料库的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种低资源语种与通用语种的字典词条提取及识别方法
本专利技术涉及一种字典词条提取及识别方法，具体为一种低资源语种与通用语种的字典词条提取及识别方法。
技术介绍
自然语言处理技术不断迭代更新，愈多小语种被圈入科研范围内，在国内机器学习热，潮盛行之下，愈加需要小语种与通用语种如中文等建立词条对应关系，进一一步丰富目标语言语料库，以便于后续进行自然语言处理，为运用多种深度学习模型夯实基础。目前现有市场，暂无针对小语种的字典词条提取与识别，自动化对接导入语料库的技术和工作。本专利技术拟希望开拓针对多种小语种字典词条识别与提取的工作方向，建立更为完善的小语种与中文、英文的词条对应关系，进一步推动针对小语种等多个语种的自然语言处理技术，进一步推动针对低资源语料的处理工作。目前现有市场，暂无针对排版多样化的字典词条提取与识别工具，并且无法做到规范化输出。本专利技术拟希望解决一项兼容问题，该问题是如何兼容不同词典的排版多样化；本专利技术将针对不同排版的字典提出一种灵活兼容的提取方法。目前现有市场，暂无针对字典词条提取及识别而开发对应的技术与产品，推而广之，目前在场景文本、光学字符识别技术方面逐步发展。己能对多数场景的文本、书籍文本、特定场景内容如身份证等进行识别，但目前的技术仅能对所摄图片的所有文字无排版的词条提取与识别的需求。因此我们对此做出改进，提出一种低资源语种与通用语种的字典词条提取及识别方法，并且能够对接深度学习训练的语料库，实现自动格式规范化导入。
技术实现思路
为解决现有技术...

【技术保护点】
1.一种低资源语种与通用语种的字典词条提取及识别方法，其特征在于，包括以下步骤：/nS1：首先检测输入图像是否需要进行预处理校正，若通过图像参数等鉴别方法读取为非灰度图像、非扫描图像时，则需要进行下一步骤S2，否则可直接跳过S2步骤；/nS2：对输入的字典图像进行预处理矫正，首先需要将输入图像进行边缘检测，将检测结果交由几何校正，以将实体字典边缘四角对齐到图像边缘四角；再使用文本方向检测网络VGG16，通过训练0、90、180、270度检测的分类模型，实现对不同方向偏转的图像分类，完成文本朝向修正；最后通过灰度化及二值化增强提升文字辨识度，去噪以减少对后续步骤的干扰影响，完成对输入图像的预处理校正；/nS3：针对不同的字典语种需求，训练所需要的文本检测模块，输入相应的语料数据集，进行文本检测网络模型的训练，借助Adaboost集成迭代算法，以实现对不同语种的文字检测功能；该步骤针对每一词典只需执行一次，可跳过无需重复执行；/nS4：对输入的字典图像进行文本检测，以改进的Adaboost为核心分类器，嵌入并同时进行三种文本检测网络：采用基于回归的方法的EAST文本检测网络、采用由Fast...

【技术特征摘要】
1.一种低资源语种与通用语种的字典词条提取及识别方法，其特征在于，包括以下步骤：
S1：首先检测输入图像是否需要进行预处理校正，若通过图像参数等鉴别方法读取为非灰度图像、非扫描图像时，则需要进行下一步骤S2，否则可直接跳过S2步骤；
S2：对输入的字典图像进行预处理矫正，首先需要将输入图像进行边缘检测，将检测结果交由几何校正，以将实体字典边缘四角对齐到图像边缘四角；再使用文本方向检测网络VGG16，通过训练0、90、180、270度检测的分类模型，实现对不同方向偏转的图像分类，完成文本朝向修正；最后通过灰度化及二值化增强提升文字辨识度，去噪以减少对后续步骤的干扰影响，完成对输入图像的预处理校正；
S3：针对不同的字典语种需求，训练所需要的文本检测模块，输入相应的语料数据集，进行文本检测网络模型的训练，借助Adaboost集成迭代算法，以实现对不同语种的文字检测功能；该步骤针对每一词典只需执行一次，可跳过无需重复执行；
S4：对输入的字典图像进行文本检测，以改进的Adaboost为核心分类器，嵌入并同时进行三种文本检测网络：采用基于回归的方法的EAST文本检测网络、采用由FastRCNN改进而来的基于部件或字符级检测的方法CTPN网络、采用基于分割的方法的PSENet网络进行实现；结合这三类基本网络类型，创新性地Adaboost使用对象从弱分类器中转移至文本检测网络中，可以更高精度地实现对字典印刷体图像的文本检测；
S5：字典通常被分为两栏或多栏，经过文本检测之后，需要进行进一步分块，以免提取文本时发生错行错栏，该方法拟使用聚类思想，将上一步骤获取的文本检测框的具体坐标信息，建立以图像左下角为原点的笛卡尔系，将文本框间小于一定阈值T的框不断聚类，最后聚合选为统一栏；
S6：对每一栏中通过获取每一文本检测框的坐标信息，对每一文本检测框计算其检测框左边缘至笛卡尔系纵轴的距离，当该距离小于或大于一定阈值时，实现对每一词条的图像裁切功能；
S7：针对不同的字典语种需求，训练所需要的文本识别模块，输入相应的语料数据集，进行CRNN网络、Tesseract和字符模板匹配模块的训练，借助Adaboost集成迭代算法，以实现对不同语种的文字识别功能，并且使用多个模块集成处理能使识别效果精度提高；该步骤针对每一词典只需执行一次，可跳过无需重复执行；
S8：将切割获得的目标词条图像传入文本识别模块；文本识别模块拟运用多个识别模型：采用CRNN文字识别网络、采用传统识别工具Tesseract、采用字符模板匹配模块进行实现；以置信度为输入传入改进Adaboost迭代算法中，创新性地Adaboost使用对象从弱分类器中转移至文本识别网络中，以进一步加强原算法的文本预测精度；
S9：将得到的识别结果，通过使用一定的自然语言处理方法以及正则表达式等方式，常用的自然语言处理方法有，如分词、机械压缩、符号半角全角统一等操作，实现对结果格式规范化，以实现能对接并导入指定的语料数据库系统中。

2.根据权利要求1所述的一种低资源语种与通用语种的字典词条提取及识别方法，其特征在于，所述步骤S2中若输入图像为扫描件，即可跳过该预处理步骤；若不为扫描件输入，将需要使用预处理操作，需应用边缘检测Canny算子方法、几何校正采用四点法的透视变换、灰度化及二值化增强等预处理操作。

3.根据权利要求1所述的一种低资源语种与通用语种的字典词条提取及识别方法，其特征在于，所述步骤S4中创新性地Adaboost对象从传统机器学习的弱分类器中转移至文本检测网络中；Adaboost本用于传统机器学习方法中的弱分类器的综合改进，将多个弱分类器组成在一起训练构成一个强分类器；借助该思想，创新性地将其应用于深度学习网络上，实现更好的检测效果；文本检测网络前期准备时，所需要达成的识别语种效果是非常灵活的，可以根据使用者所需要的语种，对文本检测网络训练相应的语种数...

【专利技术属性】
技术研发人员：颜学明，薛海威，蒋盛益，刘建明，
申请(专利权)人：广东外语外贸大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人