语言图文识别系统及其实现方法技术方案

技术编号:21300253 阅读:32 留言:0更新日期:2019-06-12 08:06
本发明专利技术公开了一种语言图文识别系统,包括实体扫描装置,图像提取模块,边缘预识别模块,预分割模块,预标记模块,图片临时存储模块,亮度调节模块,OCR文字识别模块,文字临时存储模块,目标提取模块,图文重组模块,重组图文存储模块。本发明专利技术通过获取待分割图像的处理后的灰度图像,采用边缘检测算法,获取处理后的灰度图像中的边缘信息;根据边缘信息提取处理后的灰度图像中的初选目标;在灰度图像中提取初选目标所在的预设区域得到区域图像;对区域图像进行二值化处理得到二值图像;根据二值图像的初选目标,分别从初选目标中提取得到每个区域图像的目标。

Language Graphic and Text Recognition System and Its Implementation

The invention discloses a language image and text recognition system, which includes entity scanning device, image extraction module, edge pre-recognition module, pre-segmentation module, pre-labeling module, temporary image storage module, brightness adjustment module, OCR character recognition module, temporary text storage module, target extraction module, image and text reorganization module, and reorganized image and text storage module. The invention obtains the gray image processed by the image to be segmented, uses the edge detection algorithm to obtain the edge information of the gray image processed, extracts the primary target in the gray image processed according to the edge information, extracts the preset region of the primary target in the gray image to obtain the regional image, and binarizes the regional image to obtain the binary image. According to the primary target of binary image, the target of each region image is extracted from the primary target.

【技术实现步骤摘要】
语言图文识别系统及其实现方法
本专利技术涉及语言文化信息领域,具体地讲,是涉及一种语言图文识别系统。
技术介绍
随着政治、经济、文化形势的国际化发展,国际社会需要并朝着国家和地区的区域合作方向迈进,例如以亚欧非大陆及附近海洋的互联互通为基础的区域合作,建立和加强沿线各国互联互通伙伴关系,构建全方位、多层次、复合型的互联互通网络,实现沿线各国多元、自主、平衡、可持续的发展。区域合作沿线的国家和地区众多,多数国家和地区都拥有自己的语种和语言体系,随着区域合作的逐步推进,这些国家和地区需要进一步的促进经济、政治、文化的多方面深化发展,语言问题成为了影响各方面深入交流的最大阻碍,而且这些语言多为小语种,除当国当地的民众外,很少有其他人员会学习掌握这些语言。为了尽量减小语言问题对各方面合作推进的影响,申请人针对性地提出了一套多语言信息文化共享方案,通过搜集沿线各国语言文化信息,构建多语言文化数据库及数据共享系统,为广大民众提供相应的多语言文化信息内容的普及教育学习平台,促进区域合作的经济政治文化尤其是语言文化信息的发展。本申请作为系统前端处理部分,当存储系统获取到前端设备采集获取到的关于区域合作沿线的图像和文字信息资料后,对这些图文信息资料进行识别分类处理,以实现多语言信息采集后的图文信息处理归档,为后续的多语言学习系统提供基本数据材料。
技术实现思路
针对上述现有技术的不足,本专利技术提供一种语言图文识别系统。为了实现上述目的,本专利技术采用的技术方案如下:一种语言图文识别系统,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。进一步地,该语言图文识别系统,还包括用于对标记后的图片图像信息进行压缩处理的图片压缩模块,该图片压缩模块压缩处理后的图片图像信息存储于所述图片临时存储模块中。进一步地,该语言图文识别系统,还包括用于对标记后的图片图像信息进行灰度化的灰度处理模块,用于对灰度化后的图片图像信息进行轮廓图像检测的轮廓检测模块,用于对轮廓检测后的图像进行轮廓内外图像内容分割的轮廓分割模块,用于对轮廓分割后的轮廓内部图像进行检测并提取的细节图像提取模块,用于对所提取的轮廓图像和轮廓内部的细节图像进行组合的提取图像组合模块,用于对轮廓和轮廓内部细节图像组合后的图像进行识别的提取图像识别模块,以及用于将识别结果标注于预分割后的图片图像信息内的图像标注模块,其中,所述图像标注模块所标注的文字信息位于图片图像旁,并共同存储于所述图片临时存储模块中。并且,所述图像标注模块所标注的文字信息为汉字。基于上述系统构造,本专利技术还提供了上述语言图文识别系统的实现方法,包括如下步骤:(S01)通过实体扫描装置或图像提取模块获取原始图像;(S02)对原始图像进行边缘预识别,获取原始图像中所包含的各局部图像的边缘信息;(S03)根据所述边缘信息判断所述局部图像的边缘范围大小,将边缘范围超过一设定阈值的局部图像划分为图片图像,反之划分为局部文字图像,并将所述划分出的局部文字图像中相邻边缘间隔小于一设定阈值的文字图像组合为文字图像;(S04)识别图片图像与文字图像之间最靠近的边缘之间的间距,若该间距低于一设定阈值,则将该图片图像和文字图像判定为关联,标记相同的标记,反之则将该图片图像和文字图像判定为不关联,标记不同的标记;并对所述图片图像进行保存;(S05)单独提取所述文字图像,并调节其亮度,使该文字图像中的文字与背景之间的对比度大于一设定阈值;(S06)对调节亮度后的文字图像进行OCR识别,并以文本方式保存识别出的文字数据内容;(S07)将分别提取所保存的具有相同标记的图片图像和文字数据,并将其重组为图文图像,用以代替其所对应的原始图文图像。其中,将所述重组后的图文图像与其所对应的原始图文图像关联,存储于后台数据服务器中,并呈现该重组后的图文图像。进一步地,所述步骤(S04)中对所述图片图像保存前还判断该图片图像的尺寸大小,若其尺寸大小超过一设定阈值,则对该图片图像进行等比压缩,使其保存的尺寸大小不超过该设定阈值。进一步地,所述步骤(S04)中对所述图片图像保存前还对其进行识别处理,过程如下:(S10)对该图片图像进行灰度化处理,获得图片灰度图像;(S11)对该图片灰度图像进行轮廓检测,并以其轮廓为分界线将其划分为轮廓外区域和轮廓内区域;(S12)提取轮廓内区域进行细节图像检测,获取轮廓内区域的细节图像;(S13)将轮廓图像和所述细节图像组合为图片图像主体,并根据后台数据服务器中预存的图像数据进行对比识别;(S14)将识别后的文字信息标注在该图片图像主体旁进行保存。与现有技术相比,本专利技术具有以下有益效果:(1)本专利技术先对所获取的原始图像进行边缘预处理识别,划分出图片图像信息和文字图像信息并分别保存和处理,将文字图像识别替换为文字本文后再与图片图像信息重组结合,极大地方便了图文分类记录和保存,特别适合区域合作沿线多种语言文化信息资料的分类整理,为后续的图像辨别和文字翻译提供了良好的数据基础。(2)本专利技术还对所分割的图片图像进行识别处理,通过提取轮廓和轮廓内部的细节内容来判断识别其图片图像所表达的真实内容,并采用汉字进行标注,极大地方便了后续过程中对图片内容的对照和学习。附图说明图1为本专利技术的结构原理图。图2为本专利技术中图片图像处理部分的结构原理图。图3为本专利技术的流程示意图。图4为本专利技术中图片图像处理的流程示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明,本专利技术的实施方式包括但不限于下列实施例。实施例1如图1-2所示,该语言图文识别系统,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。进一步地,该语言图文识别系统,还包括用于对标记后的图片图像本文档来自技高网...

【技术保护点】
1.一种语言图文识别系统,其特征在于,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。

【技术特征摘要】
1.一种语言图文识别系统,其特征在于,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。2.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行压缩处理的图片压缩模块,该图片压缩模块压缩处理后的图片图像信息存储于所述图片临时存储模块中。3.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行灰度化的灰度处理模块,用于对灰度化后的图片图像信息进行轮廓图像检测的轮廓检测模块,用于对轮廓检测后的图像进行轮廓内外图像内容分割的轮廓分割模块,用于对轮廓分割后的轮廓内部图像进行检测并提取的细节图像提取模块,用于对所提取的轮廓图像和轮廓内部的细节图像进行组合的提取图像组合模块,用于对轮廓和轮廓内部细节图像组合后的图像进行识别的提取图像识别模块,以及用于将识别结果标注于预分割后的图片图像信息内的图像标注模块,其中,所述图像标注模块所标注的文字信息位于图片图像旁,并共同存储于所述图片临时存储模块中。4.根据权利要求3所述的语言图文识别系统,其特征在于,所述图像标注模块所标注的文字信息为汉字。5.如权利要求1~4任一项所述的语言图文识别系统的实现方法,其特征在于,包括如下步骤:(S01)通过实体扫描装置或图像提取模...

【专利技术属性】
技术研发人员:朱西平苏赋汪敏苟智坚韩斌李季郑达帅靖杨朋
申请(专利权)人:西南石油大学成都信息工程大学四川品亿科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1