The invention discloses a language image and text recognition system, which includes entity scanning device, image extraction module, edge pre-recognition module, pre-segmentation module, pre-labeling module, temporary image storage module, brightness adjustment module, OCR character recognition module, temporary text storage module, target extraction module, image and text reorganization module, and reorganized image and text storage module. The invention obtains the gray image processed by the image to be segmented, uses the edge detection algorithm to obtain the edge information of the gray image processed, extracts the primary target in the gray image processed according to the edge information, extracts the preset region of the primary target in the gray image to obtain the regional image, and binarizes the regional image to obtain the binary image. According to the primary target of binary image, the target of each region image is extracted from the primary target.
【技术实现步骤摘要】
语言图文识别系统及其实现方法
本专利技术涉及语言文化信息领域,具体地讲,是涉及一种语言图文识别系统。
技术介绍
随着政治、经济、文化形势的国际化发展,国际社会需要并朝着国家和地区的区域合作方向迈进,例如以亚欧非大陆及附近海洋的互联互通为基础的区域合作,建立和加强沿线各国互联互通伙伴关系,构建全方位、多层次、复合型的互联互通网络,实现沿线各国多元、自主、平衡、可持续的发展。区域合作沿线的国家和地区众多,多数国家和地区都拥有自己的语种和语言体系,随着区域合作的逐步推进,这些国家和地区需要进一步的促进经济、政治、文化的多方面深化发展,语言问题成为了影响各方面深入交流的最大阻碍,而且这些语言多为小语种,除当国当地的民众外,很少有其他人员会学习掌握这些语言。为了尽量减小语言问题对各方面合作推进的影响,申请人针对性地提出了一套多语言信息文化共享方案,通过搜集沿线各国语言文化信息,构建多语言文化数据库及数据共享系统,为广大民众提供相应的多语言文化信息内容的普及教育学习平台,促进区域合作的经济政治文化尤其是语言文化信息的发展。本申请作为系统前端处理部分,当存储系统获取到前端设备采集获取到的关于区域合作沿线的图像和文字信息资料后,对这些图文信息资料进行识别分类处理,以实现多语言信息采集后的图文信息处理归档,为后续的多语言学习系统提供基本数据材料。
技术实现思路
针对上述现有技术的不足,本专利技术提供一种语言图文识别系统。为了实现上述目的,本专利技术采用的技术方案如下:一种语言图文识别系统,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始 ...
【技术保护点】
1.一种语言图文识别系统,其特征在于,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。
【技术特征摘要】
1.一种语言图文识别系统,其特征在于,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。2.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行压缩处理的图片压缩模块,该图片压缩模块压缩处理后的图片图像信息存储于所述图片临时存储模块中。3.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行灰度化的灰度处理模块,用于对灰度化后的图片图像信息进行轮廓图像检测的轮廓检测模块,用于对轮廓检测后的图像进行轮廓内外图像内容分割的轮廓分割模块,用于对轮廓分割后的轮廓内部图像进行检测并提取的细节图像提取模块,用于对所提取的轮廓图像和轮廓内部的细节图像进行组合的提取图像组合模块,用于对轮廓和轮廓内部细节图像组合后的图像进行识别的提取图像识别模块,以及用于将识别结果标注于预分割后的图片图像信息内的图像标注模块,其中,所述图像标注模块所标注的文字信息位于图片图像旁,并共同存储于所述图片临时存储模块中。4.根据权利要求3所述的语言图文识别系统,其特征在于,所述图像标注模块所标注的文字信息为汉字。5.如权利要求1~4任一项所述的语言图文识别系统的实现方法,其特征在于,包括如下步骤:(S01)通过实体扫描装置或图像提取模...
【专利技术属性】
技术研发人员:朱西平,苏赋,汪敏,苟智坚,韩斌,李季,郑达,帅靖,杨朋,
申请(专利权)人:西南石油大学,成都信息工程大学,四川品亿科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。