一种端到端的不定长文字识别的方法和系统技术方案

技术编号:20364466 阅读:37 留言:0更新日期:2019-02-16 17:14
本发明专利技术公开了一种端到端的不定长文字识别的方法和系统,其特征在于,包括根据数据集中的图片以及文本字符标签,利用深度神经网络训练文本检测模型以及文本识别模型;通过文本检测模型,定位到图片中文本的位置;通过文本识别模型,识别文本的具体内容;将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置,达到实现识别一张图片中的文字并可以知道图片中文字所在的位置,能够应用到传统文字识别,证件识别等方向,大大提升文字录入的效率和准确性的效果。

【技术实现步骤摘要】
一种端到端的不定长文字识别的方法和系统
本专利技术涉及图像识别领域,特别是涉及一种端到端的不定长文字识别的方法及系统。
技术介绍
光学文字识别的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。早在60、70年代,世界各国就开始有OCR(OpticalCharacterRecognition,光学字符识别)的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。中国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段,不少研究单位相继推出了中文OCR产品.早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。1986年以后我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。其中以OCR为科技核心的云脉技术不断创新进取,研发了一系列OCR软件产品,并且运用在医院,学校,企业等各大市场。因此,需要一种能够高效准确的完成文字识别任务的方法和系统,以应用到传统文字识别,证件识别等方向。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足,提供一种端到端的不定长文字识别的方法及系统。为解决上述技术问题,本专利技术提供一种端到端的不定长文字识别的方法,其特征在于,包括根据数据集中的图片以及文本字符标签,利用深度神经网络训练文本检测模型以及文本识别模型;通过文本检测模型,定位到图片中文本的位置;通过文本识别模型,识别文本的具体内容;将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置,其更具体的步骤如下:步骤一:准备数据集,包括两部分数据集:文本检测数据集和文本识别数据集;对于文本检测数据集,对数据进行标注工作,尤其是标注文本所在位置;根据标注好文本位置的图片,再进行文本框的细化和分割;进行VOC格式化的工作,即将数据集准备成VOC格式的,主要包含以下几个文件夹:Annotations,存放xml文件,与JPEGImages中的图片一一对应;ImageSets,存放txt文件,txt文件中每一行包含一个图片的名称,末尾会加上±1表示正负样本;JPEGImages,存放源图片;SegmentationClass,存放分割后的图片;SegmentationObject,存放分割后的图片;对于文本识别数据集,准备定长定尺寸文本图片,并做文本图片的文字标签;步骤二:对于文本检测数据集,利用深度神经网络训练文本检测模型,并对文本检测模型进行评估及优化,具体是,对于每一张输入图片Image,输出为多组(xi,yi),其中(xi,yi)表示文本区域框的坐标位置,使得F(Image)={(x0,y0)...,(xi,yi),...}对文本检测模型进行测试,如果精度低于可用阈值Threshold(F),就优化文本检测数据集或文本检测模型,重新训练,直到文本检测模型可用;步骤三:对于文本识别数据集,利用深度神经网络训练文本识别模型,并对文本识别模型进行评估及优化,具体是,输入为图片路径Image_path和图片标签(训练集train_loader,测试集test_loader),输出为模型权重Weights;使得R(Image_path,train_loader,test_loader)=Weights.对文本识别模型进行测试,如果预测偏差高于可用阈值Threshold(R),就优化文本识别数据集或文本识别模型,重新训练,直到文本识别模型可用;步骤四:对于待识别的图片,调用文本检测模型,得到文本区域框的坐标,即调用F模型,得到{(x0,y0)...,(xi,yi),...},图片中的文本越多,输出的坐标也会越多;步骤五:基于步骤四得到的文字区域框,再通过调用文本识别模型进行文字识别,即调用R模型,得到识别结果。所述步骤一中,用于文本检测数据集的数据主要采用VOC2007数据集,采用5000张以上图片,并对图片中的文字进行了区域标注,即定宽16像素不定高的小文本框分割标注;文字标注以xml文件格式存储;文本识别数据集包括两部分:其中一部分是利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共300万张以上图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符;另外一部分是10万张图片,图像分辨率为280x32,涵盖了英文、数字共62个字符;这些数据集全部进行了文字信息标注,标注格式txt文件,内容为:image_name1C11C12...C1nimage_namemCm1Cm2...Cmn其中,image_name是图片名称,C11C12...C1n等等是图片中文字对应的5990个字符字典中的key(位置)。所述步骤二中的阈值Threshold(F)取值为95%。所述步骤三中的阈值Threshold(R)取值为95%。一种端到端的不定长文字识别系统,其特征在于:包括依次相连的数据源模块、模型训练模块和文本识别模块;所述数据源模块,用于训练文本检测模型和文本识别模型所需要准备的数据集,主要包括:通用文本图片(用于文本检测训练)、定长定尺寸文本图片(用于文本识别训练)和标注结果数据;所述模型训练模块,用于利用深度神经网络训练文本检测模型和文本识别模型,其中包括四个子模块:文本检测模型训练子模块、文本检测模型子模块、文本识别模型训练子模块和文本识别模型子模块;所述文本检测模型训练子模块,是根据通用文本图片以及标注了文本位置的数据集,利用深度神经网络训练文本检测模型;所述文本检测模型子模块,是对模型进行评估及优化,得到可用的文本检测模型;所述文本识别模型训练子模块,是根据定长定尺寸的文本图片,利用深度神经网络训练文本识别模型;所述文本识别模型子模块,是对模型进行评估及优化,得到可用的文本识别模型;所述文本识别模块,提供文字识别的接口,用于接收待识别的图片,通过调用模型最终返回图片上的文字信息;其中包括四个子模块:待识别图片接收子模块、文本检测子模块、文本识别子模块和识别信息返回子模块;所述待本文档来自技高网
...

【技术保护点】
1.一种端到端的不定长文字识别的方法,其特征在于,包括根据数据集中的图片以及文本字符标签,利用深度神经网络训练文本检测模型以及文本识别模型;通过文本检测模型,定位到图片中文本的位置;通过文本识别模型,识别文本的具体内容;将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置,其更具体的步骤如下:步骤一:准备数据集,包括两部分数据集:文本检测数据集和文本识别数据集;对于文本检测数据集,对数据进行标注工作,尤其是标注文本所在位置;根据标注好文本位置的图片,再进行文本框的细化和分割;进行VOC格式化的工作,即将数据集准备成VOC格式的,主要包含以下几个文件夹:Annotations,存放xml文件,与JPEGImages中的图片一一对应;ImageSets,存放txt文件,txt文件中每一行包含一个图片的名称,末尾会加上±1表示正负样本;JPEGImages,存放源图片;SegmentationClass,存放分割后的图片;5.SegmentationObject,存放分割后的图片;对于文本识别数据集,准备定长定尺寸文本图片,并做文本图片的文字标签;步骤二:对于文本检测数据集,利用深度神经网络训练文本检测模型,并对文本检测模型进行评估及优化,具体是,对于每一张输入图片Image,输出为多组(xi,yi),其中(xi,yi)表示文本区域框的坐标位置,使得F(Image)={(x0,y0)...,(xi,yi),...}对文本检测模型进行测试,如果精度低于可用阈值Threshold(F),就优化文本检测数据集或文本检测模型,重新训练,直到文本检测模型可用;步骤三:对于文本识别数据集,利用深度神经网络训练文本识别模型,并对文本识别模型进行评估及优化,具体是,输入为图片路径Image_path和图片标签(训练集train_loader,测试集test_loader),输出为模型权重Weights;使得R(Image_path,train_loader,test_loader)=Weights.对文本识别模型进行测试,如果预测偏差高于可用阈值Threshold(R),就优化文本识别数据集或文本识别模型,重新训练,直到文本识别模型可用;步骤四:对于待识别的图片,调用文本检测模型,得到文本区域框的坐标,即调用F模型,得到{(x0,y0)...,(xi,yi),...},图片中的文本越多,输出的坐标也会越多;步骤五:基于步骤四得到的文字区域框,再通过调用文本识别模型进行文字识别,即调用R模型,得到识别结果。...

【技术特征摘要】
1.一种端到端的不定长文字识别的方法,其特征在于,包括根据数据集中的图片以及文本字符标签,利用深度神经网络训练文本检测模型以及文本识别模型;通过文本检测模型,定位到图片中文本的位置;通过文本识别模型,识别文本的具体内容;将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置,其更具体的步骤如下:步骤一:准备数据集,包括两部分数据集:文本检测数据集和文本识别数据集;对于文本检测数据集,对数据进行标注工作,尤其是标注文本所在位置;根据标注好文本位置的图片,再进行文本框的细化和分割;进行VOC格式化的工作,即将数据集准备成VOC格式的,主要包含以下几个文件夹:Annotations,存放xml文件,与JPEGImages中的图片一一对应;ImageSets,存放txt文件,txt文件中每一行包含一个图片的名称,末尾会加上±1表示正负样本;JPEGImages,存放源图片;SegmentationClass,存放分割后的图片;5.SegmentationObject,存放分割后的图片;对于文本识别数据集,准备定长定尺寸文本图片,并做文本图片的文字标签;步骤二:对于文本检测数据集,利用深度神经网络训练文本检测模型,并对文本检测模型进行评估及优化,具体是,对于每一张输入图片Image,输出为多组(xi,yi),其中(xi,yi)表示文本区域框的坐标位置,使得F(Image)={(x0,y0)...,(xi,yi),...}对文本检测模型进行测试,如果精度低于可用阈值Threshold(F),就优化文本检测数据集或文本检测模型,重新训练,直到文本检测模型可用;步骤三:对于文本识别数据集,利用深度神经网络训练文本识别模型,并对文本识别模型进行评估及优化,具体是,输入为图片路径Image_path和图片标签(训练集train_loader,测试集test_loader),输出为模型权重Weights;使得R(Image_path,train_loader,test_loader)=Weights.对文本识别模型进行测试,如果预测偏差高于可用阈值Threshold(R),就优化文本识别数据集或文本识别模型,重新训练,直到文本识别模型可用;步骤四:对于待识别的图片,调用文本检测模型,得到文本区域框的坐标,即调用F模型,得到{(x0,y0)...,(xi,yi),...},图片中的文本越多,输出的坐标也会越多;步骤五:基于步骤四得到的文字区域框,再通过调用文本识别模型进行文字识别,即调用R模型,得到识别结果。2.如权利要求1所述的一种,其特征在于:所述...

【专利技术属性】
技术研发人员:吴苛房鹏展
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1