一种端到端的不定长文字识别的方法和系统技术方案

技术编号：20364466 阅读：37 留言：0更新日期：2019-02-16 17:14

本发明专利技术公开了一种端到端的不定长文字识别的方法和系统，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，达到实现识别一张图片中的文字并可以知道图片中文字所在的位置，能够应用到传统文字识别，证件识别等方向，大大提升文字录入的效率和准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的不定长文字识别的方法和系统
本专利技术涉及图像识别领域，特别是涉及一种端到端的不定长文字识别的方法及系统。
技术介绍
光学文字识别的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。早在60、70年代，世界各国就开始有OCR(OpticalCharacterRecognition，光学字符识别)的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年汉字识别的研究进入一个实质性的阶段，不少研究单位相继推出了中文OCR产品.早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。1986年以后我国的O...

【技术保护点】
1.一种端到端的不定长文字识别的方法，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，其更具体的步骤如下：步骤一：准备数据集，包括两部分数据集：文本检测数据集和文本识别数据集；对于文本检测数据集，对数据进行标注工作，尤其是标注文本所在位置；根据标注好文本位置的图片，再进行文本框的细化和分割；进行VOC格式化的工作，即将数据集准备成VOC格式的，主要包含以下几个文件夹:Annotations,存放xml文件，与JPEGImages中的图片一一对应；ImageSets，存放txt文件，txt文件中每一行包含一个图片的名称，末尾会加上±1表示正负样本；JPEGImages，存放源图片；SegmentationClass，存放分割后的图片；5.SegmentationObject，存放分割后的图片；对于文本识别数据集，准备定长定尺寸文本图片，并做文本图片的文字标签；步骤二：对于文本检测数据集，利...

【技术特征摘要】
1.一种端到端的不定长文字识别的方法，其特征在于，包括根据数据集中的图片以及文本字符标签，利用深度神经网络训练文本检测模型以及文本识别模型；通过文本检测模型，定位到图片中文本的位置；通过文本识别模型，识别文本的具体内容；将两个模型结合起来实现识别图片中的文字并定位图片中的文字所在的位置，其更具体的步骤如下：步骤一：准备数据集，包括两部分数据集：文本检测数据集和文本识别数据集；对于文本检测数据集，对数据进行标注工作，尤其是标注文本所在位置；根据标注好文本位置的图片，再进行文本框的细化和分割；进行VOC格式化的工作，即将数据集准备成VOC格式的，主要包含以下几个文件夹:Annotations,存放xml文件，与JPEGImages中的图片一一对应；ImageSets，存放txt文件，txt文件中每一行包含一个图片的名称，末尾会加上±1表示正负样本；JPEGImages，存放源图片；SegmentationClass，存放分割后的图片；5.SegmentationObject，存放分割后的图片；对于文本识别数据集，准备定长定尺寸文本图片，并做文本图片的文字标签；步骤二：对于文本检测数据集，利用深度神经网络训练文本检测模型，并对文本检测模型进行评估及优化，具体是，对于每一张输入图片Image，输出为多组(xi,yi)，其中(xi,yi)表示文本区域框的坐标位置，使得F(Image)＝{(x0,y0)...，(xi,yi)，...}对文本检测模型进行测试，如果精度低于可用阈值Threshold(F)，就优化文本检测数据集或文本检测模型，重新训练，直到文本检测模型可用；步骤三：对于文本识别数据集，利用深度神经网络训练文本识别模型，并对文本识别模型进行评估及优化，具体是，输入为图片路径Image_path和图片标签(训练集train_loader，测试集test_loader)，输出为模型权重Weights；使得R(Image_path,train_loader,test_loader)＝Weights.对文本识别模型进行测试，如果预测偏差高于可用阈值Threshold(R)，就优化文本识别数据集或文本识别模型，重新训练，直到文本识别模型可用；步骤四：对于待识别的图片，调用文本检测模型，得到文本区域框的坐标，即调用F模型，得到{(x0,y0)...，(xi,yi)，...}，图片中的文本越多，输出的坐标也会越多；步骤五：基于步骤四得到的文字区域框，再通过调用文本识别模型进行文字识别，即调用R模型，得到识别结果。2.如权利要求1所述的一种，其特征在于：所述...

【专利技术属性】
技术研发人员：吴苛，房鹏展，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人