【技术实现步骤摘要】
一种基于文字识别的中文字段检测方法及系统
本专利技术涉及文字检测
,特别涉及一种基于文字识别的中文字段检测方法及系统。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)技术能够高速、准确地扫描文档,但传统的OCR方案是利用边缘检测技术获取文字框,再使用字体文件匹配的方式进行识别,只能识别分别率高且背景简单的图像,无法对复杂背景和带有环境噪音的文本进行识别。因此传统的图片预处理方式依赖于标准的图片数据。而新兴的OCR方案利用了深度学习的方法,通过Two-stage(定位字符串框、对框内文字识别)的识别方式进行。现有的自然场景下的定位方法有:CTPN(ConnectionistTextProposalNetwork,连接文本生成网络)的定位方法、基于Seglink的场景定向文字检测、EAST文本检测等。而定位框采用CTPN的定位方法,是无法进行斜字符串或者不规则字符串的定位;采用Seglink的定位方法需要给定每个字符的定位以及其倾斜角θ,对训练数据质量要求高;采用EAST的 ...
【技术保护点】
1.一种基于文字识别的中文字段检测方法,其特征在于,包括:/n识别预选区域中的文字区域;/n集合所述文字区域并计算相对距离矩阵;/n基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域;/n将所述字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;/n基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器,并通过softmax函数输出字符概率;/n将滑窗提取的所述字符放入训练后的所述单字符分类器中得到中文字段。/n
【技术特征摘要】
1.一种基于文字识别的中文字段检测方法,其特征在于,包括:
识别预选区域中的文字区域;
集合所述文字区域并计算相对距离矩阵;
基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域;
将所述字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;
基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器,并通过softmax函数输出字符概率;
将滑窗提取的所述字符放入训练后的所述单字符分类器中得到中文字段。
2.根据权利要求1所述的方法,其特征在于,所述识别预选区域中的文字区域包括:
基于ResNet(残差网络)骨架提取预选区域的特征;
利用全景FPN(特征金字塔网络)合并所述预选区域的深层特征和浅层特征;
基于RPN(区域生成网络)识别所述预选区域的文字区域。
3.根据权利要求2所述的方法,其特征在于,基于RPN(区域生成网络)识别所述预选区域的文字区域之后还包括:
通过NMS(非极大值抑制)筛选并去除重复的文字区域。
4.根据权利要求1所述的方法,其特征在于,所述识别预选区域中的文字区域还包括:
识别所述预选区域中的单个文字,并将所述单个文字加入至所述预测中文字段中。
5.根据权利要求1所述的方法,其特征在于,所述相对距离矩阵的计算公式如下:
其中,TL和BR分别表示一个所述文字区域的左上坐标点和右下坐标点;i和j分别表示第i个区域和第j个区域;x和y分别表示坐标点的x坐标值和y坐标值;表示在宽度方向上第i个区域和第j个区域之间的距离;表示在高度方向上第i个区域和第j个区域之间的距离;D(i,...
【专利技术属性】
技术研发人员:杨凯越,
申请(专利权)人:新分享科技服务深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。