一种基于车载视频的交通场景文字识别系统及识别方法技术方案

技术编号:18399522 阅读:48 留言:0更新日期:2018-07-08 19:49
本发明专利技术提出一种基于车载视频的交通场景文字识别系统及识别方法。该系统先对视频单帧图像进行预处理,搜索图像中的最稳定极值区域作为文字候选区,再用先验知识对候选区进行筛选,得到符合先验知识的候选区。对符合先验知识的候选区作笔画宽度变换,设定笔画宽度均值方差阈值,再过滤一些不符合笔画宽度特征的候选区域,最后用二分类器得到最终文字区域。得到文字区域后,使用投影法和连通域法将整个文字区域分割成单个文字,最后将单个文字送入训练好的CNN文字分类器进行文字识别。为了提高识别效率,下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测。该系统对交通场景文字的定位和识别精度高,对不同光照环境有较好的鲁棒性。

【技术实现步骤摘要】
一种基于车载视频的交通场景文字识别系统及识别方法
本专利技术属于模式识别与图像处理领域,涉及一种基于视频的交通场景文字识别系统及识别方法。
技术介绍
驾驶辅助系统是智能交通系统的重要组成部分,对于提高驾驶安全性有着重要作用。由行车记录仪拍摄的视频图像中通常含有语义信息,这些信息包含了路径提示、限速标识、避免疲劳驾驶提醒等信息,而这些信息为驾驶员对交通场景的认知起着重要作用。通过对行车记录仪视频中的文字进行自动识别,可以为驾驶员提取警示、提醒和导向标识,进行选择性的自动文字信息播报或存储,以便驾驶员提前做出路径选择,能够节省时间且提高安全性。交通场景文字识别的挑战主要来自于高度复杂的背景信息,复杂的背景如树叶、路灯和天桥等为文字定位带来了难度。此外,文字分辨率较低、字体形态各异、以及光照条件的变换都为文字识别增加了挑战难度。近年来,用于自然场景文字文本检测的方法主要两类,一类是基于滑动窗的方法,另一类是基于连通域的方法。基于滑动窗的方法首先在在不同尺度下滑动窗口提取特征,如边缘特征、局部二值特征和直方图特征等,然后用分类器对每个窗口进行文字检测,最后对文字进行分类,这类方法检测效率比较低,对于复杂场景文字识别效果较差。基于连通域方法主要是使用颜色、极值区域等连通域特征提取文字候选区域,再利用一些人为设定的规则或自动分类器对非文字区域进行过滤,该类方法对旋转、尺度变化和字体差异不敏感,为场景文字识别的主流方法。随着计算机图像处理能力的提高和计算机视觉技术的发展,基于视频的交通场景文字识别得以实现。以行车记录仪作为车载视频传感器,对交通场景文字进行识别,并对识别内容进行记录存储,不仅可以为驾驶员认知交通场景提供有用信息,还为场景信息事后查询提供记录和索引。
技术实现思路
本专利技术的目的是为了解决现有技术中对于交通场景文字的定位和识别精度不高,且不同光照环境下的鲁棒性差的缺陷,提供一种基于车载视频的交通场景文字识别系统及识别方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,其特征在于:包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;所述视频采集模块采集视频并将该视频信息发送给图像预处理模块;所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;所述MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;所述文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;所述CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。本专利技术还提供一种基于视频的交通场景文字识别方法,用于自动检测和识别车载视频中交通标志和广告文字,包括以下步骤:1)将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区;2)利用几何形状等先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;3)对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域;4)用一个级联文字非文字二分类器对候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域;5)对文字区域进行二值化,结合连通域法和投影法将文字区域分割为单个字;6)训练CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果;7)下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测,重复步骤二至步骤七识别当前帧文字。优选的,所述步骤1)中,首先读取车载视频中的关键帧,并将图像转换成灰度图;然后使用Retinex算法进行对比度增强处理;之后搜索预处理后图像的最稳定极值区域作为文字候选区;Retinex算法提升对比度步骤如下;将原始图像S(x,y)看成是光照图像L(x,y)和反射率图像R(x,y)的乘积,即S(x,y)=R(x,y)×L(x,y);将图像变换到对数域;s(x,y)=logS(x,y),l(x,y)=logL(x,y),r(x,y)=logR(x,y),s=r+l;Retinex理论假设图像的噪声来源于图像各个位置反射率不同,因此去除反射图像的噪声便可还原图像,反射分量噪声可通过归一化去除,r'(x,y)为归一化后的反射分量,r(x,y)为反射分量,max(r(x,y))为反射分量中的最大值,将去噪后的反射分量求指数反变换到实数域即得到增强后的图像;最稳定极值区域的提取方法如下;对一幅灰度图像取阈值进行二值化处理,阈值从0到255依次递增,在得到的所有二值图像中,图像中的变化很小,甚至没有变化的一些连通区域被称为最大稳定极值区域,连通区域变化的数学定义为:q(i)=|Qi+Δ-Qi-Δ|/|Qi|。优选的,所述步骤2)中,利用先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;先验知识包括:区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度;外接矩形为对该区域取最小外接矩形;区域面积即为该区域内像素点个数;区域矩形度即为区域面积与外接矩形面积之比,该值越接近1,该区域外形越接近矩形;外接矩形宽高比即外接矩形宽度与高度之比;对以上先验知识设定阈值,可以得到符合先验知识的文字候选区域。优选的,所述步骤3)中,笔画宽度计算过程如下:每一个候选区域都作为一幅图像进行笔画宽度特征提取,先使用Canny算子对图像进行边缘检测,得到每个边缘像素点的方向梯度值,设边缘像素点p方向梯度值为dp,从点p沿梯度方向dp出发寻找像素点q,该点方向梯度dq与dp大致相反若存在满足条件的点q,则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q,该路径舍弃;这样得到该图像的每一边缘像素点的笔画宽度值,从而计算出图像笔画宽度的标准差率;设定一个标准差率阈值,得到符合笔画宽度特征的文字候选区域。优选的,所述步骤4)中,级联的文字非文字二分类器的训练主要分成两步,弱分类器的训练和分类器级联;弱分类器的训练过程如下:对于每个特征计算所有训练样本的特征值,并将特征值排序;对顺序排列的每个元素计算四个指标,全部文字样本的权重和T0,全部非文字样本的权重和最小T0,在此元素前文字样本的权重和S0,在此元素前非文字样本的权重和S1;选取当前元素特征值和它前面一个特征值之间的一个值作为阈值,该阈值的分类误差为e=min(S1+(T0-S0),S0+(T1-S1));将误差最小的阈值作为最优阈值,得到弱分类器;将若干个弱分类器级联成强分类器过程如下:训练库样本数为N,其中本文档来自技高网
...

【技术保护点】
1.一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,其特征在于:包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;所述视频采集模块采集视频并将该视频信息发送给图像预处理模块;所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;所述MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;所述文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;所述CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。...

【技术特征摘要】
1.一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,其特征在于:包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;所述视频采集模块采集视频并将该视频信息发送给图像预处理模块;所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;所述MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;所述文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;所述CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。2.一种基于视频的交通场景文字识别系统的识别方法,其特征在于:包括以下步骤:1)图像预处理将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区;2)MSER检测利用几何形状等先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;3)候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域;4)级联分类器得到文字区域用一个级联文字非文字二分类器对符合笔画宽度特征的文字候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域;5)文字分割对文字区域进行二值化,结合连通域法和投影法将文字区域分割为单个字;6)CNN文字识别训练CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果;7)下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测,重复步骤二至步骤七识别当前帧文字。3.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤1)中,首先读取车载视频中的关键帧,并将图像转换成灰度图;然后使用Retinex算法进行对比度增强处理;之后搜索预处理后图像的最稳定极值区域作为文字候选区;Retinex算法提升对比度步骤如下;将原始图像S(x,y)看成是光照图像L(x,y)和反射率图像R(x,y)的乘积,即S(x,y)=R(x,y)×L(x,y);将图像变换到对数域;s(x,y)=logS(x,y),l(x,y)=logL(x,y),r(x,y)=logR(x,y),s=r+l;Retinex理论假设图像的噪声来源于图像各个位置反射率不同,因此去除反射图像的噪声便可还原图像,反射分量噪声可通过归一化去除,r'(x,y)为归一化后的反射分量,r(x,y)为反射分量,max(r(x,y))为反射分量中的最大值,将去噪后的反射分量求指数反变换到实数域即得到增强后的图像;最稳定极值区域的提取方法如下;对一幅灰度图像取阈值进行二值化处理,阈值从0到255依次递增,在得到的所有二值图像中,图像中的变化很小,甚至没有变化的一些连通区域被称为最大稳定极值区域,连通区域变化的数学定义为:q(i)=|Qi+Δ-Qi-Δ|/|Qi|。4.根据权利要求2所述的基于视频的交通场景文...

【专利技术属性】
技术研发人员:金东勇连捷肖文光陆迪胡进忠陈俊霞李艳华
申请(专利权)人:中国电子科技集团公司第三十八研究所
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1