自然场景图像中手写体数学公式结构分析与识别方法技术

技术编号:12573832 阅读:171 留言:0更新日期:2015-12-23 14:34
一种自然场景图像中手写体数学公式结构分析与识别方法,包括:S1,将自然场景图像的灰度矩阵转换为局部对比度矩阵,使用otsu法对得到的局部对比度矩阵进行二值划分,得到二值矩阵;S2,对步骤S1中二值矩阵进行连通域分析,剔除非字符连通域,得到字符连通域;S3,采用相关系数法对S2中的字符连通域进行公式特殊结构元素检测,并对所有检测到的特殊结构元素进行单独标注;S4,采用水平投影法对S1中的二值矩阵进行行划分;S5:采用卷积神经网络对每个字符连通域进行识别;S6,定义输出顺序,将识别结果按照对应的顺序,以latex排版格式进行输出。该方法有效地解决OCR识别中初等数学公式的表示问题。

【技术实现步骤摘要】

本专利技术涉及图像处理与模式识别技术,特别是涉及自然场景图像中手写体数学公 式结构分析与识别的方法。
技术介绍
OCR (Optical Character Recognition,光学字符识别)技术有着广泛的应用,针 对中文和英文的OCR识别技术都比较成熟,但目前对于数学公式这种有复杂的结构的情 况,目前的OCR技术没有很好的支持,本专利技术着重解决这一有很强应用需求的问题。
技术实现思路
本专利技术提供的,可以有效地 解决OCR识别中初等数学公式的表示问题。 本专利技术的,包括: 步骤Sl :将自然场景图像的灰度矩阵转换为局部对比度矩阵,使用otsu(大津阈 值)法对得到的局部对比度矩阵进行二值划分,得到二值矩阵; 步骤S2 :对步骤Sl中二值矩阵进行连通域分析,剔除非字符连通域,得到字符连 通域; 步骤S3 :采用相关系数法对步骤S2中的字符连通域进行公式特殊结构元素检测, 并对所有检测到的特殊结构元素进行单独标注; 步骤S4 :采用水平投影法对步骤Sl中的二值矩阵进行行划分; 步骤S5 :采用卷积神经网络对每个字符连通域进行识别; 步骤S6 :定义输出顺序,将识别结果按照对应的顺序,以latex (基于T E X的排 版系统)排版格式进行输出。 优选的,所述局部对比度矩阵中坐标为(i,j)的点的局部对比度Con(i,j)计算公 式为: 其中, Inax(i,j)和I_(i,j)分别为图像的灰度矩阵中以坐标为(i,j)的点为中心的邻 域的最大灰度值和最小灰度值,此处我们设置邻域的半径为5 ;,Std表示灰度矩阵的标准差,γ = 1。ε为是防止分母为0的无穷小量。 优选的,使用Otsu法对得到的局部对比度矩阵进行二值划分的方法为:取局部对 比度矩阵中最大值和最小值,将最大值和最小值之间等分为η份小区间,将每个元素划分 到其对应的小区间中,形成直方图,在此直方图基础上进行Otsu划分,小于所选阈值的点 为背景点,大于所选阈值的点为字符点。 优选的,对步骤Sl中二值矩阵进行连通域分析,剔除非字符连通域,得到字符连 通域的方法为:: 步骤S201 :获取连通域的最小外包矩形,记录该最小外包矩形的四个顶点的坐 标,计算出最小外包矩形的长度和高度; 步骤202 :统计所有连通域的平均长度和高度; 步骤S203 :进行非字符连通域的剔除: 如果某个连通域的长度和高度均小于平均长度和高度的1/4,则认为它是噪声点, 剔除掉该连通域; 如果某个连通域的长度和高度均大于平均长度和高度的4倍,则认为它是图像中 的非字符部分,剔除掉该连通域; 步骤S204 :保存剩余连通域作为字符连通域。 优选的,步骤S3中所述公式特殊结构元素包括大括号、根号、分式线; 采用规则匹配法对分式线连通域进行检测:选择连通域的的长度与宽度之比大于 5且连通域的上部和下部需有相邻连通域的连通域,并将该连通域标识为分式线连通域; 采用模板匹配法对于大括号连通域和根号连通域进行检测: 步骤S301 :选择大括号连通域和根号连通域的标准二值模板; 步骤S302 :将当前连通域的大小进行规范化,使它的大小和标准模板一样; 步骤S303 :将标准二值模板分别与当前连通域进行匹配, 匹配的公式为相关系数公式,表示为: 其中,\和y j别表示当前模板和标准模板中第i个元素的值,^和f分别表示 当前模板和标准模板的均值;r e (〇, 1),当r值大于〇. 5时,匹配成功。 优选的,步骤S4中采用水平投影法对二值矩阵进行行划分的方法为: 对步骤Sl中的二值矩阵进行水平投影后得到波形图,波形图横坐标的值为原图 像的行数,纵坐标的值为当前行所包含的字符点的个数; 从波形图各个波峰处向其左右扩展,直到数值小于其波峰值的0. 1倍时,停止扩 展;若相邻两个波峰扩展时发生了重叠,则其对应的两行合并为一行; 记录每一行的起始和结束位置,波峰左端对应的横坐标即为当前行的起始行坐 标,波峰右端对应的横坐标为当前行的结束行坐标。 优选的,得到每一行的起始和结束位置信息后,将每一个字符连通域与行对应,具 体方法为: 计算每一字符连通域中心的水平坐标与各个文本行中心的水平坐标的距离,将字 符连通域划分到距离最小的那一行中。 优选的,步骤S4中的卷积神经网络的结构为Lenet-5结构,该卷积神经网络由一 个输入层、两个卷积和下采样层、一个全连接隐层和一个输出层组成; 所述卷积神经网络的训练数据为规范化后的字符连通域的样本; 将步骤S2中的字符连通域规范化后输入卷积神经网络,得到每一个字符连通域 对应的字符。 优选的,步骤S6定义的输出顺序包括三层: 第一层顺序关系是行序关系:根据字符连通域与行的对应关系,按行输出相应的 字符连通域; 第二层顺序关系是列序关系:在每一行内,所有字符连通域按照其左端列坐标进 行升序排序; 第三层顺序关系是公式特殊结构中的序列关系:方程组中元素是按照每一个方程 进行输出;分式元素是按照先分子、后分母的形式进行输出。 优选的,对于公式特殊结构中的序列关系,需要确定每一个公式特殊结构元素包 含的字符块; 对于大括号,代表的是方程组这个特殊结构,需要确定方程组结束的列坐标,从而 确定其包含的所有字符块;依据字符块所处当前行的位置,将其分为"上部、中部、下部"三 个部分,凡是位于上部和下部的字符块,都认为是方程组中的元素,找出所有这样的字符 块,以其中最右端的字符块的结束列作为整个方程组的结束列;凡是位于大括号和方程组 结束列的所有字符块,都划分到当前方程组结构中;对方程组结构内部再次进行行划分,确 定其内部含有几个方程,将方程组内部的字符块按照方程顺序进行输出; 对于分式线,需要确定当前分式所有分子和分母元素,凡是起始纵坐标大于分式 线起始纵坐标,且结束纵坐标小于分式线结束纵坐标的字符块,都被划分到当前分式结构 中;对分式结构中的字符块,需要进一步确定其是分子还是分母,确定方式根据字符块的横 坐标决定:若字符块底部横坐标若小于分式线中心横坐标,则其属于分子;若字符块顶部 横坐标大于分式线中心横坐标,则其属于分母; 对于根号,需要确定位于根号内部的字符块,凡是起始纵坐标大于根号起始纵坐 标,且结束纵坐标小于根号结束纵坐标的字符块,都被划分到当前根号结构中; 根据上述行序关系、列序关系以及公式特殊结构中的序列关系,确定最终公式结 构的输出,以latex(基于T E X的排版系统)排版格式进行输出。 本专利技术有效地解决了 OCR识别中初等数学公式的表示问题,实现了公式的准确识 别。【附图说明】 图1为本专利技术实施例提供的自然场景中手写体数学公式结构分析与识别方法的 流程图;[0当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种自然场景图像中手写体数学公式结构分析与识别方法,其特征在于,所述方法包括:步骤S1:将自然场景图像的灰度矩阵转换为局部对比度矩阵,使用otsu法对得到的局部对比度矩阵进行二值划分,得到二值矩阵;步骤S2:对步骤S1中二值矩阵进行连通域分析,剔除非字符连通域,得到字符连通域;步骤S3:采用相关系数法对步骤S2中的字符连通域进行公式特殊结构元素检测,并对所有检测到的特殊结构元素进行单独标注;步骤S4:采用水平投影法对步骤S1中的二值矩阵进行行划分;步骤S5:采用卷积神经网络对每个字符连通域进行识别;步骤S6:定义输出顺序,将识别结果按照对应的顺序,以latex排版格式进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈李江刘宁刘辉
申请(专利权)人:北京云江科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1