手写表识别方法和设备技术

技术编号:14335292 阅读:90 留言:0更新日期:2017-01-04 09:00
本发明专利技术涉及手写表识别方法和设备。该方法包括:检测表格线;确定相交的最长的垂直表格线和最长的水平表格线;计算恰好覆盖所有表格线的边界矩形;针对每个表格线,在边界矩形上延伸,得到对应的虚拟表格线;计算由虚拟表格线和表格线划分的框的中心点的位置;将各个中心点分为内部点和外部点,其中内部点是由表格线包围的中心点;将内部点分组,如果相邻内部点之间的路径未被表格线所阻挡,则所述内部点属于相同的组;将属于相同组的内部点所对应的框组合,形成为单元格;以及识别各个单元格内的手写内容。根据本发明专利技术实施例的手写表识别方法和设备,能够高效且高精确地对手写表进行识别。

【技术实现步骤摘要】

本专利技术涉及手写表识别技术,更具体地,涉及一种手写表识别方法和设备,能够高效且高精确地识别手写表并提取其中的内容。
技术介绍
随着信息技术的发展,电子设备(例如,个人数字助理、手持电脑、手机)等的使用在人们的生活中越来越普及。这些电子设备的输入方式大致可以划分为键盘输入和手写输入两大类。键盘输入方式采用电子设备上的键盘,使用者点击键盘中的各个按键进行输入。手写输入方式通过电子设备的触摸屏接收使用者的输入,对输入进行处理以识别用户输入的内容。这需要电子设备具有较高的识别能力,即对其识别的准确率提出了较高的要求。中国专利申请200710178961.1提出了一种手写表识别设备。该设备可以从输入内容中提取手写表。但是,该设备假定表的大小大于某个阈值,并且假定不存在不规则的表单元格。因此,现有技术的方法存在过多的参数限制,而这将严重影响所能够应用的场景。例如,多数现有方法根据特定的表格线的线宽度和线长度来提取表格线。此外,现有技术的方法无法识别不规则的单元格。这些方法仅能够处理形状规则的单元格。因此,需要一种能够高效且高精确地对手写表进行识别的机制。
技术实现思路
本公开提出了一种手写表识别方法和设备,能够高效且高精确地识别手写表并提取表中的内容。根据本专利技术的一个方面,提出了一种手写表识别方法,包括:检测表格线;计算恰好覆盖所有表格线的边界矩形;针对每个表格线,在边界矩形上延伸,得到对应的虚拟表格线;计算由虚拟表格线和表格线划分的框的中心点的位置;将各个中心点分为内部点和外部点,其中内部点是由表格线包围的中心点;将内部点分组,如果相邻内部点之间的路径未被表格线所阻挡,则所述内部点属于相同的组;将属于相同组的内部点所对应的框组合,形成为单元格;以及识别各个单元格内的手写内容。优选地,检测表格线包括:计算平均笔画的大小;将长度远大于平均笔画大小的笔画识别为表格线。优选地,检测表格线还包括:检测表格线在路径上是否存在拐点;以及将存在拐点的表格线在拐点处分割为单根表格线。优选地,计算恰好覆盖所有表格线的边界矩形包括:确定相交的最长的垂直表格线和最长的水平表格线;计算恰好覆盖相交的最长的垂直表格线和最长的水平表格线的边界矩形。优选地,如果两根表格线的顶端相距小于预定数目的像素,则认为两根表格线相交。优选地,将各个中心点分为内部点和外部点还包括:将与相邻外部点由虚拟表格线分隔的内部点改变为外部点;以及执行上述步骤,直到没有内部点被改变为外部点为止。根据本专利技术的第二方面,提供了一种手写表识别设备,包括:表格线检测模块,被配置为检测表格线;表格区域检测模块,被配置为计算恰好覆盖所有表格线的边界矩形;表结构识别模块,针对每个表格线,在表格区域检测模块所计算的边界矩形上延伸,得到对应的虚拟表格线;计算由虚拟表格线和表格线所划分的框的中心点的位置;将各个中心点分为内部点和外部点,其中内部点是由表格线包围的中心点;将内部点分组,如果相邻内部点之间的路径未被表格线所阻挡,则所述内部点属于相同的组;将属于相同组的内部点所对应的框组合,形成为单元格;以及表单元格内容提取模块,被配置为识别各个单元格内的手写内容。与现有技术不同,根据本专利技术实施例的手写表识别方法和设备在多个方面改善了手写表识别的性能,至少包括:1.即使在样本空间中存在不同大小的表,也可以检测这些不同大小的表;2.即使存在不规则的单元格,也能够正确地识别表的结构;3.对于表的方向和预先设置的阈值没有要求。例如,对于字符大小没有限制,而且也不需要关于阈值的先验知识。附图说明通过下面结合附图说明本专利技术的优选实施例,将使本专利技术的上述及其它目的、特征和优点更加清楚,其中:图1是示出了根据本专利技术实施例的手写表识别设备的示意框图。图2示出了一个示例的表,其中仅示出了表格线。图3示出了图2所示的表,其中示出了虚拟表格线。图4示出了图2所示的表的结构。图5示出了图2所示的表的中心点划分结果。图6示出了对图2所示的表的最终分析结果。图7示出了另一个示例的表的中心点的划分结果。图8示出了根据本专利技术实施例的手写表识别方法的流程图。具体实施方式以下参照附图,对本专利技术的示例实施例进行详细描述。在以下描述中,一些具体实施例仅用于描述目的,而不应该理解为对本专利技术有任何限制,而只是本专利技术的示例。在可能导致对本专利技术的理解造成混淆时,将省略常规结构或构造。图1是示出了根据本专利技术实施例的手写表识别设备100的示意框图。该手写表识别设备100包括:手写输入捕获模块110、表格线检测模块120、表格区域检测模块130、表结构识别模块140和表单元格内容提取模块150。手写输入捕获模块110用于捕获用户的手写输入内容。例如,在线数据捕获模块可以是手写表识别设备的触摸屏和处理器,用户利用手写笔或者手指直接在触摸屏上进行输入,处理器实时地记录用户输入的笔画。表格线检测模块120被配置为检测表格线。根据一个实施例,可以根据笔画的大小来识别表格线。例如,计算平均笔画大小。如果一些笔画的大小远大于平均笔画大小,则认为这些笔画是表格线。这是因为水平的表格线在水平方向上的长度至少大于一个笔画的长度,垂直的表格线在垂直方向上的长度至少大于一个笔画的长度。因此,通过比较笔画的大小/长度可以识别表格线。表格区域检测模块130被配置为检测表格区域,即,计算恰好覆盖表格线的边界矩形。在一个实施例中,根据检测的表格线的长度分别对水平的表格线和垂直的表格线进行排序。选择最长的垂直表格线和最长的水平表格线。检验最长的垂直表格线和最长的水平表格线之间是否相交。如果两者相交,则意味着存在一个表。计算恰好能够覆盖相交的最长的垂直表格线和最长的水平表格线的边界矩形,所得到的边界矩形即为表所存在的表格区域。表是由垂直相交的表格线限定的区域,因此,通过检测是否存在相交的表格线,可以确定是否存在表,以及通过检测最长的相交的表格线,可以确定表的区域。由于手写的随意性,两个表格线可能不会恰好相交。因此,根据一个实施例,如果两根表格线的顶端相距小于预定数目的像素,则认为两根表格线相交。例如,预定数目的像素可以是10个像素。此外,在本实施例中,所提到的“水平”和“垂直”也不必是完全的水平和垂直,而且检测到的表格线也不必是直线。实际中,用户手画的线不可能是完全的直线,也不可能是完全的水平和垂直。例如,可以认为在垂直的“10%”左右范围内的线均为垂直线,在水平的“15%”左右范围内的线均为水平线。在另一个实施例中,可以通过检测表格线的坐标,来检测表格区域。例如,检测位于最左和最右的表格线,作为表的水平范围,检测位于最上和最下的表格线,作为表的垂直范围,然后计算覆盖表的最上、最下、最左和最右的表格线的边界矩形,作为表的区域。表结构识别模块140被配置为识别表的结构。首先,针对所有的表格线L,在边界矩形上延伸,得到对应的虚拟表格线Lv。虚拟表格线Lv与其对应的表格线L具有相同的方向。例如,如果虚拟表格线是水平线,则其是在输入空间中从左到右的线。如果虚拟表格线是垂直线,则其是在输入空间中从上到下的线。图2示出了一个示例的表,其中粗线条表示检测到的表格线。图3示出了图2所示的表,其中示出了对应的虚拟表格线,其本文档来自技高网...
手写表识别方法和设备

【技术保护点】
一种手写表识别方法,包括:检测表格线;计算恰好覆盖所有表格线的边界矩形;针对每个表格线,在边界矩形上延伸,得到对应的虚拟表格线;计算由虚拟表格线和表格线划分的框的中心点的位置;将各个中心点分为内部点和外部点,其中内部点是由表格线包围的中心点;将内部点分组,如果相邻内部点之间的路径未被表格线所阻挡,则所述内部点属于相同的组;将属于相同组的内部点所对应的框组合,形成为单元格;以及识别各个单元格内的手写内容。

【技术特征摘要】
1.一种手写表识别方法,包括:检测表格线;计算恰好覆盖所有表格线的边界矩形;针对每个表格线,在边界矩形上延伸,得到对应的虚拟表格线;计算由虚拟表格线和表格线划分的框的中心点的位置;将各个中心点分为内部点和外部点,其中内部点是由表格线包围的中心点;将内部点分组,如果相邻内部点之间的路径未被表格线所阻挡,则所述内部点属于相同的组;将属于相同组的内部点所对应的框组合,形成为单元格;以及识别各个单元格内的手写内容。2.根据权利要求1所述的手写表识别方法,其中,检测表格线包括:计算平均笔画的大小;以及将长度远大于平均笔画大小的笔画识别为表格线。3.根据权利要求1或2所述的手写表识别方法,其中,检测表格线还包括:检测表格线在路径上是否存在拐点;以及将存在拐点的表格线在拐点处分割为单根表格线。4.根据权利要求1或2所述的手写表识别方法,其中,计算恰好覆盖所有表格线的边界矩形包括:确定相交的最长的垂直表格线和最长的水平表格线;计算恰好覆盖相交的最长的垂直表格线和最长的水平表格线的边界矩形。5.根据权利要求1或2所述的手写表识别方法,其中,如果两根表格线的顶端相距小于预定数目的像素,则认为两根表格线相交。6.根据权利要求1或2所述的手写表识别方法,其中,将各个中心点分为内部点和外部点还包括:将与相邻外部点由虚拟表格线分隔的内部点改变为外部点;以及执行上述步骤,直到没有内部点被改变为外部点为止。7.根据权利要求3所述的手写表识别方法,其中,所述方法应用于在线手写输入设备。8.一种手写表识别设备,包括:表格线检测模块,被配置为检测表格线;表格区域检测模块,被配置为计算恰好覆盖所有表...

【专利技术属性】
技术研发人员:张庆久乐宁
申请(专利权)人:夏普株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1