电子表格生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38027875 阅读:9 留言:0更新日期:2023-06-30 10:54
本申请提供了一种电子表格生成方法、装置、电子设备及可读存储介质,涉及机器学习领域,尤其涉及电子表格识别领域,该方法包括:对包括第一表格的图像进行识别,提取第一表格中的字符、每个字符对应的位置信息以及第一表格中的单元格对应的位置信息。对于每个字符,根据字符对应的位置信息以及第一表格中的多个单元格对应的位置信息,确定字符与第一表格中的单元格之间的归属关系。根据第一表格中的字符以及第一表格中的字符与第一表格中的单元格之间的归属关系,生成电子表格。本申请通过根据每个字符的位置信息以及每个单元格的位置信息,进行字符粒度的匹配,可以避免字符串与单元格匹配不准确的情况,有效提高识别准确率,减少出错概率。减少出错概率。减少出错概率。

【技术实现步骤摘要】
电子表格生成方法、装置、电子设备及可读存储介质


[0001]本申请涉及机器学习领域,尤其涉及一种电子表格生成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]表格是一种有效、直观、通用的信息呈现形式。随着电子化办公的广泛普及,电子表格在办公场景中应用十分广泛。在一些场景下,表格往往通过纸质载体、图片、电子幻灯片等形式展示,用户想要对表格编辑时,需要手动将表格信息输入至电子表格软件中,以使得表格中的信息可以被编辑。
[0003]为了更加方便的对展示出来的表格进行编辑,出现了一些通过终端对表格拍照,并从表格对应的图像中提取电子表格的方案。
[0004]但是上述方案在从表格对应的图像中提取电子表格时,存在准确率不高,实用性差的问题。

技术实现思路

[0005]本申请提供一种电子表格生成方法、装置、电子设备及可读存储介质,能够根据每个字符的位置信息以及每个单元格的位置信息,确定每个字符与单元格的归属关系,进而生成电子表格,改善了识别准确率不高,容易出错,实用性差的问题。
[0006]为达到上述目的,本申请采用如下技术方案:第一方面,提供了一种电子表格生成方法,包括:对包括第一表格的图像进行识别,提取第一表格中的字符、每个字符对应的位置信息以及第一表格中的单元格对应的位置信息。对于每个字符,根据字符对应的位置信息以及第一表格中的多个单元格对应的位置信息,确定字符与第一表格中的单元格之间的归属关系。根据第一表格中的字符以及第一表格中的字符与第一表格中的单元格之间的归属关系,生成电子表格。
[0007]在本申请的实施例中,电子表格生成方法可以应用于电子设备,如服务器、云端服务器、手机、平板电脑、笔记本电脑、个人计算机等。
[0008]在第一方面中,先对包括第一表格的图像进行识别,以获取每个字符的位置信息以及每个单元格的位置信息,进而根据每个字符的位置信息以及每个单元格的位置信息,进行字符粒度的匹配,得到每个字符与单元格的归属关系。最后,根据每个字符与单元格的归属关系以及字符生成电子表格。其中,根据每个字符的位置信息以及每个单元格的位置信息,进行字符粒度的匹配,得到每个字符与单元格的归属关系,可以避免字符串与单元格匹配不准确的情况,有效提高识别准确率,减少出错概率,具有较高的实用性。
[0009]一些可能的实施方式中,根据字符对应的位置信息以及第一表格中的多个单元格对应的位置信息,确定字符与第一表格中的单元格之间的归属关系,包括:对于每个字符,根据字符对应的位置信息以及第一表格中的多个单元格对应的位置信息,确定多个交并比,交并比为字符在第一表格中的覆盖区域与单元格在第一表格中
的覆盖区域的交集与并集的比值。确定字符归属于多个单元格中的目标单元格,字符与目标单元格对应的交并比符合第一预设条件。
[0010]其中,通过计算字符与每个单元格的交并比,可以更加准确地确定字符与单元格之间的归属关系,进而提高识别准确率。
[0011]一些可能的实施方式中,根据第一表格中的字符以及第一表格中的字符与第一表格中的单元格之间的归属关系,生成电子表格,包括:对于每个目标单元格,将归属于同一个目标单元格的字符根据字符对应的位置信息排序,得到排序后的归属于同一个目标单元格的字符。根据排序后的归属于同一个目标单元格的字符以及目标单元格对应的位置信息,生成电子表格。
[0012]其中,对于每个目标单元格对应的字符,根据字符的位置信息排序,在提高准确率的基础上,还可以兼容横排字符和竖排字符,增加电子表格生成方法的应用场景,提高实用性。
[0013]一些可能的实施方式中,根据每个字符对应的位置信息以及单元格对应的位置信息,确定第一表格中的字符与第一表格中的单元格之间的归属关系,包括:对于每个第一表格中的单元格,根据单元格对应的位置信息以及每个字符对应的位置信息,计算每个字符与单元格对应的多个交并比,交并比为字符在第一表格中的覆盖区域与单元格在第一表格中的覆盖区域的交集与并集的比值。确定单元格中包括目标字符,目标字符与目标单元格对应的交并比符合第一预设条件。
[0014]其中,通过计算字符与每个单元格的交并比,可以更加准确地确定单元格与字符之间的归属关系,进而提高识别准确率。
[0015]一些可能的实施方式中,根据第一表格中的字符以及第一表格中的字符与第一表格中的单元格之间的归属关系,生成电子表格,包括:对于每个单元格,将单元格包括的目标字符,根据字符对应的位置信息排序,得到排序后的目标字符。根据排序后的目标字符以及单元格对应的位置信息,生成电子表格。
[0016]其中,对于属于同一个单元格的目标字符,根据目标字符的位置信息排序,在提高准确率的基础上,还可以兼容横排字符和竖排字符,增加电子表格生成方法的应用场景,提高实用性。
[0017]一些可能的实施方式中,字符对应的位置信息包括字符的最小外接矩形顶点的坐标,单元格对应的位置信息包括单元格顶点的坐标。
[0018]一些可能的实施方式中,第一预设条件包括:符合第一预设条件的交并比大于第一阈值。或,符合第一预设条件的交并比是同一字符对应的多个交并比中最大的。
[0019]一些可能的实施方式中,当符合第一预设条件的交并比是同一字符对应的多个交并比中最大,且交并比数值小于第二阈值时,在生成电子表格之后,方法还包括:在电子表格中,对交并比对应的字符进行标记。
[0020]其中,当交并比最大且交并比小于第二阈值时,说明该字符的归属可能存在错误,在生成的电子表格中标记字符,可以方便用户检查、订正,提高用户的使用体验。
[0021]一些可能的实施方式中,在对包括第一表格的图像进行识别之前,该方法还包括:将接收到的目标图像分别输入第一模块、第二模块,第一模块、第二模块分别配置有第一算法,第一模块、第二模块并行运行。通过第一模块中的第一算法对目标图像进行处
理,得到包括第一表格的图像。通过第二模块中的第一算法对目标图像进行处理,得到包括第一表格的图像。
[0022]一些可能的实施方式中,第一模块配置有第二算法,提取第一表格中的字符、每个字符对应的位置信息,包括:将包括第一表格的图像输入第二算法。通过第二算法对包括第一表格的图像进行处理,得到第一表格中的字符、每个字符对应的位置信息。
[0023]一些可能的实施方式中,第二模块配置有第三算法,提取第一表格中单元格对应的位置信息,包括:将包括第一表格的图像输入第三算法。通过第三算法对包括第一表格的图像进行处理,得到第一表格中单元格对应的位置信息。
[0024]其中,第一模块和第二模块并行运行,可以减少电子表格生成的总时长,大幅提高生成效率。
[0025]一些可能的实施方式中,该方法还包括:通过第三算法对包括第一表格的图像进行处理,得到第一表格中单元格对应的相关信息,相关信息至少包括单元格的线条类型和填充类型中的一种。
[0026]一些可能的实施方式中,通过第三算法对包括第一表格的图像进行处理,得到第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成电子表格的方法,其特征在于,所述方法包括:对包括第一表格的图像进行识别,提取所述第一表格中的字符、每个所述字符对应的位置信息以及所述第一表格中的单元格对应的位置信息;对于每个字符,根据所述字符对应的位置信息以及所述第一表格中的多个单元格对应的位置信息,确定所述字符与所述第一表格中的单元格之间的归属关系;根据所述第一表格中的字符以及所述第一表格中的字符与所述第一表格中的单元格之间的归属关系,生成电子表格。2.根据权利要求1所述的方法,其特征在于,所述根据所述字符对应的位置信息以及所述第一表格中的多个单元格对应的位置信息,确定所述字符与所述第一表格中的单元格之间的归属关系,包括:对于每个字符,根据所述字符对应的位置信息以及所述第一表格中的多个单元格对应的位置信息,确定多个交并比,所述交并比为所述字符在所述第一表格中的覆盖区域与所述单元格在所述第一表格中的覆盖区域的交集与并集的比值;确定所述字符归属于所述多个单元格中的目标单元格,所述字符与所述目标单元格对应的交并比符合第一预设条件。3.根据权利要求2所述的方法,其特征在于,根据所述第一表格中的字符以及所述第一表格中的字符与所述第一表格中的单元格之间的归属关系,生成电子表格,包括:对于每个所述目标单元格,将归属于同一个所述目标单元格的字符根据所述字符对应的位置信息排序,得到排序后的归属于同一个所述目标单元格的字符;根据所述排序后的归属于同一个所述目标单元格的字符以及目标单元格对应的位置信息,生成电子表格。4.根据权利要求2

3中任一项所述的方法,其特征在于,所述字符对应的位置信息包括所述字符的最小外接矩形顶点的坐标,所述单元格对应的位置信息包括所述单元格顶点的坐标。5.根据权利要求2

3中任一项所述的方法,其特征在于,所述符合第一预设条件的交并比大于第一阈值;或,所述符合第一预设条件的交并比是同一字符对应的多个交并比中最大的。6.根据权利要求5所述的方法,其特征在于,当所述符合第一预设条件的交并比是同一字符对应的多个交并比中最大,且所述交并比数值小于第二阈值时,在所述生成电子表格之后,所述方法还包括:在所述电子表格中,对所述交并比对应的字符进行标记。7.根据权利要求1

3中任一项所述的方法,其特征在于,在对包括第一表格的图像进行识别之前,所述方法还包括:将接收到的目标图像分别输入第一模块、第二模块,所述第一模块、第二模块分别配置有第一算法,所述第一模块、第二模块并行运行;通过所述第一模块中的第一算法对所述目标图像进行处理,得到包括所述第一表格的图像;通过所述第二模块中的第一算...

【专利技术属性】
技术研发人员:刘嘉豪刘洋刘家铭
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1