System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像识别,特别涉及一种文字识别方法、装置、设备及可读存储介质。
技术介绍
1、对于建筑行业来说,图纸的导入和识别是其中较为关键一步,是后续整个建筑工程算量或者计价的基础。对于图纸的算量,例如需要计算表格中的图纸量、模型中的复核量,都是通过文字信息来计算的。所以图纸表格中的文字、截面中的文字信息等,都是必要的信息。目前,图纸存在dwg、cad、pdf等多种格式,当导入例如pdf等格式的矢量图纸时,图纸中的文字是被打散成线条和填充格式的,当用户点击文字位置时,显示的是线条的形式,不能获取文字的内容信息。在这种情况下,文字内容不可知,所有可用信息丢失,用户算量所需的文字、数字等信息都只能通过用户手动填写,整个过程较为繁琐、耗时较多、且效率低下。因此,如何识别矢量图纸中的文字信息成为了本领域技术人员亟需解决的技术问题。
技术实现思路
1、本专利技术的目的在于提供一种文字识别方法、装置、设备及可读存储介质,能够对目标文件中存在的由线条构成的文字进行快速、准确的位置定位及内容识别。
2、根据本专利技术的一个方面,提供了一种文字识别方法,所述方法包括:
3、获取待识别文件;其中,包含在所述待识别文件中的文字由线条构成;
4、从所述待识别文件中确定出样例文字,并计算出所述样例文字的文字样式特征信息;
5、根据所述文字样式特征信息,从所述待识别文件的待识别区域中识别出用于构成文字的文字线条;
6、根据所述文字样式特征信息,对得
7、从所述文字线条组中识别出文字识别结果。
8、可选的,所述从所述待识别文件中确定出样例文字,并计算出所述样例文字的文字样式特征信息,包括:
9、接收框选指令,并按照所述框选指令从所述待识别文件中框选出样例区域;其中,在所述样例区域内仅包含用于构成所述样例文字的线条;
10、对所述样例区域内的所有线条进行分析,以计算出所述样例文字的文字样式特征信息;
11、其中,所述文字样式特征信息至少包括以下之一:文字方向、文字高度、文字宽度、字间距、文字内容。
12、可选的,所述对所述样例区域内的所有线条进行分析,以计算出所述样例文字的文字样式特征信息,包括:
13、将所述样例区域中每个线条上的点分别向x轴和y轴上进行投影,若在x轴上的所有投影点是连续的,则所述文字方向为竖向文字,若在y轴上的所有投影点是连续的,则所述文字方向为横向文字;
14、当为竖向文字时,根据在x轴上的投影点确定出所述文字高度,并根据在y轴上的投影点确定出所述文字宽度和所述字间距;当为横向文字时,根据在x轴上的投影点确定出所述文字宽度和所述字间距,并根据在y轴上的投影点确定出所述文字高度;
15、将所述样例区域和所述文字方向输入预设的文字识别算法,以得到所述样例文字的文字内容。
16、可选的,所述根据所述文字样式特征信息,从所述待识别文件的待识别区域中识别出用于构成文字的文字线条,包括:
17、识别构成所述样例文字的各个线条的线条颜色,并将所述待识别区域中不属于所述线条颜色的线条删除;
18、将所述待识别区域中的不符合所述文字样式特征信息的非文字线条删除;
19、将所述待识别区域中的构成预设图案的线条删除;
20、将所述待识别区域中保留的所有线条设置为所述文字线条。
21、可选的,所述将所述待识别区域中的不符合所述文字样式特征信息的非文字线条删除,包括:
22、依次遍历所述待识别区域中的每个线条,并为当前遍历到的线条生成矩形外包围盒,若所述矩形外包围盒的高度和宽度中的最小值大于3倍的所述文字高度、或者所述矩形外包围盒的高度和宽度中的最小值小于预设阈值且最大值大于3倍的所述文字高度,则将当前遍历到的线条作为非文字线条并删除;
23、依次遍历所述待识别区域中的每个线条,若当前遍历到的线条为多段线条且多段线条的长度总和大于5倍的所述文字高度,则将当前遍历到的线条作为非文字线条并删除,或者,若当前遍历到的线条为单段线条且单段线条的长度大于2倍的所述文字高度,则将当前遍历到的线条作为非文字线条并删除。
24、可选的,所述根据所述文字样式特征信息,对得到的所有文字线条进行分组,以得到多个文字线条组,包括:
25、根据每个文字线条之间的相交位置关系,对所有文字线条进行聚类分组,以得到多个字符线条组;其中,一个字符线条组中的所有线条构成一个字符;
26、根据各个字符线条组之间的距离,将所有字符线条组划分为多个文字线条组;其中,一个文字线条组由一个或多个字符线条组组成。
27、可选的,所述从所述文字线条组中识别出文字识别结果,包括:
28、根据所述样例文字的文字内容,确定出所述样例文字的内容特征信息;
29、根据所述样例区域在所述待识别文件中的位置信息,确定出所述样例文字的位置特征信息;其中所述位置特征信息包括:位于所述待识别文件中的参照对象的位置信息,以及所述样例文字距离所述参照对象的距离值;
30、从所述待识别区域中识别出所有参照对象,并分别以每个参照对象为中心并以设定倍数的所述距离值为半径确定出对应的候选区域;
31、将存在于所述候选区域中的文字线条组设置为候选文字线条组;
32、分别根据每个候选文字线条组识别出对应的候选文字内容;
33、将符合所述内容特征信息的候选文字内容作为所述文字识别结果。
34、为了实现上述目的,本专利技术还提供一种文字识别装置,所述装置包括:
35、获取模块,用于获取待识别文件;其中,包含在所述待识别文件中的文字由线条构成;
36、计算模块,用于从所述待识别文件中确定出样例文字,并计算出所述样例文字的文字样式特征信息;
37、识别模块,用于根据所述文字样式特征信息,从所述待识别文件的待识别区域中识别出用于构成文字的文字线条;
38、分组模块,用于根据所述文字样式特征信息,对得到的所有文字线条进行分组,以得到多个文字线条组;
39、处理模块,用于从所述文字线条组中识别出文字识别结果。
40、为了实现上述目的,本专利技术还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的文字识别方法的步骤。
41、为了实现上述目的,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的文字识别方法的步骤。
42、本专利技术提供的文字识别方法、装置、设备及可读存储介质,事先通过用户框选出的样例文字确定出该样例文字的文字样式特征信息,以便后续根据该文字样式特征信息从用户确定出的待本文档来自技高网...
【技术保护点】
1.一种文字识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文字识别方法,其特征在于,所述从所述待识别文件中确定出样例文字,并计算出所述样例文字的文字样式特征信息,包括:
3.根据权利要求2所述的文字识别方法,其特征在于,所述对所述样例区域内的所有线条进行分析,以计算出所述样例文字的文字样式特征信息,包括:
4.根据权利要求2所述的文字识别方法,其特征在于,所述根据所述文字样式特征信息,从所述待识别文件的待识别区域中识别出用于构成文字的文字线条,包括:
5.根据权利要求4所述的文字识别方法,其特征在于,所述将所述待识别区域中的不符合所述文字样式特征信息的非文字线条删除,包括:
6.根据权利要求1所述的文字识别方法,其特征在于,所述根据所述文字样式特征信息,对得到的所有文字线条进行分组,以得到多个文字线条组,包括:
7.根据权利要求1所述的文字识别方法,其特征在于,所述从所述文字线条组中识别出文字识别结果,包括:
8.一种文字识别装置,其特征在于,所述装置包括:
9.一种计
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种文字识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文字识别方法,其特征在于,所述从所述待识别文件中确定出样例文字,并计算出所述样例文字的文字样式特征信息,包括:
3.根据权利要求2所述的文字识别方法,其特征在于,所述对所述样例区域内的所有线条进行分析,以计算出所述样例文字的文字样式特征信息,包括:
4.根据权利要求2所述的文字识别方法,其特征在于,所述根据所述文字样式特征信息,从所述待识别文件的待识别区域中识别出用于构成文字的文字线条,包括:
5.根据权利要求4所述的文字识别方法,其特征在于,所述将所述待识别区域中的不符合所述文字样式特征信息的非文字线条删除,包括:
6.根...
【专利技术属性】
技术研发人员:曾亚军,
申请(专利权)人:广联达科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。