System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及文本处理,尤其涉及一种文本对齐方法、装置、电子设备及存储介质。
技术介绍
1、基于计算机视觉技术可以实现识别图片文档中的文本信息并将其转换成对应的文本文档,目前已经被广泛应用于各种企业级和消费级应用场景中,可显著提升办公效率。
2、在实际应用中,由于图片文档本身是倾斜的,或者,由于识别图片文档过程中出现偏差等原因,会导致基于该图片文档转换的文本文档发生如图1所示的倾斜的情况,如此,将会影响后续对图片文档进行文本识别转换为文本文档的准确性,从而影响用户的使用体验。
技术实现思路
1、鉴于此,为避免基于图片文档转换的文本文档发生倾斜的情况,本专利技术实施例提供一种文本对齐方法、装置、电子设备及存储介质。
2、第一方面,本专利技术实施例提供一种文本对齐方法,包括:
3、确定目标文档包含的多个目标文本条,以及,确定每个所述目标文本条的对齐基准点,得到对齐基准点集合;
4、基于所述对齐基准点集合确定至少一条对齐线,以及,确定每条所述对齐线对应的目标文本条;
5、针对每条所述对齐线执行以下处理:根据所述对齐线,将所述对齐线对应的目标文本条进行对齐。
6、在一可能的实施方式中,所述确定每个所述目标文本条的对齐基准点,包括:
7、针对每个所述目标文本条执行以下处理:
8、确定所述目标文本条的文本框;
9、在所述目标文本条为行文本的情况下,将所述文本框的左侧顶点确定为所述目
10、在所述目标文本条为列文本的情况下,将所述文本框的上侧顶点确定为所述目标文本条的对齐基准点。
11、在一可能的实施方式中,所述基于所述对齐基准点集合确定至少一条对齐线,包括:
12、利用以下步骤执行迭代处理,直至满足设定的迭代停止条件:
13、分别连接当前的对齐基准点集合中每两个所述对齐基准点,得到每两个所述对齐基准点对应的候选直线;
14、从所述当前的对齐基准点集合中分别确定每条所述候选直线对应的参考对齐基准点,所述参考对齐基准点与对应的所述候选直线之间的距离小于所述候选直线对应的目标阈值;
15、基于每条所述候选直线对应的所述参考对齐基准点,从多条所述候选直线中确定一条候选直线作为对齐线;
16、将所述对齐线对应的所述参考对齐基准点从所述对齐基准点集合中删除;
17、所述迭代停止条件包括:所述对齐基准点集合中对齐基准点的数量小于第一预设值,或者,每条所述候选直线对应的所述参考对齐基准点的数量均为第二预设值。
18、在一可能的实施方式中,所述基于每条所述候选直线对应的所述参考对齐基准点,从多条所述候选直线中确定一条候选直线作为对齐线,包括:
19、确定每条所述候选直线对应的所述参考对齐基准点的数量;
20、将对应的所述数量最多的候选直线确定为所述对齐线。
21、在一可能的实施方式中,通过以下方式确定每条所述候选直线对应的所述目标阈值:
22、针对每条所述候选直线执行以下处理:
23、确定所述候选直线的倾斜角度;
24、以所述候选直线的倾斜角度为关键字查找预设的倾斜角度与距离阈值的对应关系;
25、将查找到的、与所述关键字对应的距离阈值确定为所述候选直线对应的目标阈值。
26、在一可能的实施方式中,所述确定每条所述对齐线对应的目标文本条,包括:
27、针对每条所述对齐线执行以下处理:
28、将所述对齐线对应的所述参考对齐基准点所对应的目标文本条,确定为所述对齐线对应的目标文本条。
29、在一可能的实施方式中,所述根据所述对齐线,将所述对齐线对应的目标文本条进行对齐,包括:
30、针对所述对齐线对应的每个所述目标文本条执行以下处理:
31、根据所述对齐线,确定所述目标文本条在文档页面上的目标位置;
32、按照所述对齐基准点与所述目标位置重合的策略,将所述目标文本条渲染于所述文档页面上。
33、在一可能的实施方式中,所述根据所述对齐线,确定所述目标文本条在文档页面上的目标位置,包括:
34、在所述目标文本条为行文本的情况下,确定所述对齐线对应的所有参考对齐基准点的最小横坐标值,并将所述最小横坐标值确定为目标横坐标值,以及,将所述目标文本条的对齐基准点的纵坐标值确定为目标纵坐标值,根据所述目标横坐标值和所述目标纵坐标值确定所述目标文本条在所述文档页面上的目标位置;
35、在所述目标文本条为列文本的情况下,确定所述对齐线对应的所有参考对齐基准点的最大纵坐标值,并将所述最大纵坐标值确定为目标纵坐标值,以及,将所述目标文本条的对齐基准点的横坐标值确定为目标横坐标值,根据所述目标横坐标值和所述目标纵坐标值确定所述目标文本条在所述文档页面上的目标位置。
36、在一可能的实施方式中,所述按照所述对齐基准点与所述目标位置重合的策略,将所述目标文本条渲染于所述文档页面上,包括:
37、确定所述对齐基准点在所述目标文档中的第一原始位置,以及,所述目标文本条在所述目标文档中的第二原始位置;
38、基于所述第一原始位置和所述第二原始位置,确定所述目标文本条与所述对齐基准点的相对位置;
39、基于所述目标位置和所述相对位置,确定所述目标文本条在所述文档页面上的渲染位置;
40、将所述目标文本条渲染于所述文档页面上的所述渲染位置处。
41、第二方面,本专利技术实施例提供一种文本对齐装置,包括:
42、第一确定模块,用于确定目标文档包含的多个目标文本条,以及,确定每个所述目标文本条的对齐基准点,得到对齐基准点集合;
43、第二确定模块,基于所述对齐基准点集合确定至少一条对齐线,以及,确定每条所述对齐线对应的目标文本条;
44、对齐模块,针对每条所述对齐线执行以下处理:根据所述对齐线,将所述对齐线对应的目标文本条进行对齐。
45、在一可能的实施方式中,所述第一确定模块,具体用于:
46、针对每个所述目标文本条执行以下处理:
47、确定所述目标文本条的文本框;
48、在所述目标文本条为行文本的情况下,将所述文本框的左侧顶点确定为所述目标文本条的对齐基准点;
49、在所述目标文本条为列文本的情况下,将所述文本框的上侧顶点确定为所述目标文本条的对齐基准点。
50、在一可能的实施方式中,所述第二确定模块,具体用于:
51、利用以下步骤执行迭代处理,直至满足设定的迭代停止条件:
52、分别连接当前的对齐基准点集合中每两个所述对齐基准点,得到每两个所述对齐基准点对应的候选直线;
53、从所述当前的对齐基准点集合中分别确定每条所述候选直线对应的参考对齐本文档来自技高网...
【技术保护点】
1.一种文本对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标文本条的对齐基准点,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述对齐基准点集合确定至少一条对齐线,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于每条所述候选直线对应的所述参考对齐基准点,从多条所述候选直线中确定一条候选直线作为对齐线,包括:
5.根据权利要求3所述的方法,其特征在于,通过以下方式确定每条所述候选直线对应的所述目标阈值:
6.根据权利要求3所述的方法,其特征在于,所述确定每条所述对齐线对应的目标文本条,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述对齐线,将所述对齐线对应的目标文本条进行对齐,包括:
8.根据权利要求7所述的方法,其特征在于,所述根据所述对齐线,确定所述目标文本条在文档页面上的目标位置,包括:
9.根据权利要求7所述的方法,其特征在于,所述按照所述对齐基准点与所述目标位置重合的策略,将所述目标文本条渲
10.一种文本对齐装置,其特征在于,包括:
...【技术特征摘要】
1.一种文本对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标文本条的对齐基准点,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述对齐基准点集合确定至少一条对齐线,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于每条所述候选直线对应的所述参考对齐基准点,从多条所述候选直线中确定一条候选直线作为对齐线,包括:
5.根据权利要求3所述的方法,其特征在于,通过以下方式确定每条所述候选直线对应的所述目标阈值:
【专利技术属性】
技术研发人员:季翔,
申请(专利权)人:武汉金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。