System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本信息提取方法、装置、可读存储介质和计算机程序产品制造方法及图纸_技高网

文本信息提取方法、装置、可读存储介质和计算机程序产品制造方法及图纸

技术编号:40768062 阅读:3 留言:0更新日期:2024-03-25 20:17
本发明专利技术提出了一种文本信息提取方法、装置、可读存储介质和计算机程序产品,涉及文字识别技术领域。文本信息提取方法,包括:确定文本页面中的N个文本框,每个文本框中均包括至少一个文本字符,N为大于1的整数;获取N个文本框对应的合并参数阈值;在N个文本框中的相邻两个文本框的合并参数小于合并参数阈值的情况下,对相邻两个文本框进行合并处理;提取文本框中的文本字符,以得到目标文本信息。

【技术实现步骤摘要】

本专利技术涉及文字识别,具体而言,涉及一种文本信息提取方法、装置、可读存储介质和计算机程序产品


技术介绍

1、随着信息技术的进步,在许多场景下需要使用海量的文本信息。由于电子文档的格式多种多样,且部分电子文档的格式与机器视觉的匹配程度较低,难以直接被机器或程序直接使用,故需要对电子文档中的文本信息进行提取。

2、相关技术中,提取电子文档的中文本信息的提取工具,通常会将文本段落按照行或者字符为单位进行提取,容易造成文本内容的丢失。


技术实现思路

1、本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。

2、为此,本专利技术的第一个方面在于提出一种文本信息提取方法。

3、本专利技术的第二个方面在于提出一种文本信息提取装置。

4、本专利技术的第三个方面在于提出另一种文本信息提取装置。

5、本专利技术的第四个方面在于提出一种可读存储介质。

6、本专利技术的第五个方面在于提出一种计算机程序产品。

7、有鉴于此,根据本专利技术的第一个方面,提出了一种文本信息提取方法,包括:确定文本页面中的n个文本框,每个文本框中均包括至少一个文本字符,n为大于1的整数;获取n个文本框对应的合并参数阈值;在n个文本框中的相邻两个文本框的合并参数小于合并参数阈值的情况下,对相邻两个文本框进行合并处理;提取文本框中的文本字符,以得到目标文本信息。

8、在该技术方案中,文本页面为对不同格式的电子文档进行转换得到的页面,文本页面中包括大量文本信息。文本框基于文本页面中的段落自动标注的标注框,在文本页面中能够标注得到多个文本框。

9、在该技术方案中,合并参数阈值用于判断n个文本框中相邻两个文本框之间是否能够进行合并。在相邻两个文本框之间的合并参数小于合并参数阈值时,则确定两个文本框中的文本字符具有一定关联性,故将两个文本框进行合并。

10、需要说明的是,通过对相邻两个文本框之间是否能够合并进行判断,并将合并参数小于合并参数阈值的相邻两个文本框进行合并,能够保证合并文本框的准确性,从而避免了提取文本框中文本信息时存在信息丢失的问题。

11、在该技术方案中,合并参数阈值为根据文本页面中的n个文本框确定的阈值,即不同的文本页面对应不同的合并参数阈值,在每获取到一个新的文本页面之后,均需要根据其中的n个文本框确定其合并参数阈值。

12、在该技术方案中,系统能够自动获取相邻两个文本框之间的合并参数,在获取到相邻两个文本框之间的合并参数之后,将合并参数与合并参数阈值进行数值比对,在合并参数小于合并参数阈值之后,则自动合并文本框。

13、在该技术方案中,文本框用于辅助提取文本信息,提取文本框中的文本字符,能够得到该文本框内的目标文本信息,通过将文本页面中全部文本框中的文本字符全部提取出来,得到整个文本页面中的目标文本信息,能够避免在提取文字信息时丢失部分信息。

14、示例性地,文本页面中包括4个文本框,在根据合并参数阈值对4个文本框合并后,文本页面中还存在2个文本框,则分别提取2个文本框中的目标文字信息,使最终得到的2段目标文字信息保留大量段落信息,避免信息的丢失。

15、本申请技术方案中,在获取到文本页面时,自动标注文本页面中的n个文本框,且并获取标注得到的n个文本框的合并参数阈值,通过该合并参数阈值能够判断相邻两个文本框之间是否能够进行合并,使合并后的文本框中保留有大量的段落信息。在将能够合并的文本框进行合并之后,以文本框为单位进行提取目标文本信息,使提取得到的每段目标文本信息中保留大量相关的段落信息,避免了提取得到的文本信息的丢失。

16、在一些技术方案中,可选地,合并参数阈值包括距离阈值;

17、获取n个文本框对应的合并参数阈值,包括:

18、获取n个文本框中m个第一距离值,m个第一距离值包括任两个文本框之间的距离值,m为正整数,m=n×(n-1)/2;

19、根据m个第一距离值,确定距离阈值。

20、在该技术方案中,合并参数阈值包括任两个文本框之间的距离阈值,距离阈值,m个第一距离值包括n个文本框中任两个文本框之间的距离值,即确定整个文本页面中任两个文本框之间的距离值。

21、需要说明的是,通过任两个文本框之间的第一距离值进行聚类处理,得到相应的距离阈值,提高了确定的距离阈值准确性。

22、在该技术方案中,在获取到文本页面中任两个文本框之间的第一距离值之后,根据多个第一距离值,能够确定距离阈值。综合n个文本框之间的m个第一距离值得到距离阈值,通过距离阈值判断的两个文本框之间是否能够合并。

23、在本申请技术方案中,通过获取n个文本框之间的m个第一距离值,并通过该m个第一距离值能够确定距离阈值,提高了通过该距离阈值判断两个文本框之间是否能够合并的判断准确性。

24、在一些技术方案中,可选地,根据m个第一距离值,确定距离阈值,包括:

25、对m个第一距离值进行聚类处理,得到x个第一聚簇,x为正整数,且x≤m;

26、获取x个第一聚簇对应的x个第二距离值;

27、将x个第二距离值中的最小值确定为距离阈值。

28、在该技术方案中,通过对m个第一距离值进行聚类处理,能够确定其中的x个第一聚簇,每个第一聚簇中均包括至少一个第一距离值。每个第一聚簇均对应的第二距离值,该第二距离值为该第一聚簇中的聚类中心。

29、具体来说,计算得到m个第一距离值,对m个第一距离值进行聚类处理,聚类方式可以包括canopy方法、k-means方法等,得到x个第一聚类中心,每个第一聚类中心均对应一个第一聚簇,其中,第一聚类中心为第二距离值。

30、在该技术方案中,将x个第二距离值中最小值作为距离阈值,即将聚类中心中最小的聚簇对应的第二距离值作为距离阈值。

31、需要说明的是,通过聚类的方式能够确定不同的文本页面对应的距离阈值,使得到的距离阈值能够应用于文本间距不同的电子文档进行文本框的合并。其中,文本间隔较小的文本页面,文本框之间的第一距离值较小,则距离阈值较小,文本间隔较大的文本页面,文本框之间的第一距离值较大,则距离阈值较大。

32、本申请技术方案中,通过聚类处理能够得到多个第一距离值对应的多个第一聚簇,再基于多个第一聚簇对应的第二距离值确定距离阈值,根据距离阈值与文本框之间的距离相关,提高了将距离阈值为合并参数阈值时对文本框是否能够合并判断的准确性。

33、在一些技术方案中,可选地,第一距离值包括相邻两个文本框在目标方向上的距离值。

34、在该技术方案中,目标方向与文本框在文本页面中的排列方向相关联,且该目标方向可由用户进行设置,或者由设备自动识别来确定,本申请对此不作限定。

35、具体来说,文本页面中的文本框横向排列,则目标方向为文本页面中的水平方向。文本页面中的文本框竖向排列,则目标方本文档来自技高网...

【技术保护点】

1.一种文本信息提取方法,其特征在于,包括:

2.根据权利要求1所述的文本信息提取方法,其特征在于,所述合并参数阈值包括距离阈值;

3.根据权利要求2所述的文本信息提取方法,其特征在于,所述根据M个所述第一距离值,确定所述距离阈值,包括:

4.根据权利要求2所述的文本信息提取方法,其特征在于,所述第一距离值包括相邻两个所述文本框在目标方向上的距离值。

5.根据权利要求1所述的文本信息提取方法,其特征在于,所述合并参数阈值包括字符尺寸阈值;

6.根据权利要求5所述的文本信息提取方法,其特征在于,所述根据P个所述第一字符尺寸,确定所述字符尺寸阈值,包括:

7.根据权利要求5所述的文本信息提取方法,其特征在于,所述字符尺寸阈值包括以下至少一项:

8.根据权利要求1至7中任一项所述的文本信息提取方法,其特征在于,所述提取所述文本框中的文本字符,以得到目标文本信息之前,所述文本信息提取方法还包括:

9.根据权利要求8所述的文本信息提取方法,其特征在于,所述获取相邻两个所述文本框之间的对齐度,包括

10.根据权利要求1至7中任一项所述的文本信息提取方法,其特征在于,所述提取所述文本框中的文本字符,以得到目标文本信息之前,所述文本信息提取方法还包括:

11.根据权利要求1至7中任一项所述的文本信息提取方法,其特征在于,所述提取所述文本框中的文本字符,以得到目标文本信息之前,所述文本信息提取方法还包括:

12.根据权利要求1至7中任一项所述的文本信息提取方法,其特征在于,所述确定文本页面中的N个文本框之前,还包括:

13.一种文本信息提取装置,其特征在于,包括:

14.一种文本信息提取装置,其特征在于,包括:

15.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至12中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文本信息提取方法,其特征在于,包括:

2.根据权利要求1所述的文本信息提取方法,其特征在于,所述合并参数阈值包括距离阈值;

3.根据权利要求2所述的文本信息提取方法,其特征在于,所述根据m个所述第一距离值,确定所述距离阈值,包括:

4.根据权利要求2所述的文本信息提取方法,其特征在于,所述第一距离值包括相邻两个所述文本框在目标方向上的距离值。

5.根据权利要求1所述的文本信息提取方法,其特征在于,所述合并参数阈值包括字符尺寸阈值;

6.根据权利要求5所述的文本信息提取方法,其特征在于,所述根据p个所述第一字符尺寸,确定所述字符尺寸阈值,包括:

7.根据权利要求5所述的文本信息提取方法,其特征在于,所述字符尺寸阈值包括以下至少一项:

8.根据权利要求1至7中任一项所述的文本信息提取方法,其特征在于,所述提取所述文本框中的文本字符,以得到目标文本信息之前,所述文本信息提取方法还包括:

9.根据权利要求8所述的文本信息提取方...

【专利技术属性】
技术研发人员:宗文熙陈戈王定华克儒徐国粮曹天元
申请(专利权)人:美的集团上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1