一种信息提取方法、装置、计算机设备、存储介质制造方法及图纸

技术编号：40022418 阅读：8 留言：0更新日期：2024-01-16 16:58

本申请涉及一种信息提取方法、装置、计算机设备、存储介质。所述方法包括：获取待识别图片；将所述待识别图片输入到预设的文本行检测模型中，得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框；基于所述位置框，将所述待识别图片分割为多个子图片，确定所述子图片的图片信息；对所述子图片中的文本内容进行文本识别，得到所述多个子图片对应的文本信息、位置信息；将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中，确定所述每个子图片的关键信息；对所述每个子图片的关键信息进行拼接，得到待识别图片中的信息。采用本方法能够有效提取出文本中的关键信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，特别是涉及一种信息提取方法、装置、计算机设备、存储介质。

技术介绍

1、由于目前业务办理信息量较大，且较为繁琐，人工提取关键信息速度较慢，例如提取发票、票据、账单的信息等。相关技术中，可以对文档进行文本信息识别，但是有些地方的两行文字离得很近，影响识别，并且部分文档非常模糊，这些都会影响文本的识别准确率。

技术实现思路

1、基于此，有必要针对上述技术问题，提供了一种信息提取方法。

2、第一方面，本申请提供了一种信息提取方法。所述方法包括：

3、获取待识别图片；

4、将所述待识别图片输入到预设的文本行检测模型中，得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框；

5、基于所述位置框，将所述待识别图片分割为多个子图片，确定所述子图片的图片信息；

6、对所述子图片中的文本内容进行文本识别，得到所述多个子图片对应的文本信息、位置信息；

7、将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中，确定所述每个子图片的关键信息；

8、对所述每个子图片的关键信息进行拼接，得到待识别图片中的信息。

9、在其中一个实施例中，所述得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框之后，所述方法还包括：

10、判断两相邻所述位置框是否存在交集；

11、在两相邻所述位置框存在交集的情况下，对两相邻所述位置框进行筛选；

13、在其中一个实施例中，所述确定所述每个子图片的关键信息的过程包括：

14、基于所述子图片的位置信息、文本信息，对所述文本信息中的字符进行分割，识别出各字符之间的关联关系；

15、基于所述类别预测模型，实现所述子图片中各字符的分类；

16、将类别的数量符合预设类别阈值的类别，作为每个子图片的代表类别；

17、基于所述代表类别，获取所述子图片中的关键信息。

18、在其中一个实施例中，所述将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中之前，所述方法还包括：

19、基于所述图片信息，对所述子图片进行缩放操作；

20、基于所述位置信息、所述子图片的缩放比例，对所述子图片中的文本进行等比例缩放；

21、判断所述文本信息中字符的长度，当所述字符长度超过预设长度阈值时，删除中间字段的字符。

22、在其中一个实施例中，所述对筛选后的所述两相邻位置框进行合并处理，得到合并后的位置框包括：

23、获取第一位置框、第二位置框的顶点坐标，所述两相邻位置框包括第一位置框、第二位置框；

24、基于所述顶点坐标确定所述第一位置框、所述第二位置框的边界坐标，得到合并后的位置框。

25、第二方面，本申请还提供了一种信息提取装置，所述装置包括：

26、获取模块，用于获取待识别图片；

27、输出模块，用于将所述待识别图片输入到预设的文本行检测模型中，得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框；

28、分割模块，用于基于所述位置框，将所述待识别图片分割为多个子图片，确定所述子图片的图片信息；

29、识别模块，用于对所述子图片中的文本内容进行文本识别，得到所述多个子图片对应的文本信息、位置信息；

30、确定模块，用于将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中，确定所述每个子图片的关键信息；

31、拼接模块，用于对所述每个子图片的关键信息进行拼接，得到待识别图片中的信息。

32、在其中一个实施例中，所述得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框之后，所述装置还包括：

33、判断两相邻所述位置框是否存在交集；

34、在两相邻所述位置框存在交集的情况下，对两相邻所述位置框进行筛选；

35、对筛选后的所述两相邻位置框进行合并处理，得到合并后的位置框。

36、在其中一个实施例中，所述确定所述每个子图片的关键信息的过程包括：

37、基于所述子图片的位置信息、文本信息，对所述文本信息中的字符进行分割，识别出各字符之间的关联关系；

38、基于所述类别预测模型，实现所述子图片中各字符的分类；

39、将类别的数量符合预设类别阈值的类别，作为每个子图片的代表类别；

40、基于所述代表类别，获取所述子图片中的关键信息。

41、在其中一个实施例中，所述将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中之前，所述装置还包括：

42、基于所述图片信息，对所述子图片进行缩放操作；

43、基于所述位置信息、所述子图片的缩放比例，对所述子图片中的文本进行等比例缩放；

44、判断所述文本信息中字符的长度，当所述字符长度超过预设长度阈值时，删除中间字段的字符。

45、在其中一个实施例中，所述对筛选后的所述两相邻位置框进行合并处理，得到合并后的位置框包括：

46、获取第一位置框、第二位置框的顶点坐标，所述两相邻位置框包括第一位置框、第二位置框；

47、基于所述顶点坐标确定所述第一位置框、所述第二位置框的边界坐标，得到合并后的位置框。

48、第三方面，本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现信息提取方法的步骤。

49、第四方面，本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现信息提取方法的步骤。

50、第五方面，本公开还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现信息提取方法的步骤。

51、上述信息提取方法，至少包括以下有益效果：

52、本公开提供的实施例方案，可以对待识别图片进行分析，得到待识别图片的文本信息、位置信息和图片信息，基于文本信息、位置信息和图片信息综合判断，进行关键信息的提取，可以得到识别精确度高的关键信息。

53、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述每个子图片的关键信息的过程包括：

4.根据权利要求1所述的方法，其特征在于，所述将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述对筛选后的所述两相邻位置框进行合并处理，得到合并后的位置框包括：

6.一种信息提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框之后，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述确定所述每个子图片的关键信息的过程包括：

9.根据权利要求6所述的装置，其特征在于，所述将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中之前，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述对筛选后的所述两相邻位置框进行合并处理，得到合并后的位置框包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

...

【技术特征摘要】