信息提取方法和信息提取模型的训练方法、装置制造方法及图纸

技术编号：41682904 阅读：19 留言：0更新日期：2024-06-14 15:35

本公开提供了一种信息提取方法和信息提取模型的训练方法、装置、设备、介质和程序产品，涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉领域，可应用于OCR等场景。信息提取方法的具体实现方案为：对文本图像进行文本识别，得到文本图像中的字符及字符的位置信息；对文本图像进行版面分析，得到文本图像中版面元素的位置信息和类别信息；根据字符的位置信息和版面元素的位置信息，确定字符与版面元素的对应关系；以及根据对应关系及版面元素的类别信息，提取得到文本图像的结构化信息。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉领域，可应用于ocr等场景。

技术介绍

1、文本ocr(optical character recognition，光学字符识别)功能在教育领域、办公领域以及图书馆档案管理等领域都被广泛需要。随着计算机技术和网络技术的发展，可以将深度学习模型应用于文本ocr场景，以提高文本识别的准确率。

2、如今，文本ocr场景不仅存在正确识别文本内容的需求，还存在对文本结构进行分析的需求。

技术实现思路

1、本公开旨在提供一种通过结合版面分析来提取结构化信息的信息提取方法和信息提取模型的训练方法、装置、设备、介质、程序产品。

2、根据本公开的第一个方面，提供了一种信息提取方法，包括：对文本图像进行文本识别，得到文本图像中的字符及字符的位置信息；对文本图像进行版面分析，得到文本图像中版面元素的位置信息和类别信息；根据字符的位置信息和版面元素的位置信息，确定字符与版面元素的对应关系；以及根据对应关系及版面元素的类别信息，提...

【技术保护点】

1.一种信息提取方法，包括：

2.根据权利要求1所述的方法，其中，所述对文本图像进行文本识别，得到所述文本图像中的字符及所述字符的位置信息包括：

3.根据权利要求2所述的方法，其中，所述基于所述文本行图像进行文本识别，得到所述字符及所述字符的位置信息包括：

4.根据权利要求2所述的方法，其中，所述基于所述文本行图像进行文本识别，得到所述字符及所述字符的位置信息包括：

5.根据权利要求2～4中任一项所述的方法，其中，所述对所述文本图像进行文本行识别，得到所述文本图像中文本行的位置信息包括：

6.根据权利要求5所述的方法，其中，所述...

【技术特征摘要】

1.一种信息提取方法，包括：

2.根据权利要求1所述的方法，其中，所述对文本图像进行文本识别，得到所述文本图像中的字符及所述字符的位置信息包括：

3.根据权利要求2所述的方法，其中，所述基于所述文本行图像进行文本识别，得到所述字符及所述字符的位置信息包括：

4.根据权利要求2所述的方法，其中，所述基于所述文本行图像进行文本识别，得到所述字符及所述字符的位置信息包括：

5.根据权利要求2～4中任一项所述的方法，其中，所述对所述文本图像进行文本行识别，得到所述文本图像中文本行的位置信息包括：

6.根据权利要求5所述的方法，其中，所述对类别概率较大的第一预定数量个文本特征进行解码，得到所述文本图像中文本行的位置信息包括：

7.根据权利要求2所述的方法，其中，所述文本行的位置信息包括针对所述文本行的矩形框的第一位置信息和针对所述文本行的多边形框的第二位置信息；所述根据所述文本行的位置信息裁切所述文本图像，得到文本行图像包括：

8.根据权利要求1所述的方法，其中，所述对所述文本图像进行版面分析，得到所述文本图像中版面元素的位置信息和类别信息包括：

9.根据权利要求8所述的方法，其中，所述对类别概率较大的第二预定数量个文本特征进行解码，得到所述文本图像中版面元素的位置信息和类别信息包括：

10.根据权利要求5或8所述的方法，其中，所述基于所述文本图像进行编码，得到多个文本特征包括：

11.根据权利要求10所述的方法，其中，所述对所述文本图像进行特征提取，得到所述文本图像的特征图包括：

12.一种信息提取模型的训练方法，其中，所述信息提取模型包括文本识别子模型和版面分析子模型；所述方法包括：

13.根据权利要求12所述的方法，其中，所述字符为采用目标语法表示的字符，所述目标语法为用于表示公式的语法。

【专利技术属性】
技术研发人员：李泊翰，吴亮，吕鹏原，马伟洪，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人