确定文本的方法、深度学习模型的训练方法和装置制造方法及图纸

技术编号：39046895 阅读：16 留言：0更新日期：2023-10-10 11:59

本公开提供了一种确定文本的方法，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。存储介质。存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
确定文本的方法、深度学习模型的训练方法和装置

[0001]本公开涉及人工智能
，尤其涉及计算机视觉、图像处理、深度学习等
，可应用于智慧政务等场景。更具体地，本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]文档智能化是指从文档图像中识别出文本内容，再从识别出的文本内容中提取出用户需要的关键信息。然而，不同类型的文档，用户需要的关键信息不同，且即使同一类型的文档，用户的需求也会发生变化。

技术实现思路

[0003]本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、设备以及存储介质。
[0004]根据第一方面，提供了一种确定文本的方法，该方法包括：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。
[0005]根据第二方面，提供了一种深度学习模型的训练方法，该方法包括：从样本文档图像中确定包含文本段的多个图像块；针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段；根据相似度以及标签文本段，确定深度学习模型的损失；以及根据损失，调整深度学习模型的参数。
[0006]根据第三方面，提供了一种确定文本的装置，该装置包括：第一图像块确定模块，用于从目标文档图像中确定包含文本段的至少一个图像块；第一相似度计算模块，用于响应于接收输入文本，计...

【技术保护点】

【技术特征摘要】
1.一种确定文本的方法，包括：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度；以及根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。2.根据权利要求1所述的方法，其中，所述响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度包括：响应于接收输入文本，确定所述输入文本的文本特征；以及针对每个图像块，确定所述图像块的图像特征，并计算所述文本特征与所述图像特征之间的相似度，作为所述输入文本与所述图像块之间的相似度。3.根据权利要求1或2所述的方法，还包括：针对每个图像块，根据所述图像块的图像特征，确定所述图像块的文本段内容；以及根据所述至少一个图像块各自的文本段内容，确定所述目标文档的文本段内容集合。4.根据权利要求3所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：从所述至少一个图像块中，确定与所述输入文本之间的相似度最大的图像块为所述目标图像块；以及从所述文本段内容集合中，确定所述目标图像块的文本段内容为所述目标文本。5.根据权利要求1或2所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：从所述至少一个图像块中，确定与所述输入文本之间的相似度最大的图像块为所述目标图像块；以及根据所述目标图像块的图像特征，确定所述目标图像块的文本段内容，作为所述目标文本。6.根据权利要求1至5中任一项所述的方法，其中，所述输入文本包括需求描述信息，所述需求描述信息包括主题信息、属性信息和关键字的至少之一。7.一种深度学习模型的训练方法，包括：从样本文档图像中确定包含文本段的多个图像块；针对每个图像块，计算所述图像块与样本文本之间的相似度，其中，所述样本文本标注有标签文本段；根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失；以及根据所述损失，调整所述深度学习模型的参数。8.根据权利要求7所述的方法，其中，所述根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失包括：根据所述标签文本段，从所述多个图像块中确定与所述样本文本对应的目标图像块；根据所述样本文本与所述目标图像块之间的相似度，确定正样本损失；根据所述输入文本与所述多个图像块中除所述目标图像块之外的剩余图像块之间的相似度，确定负样本损失；以及根据所述正样本损失和所述负样本损失，确定所述深度学习模型的损失。
9.根据权利要求7或8所述的方法，其中，所述样本文本包括需求描述信息，所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。10.一种确定文本的装置，包括：第一图像块确定模块，用于从目标文档图像中确定包含文本段的至少一个图像块；第一相似度计算模块，用于响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度；以及目标文本确定模块，用于根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。11.根据权利要求10所述的装置，其中，所述第一相似度计算模块包括...

【专利技术属性】
技术研发人员：李泊翰，吴亮，吕鹏原，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人