确定文本的方法、深度学习模型的训练方法和装置制造方法及图纸

技术编号:39046895 阅读:16 留言:0更新日期:2023-10-10 11:59
本公开提供了一种确定文本的方法,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:从目标文档图像中确定包含文本段的至少一个图像块;响应于接收输入文本,计算输入文本与每个图像块之间的相似度;以及根据相似度,从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。存储介质。存储介质。

【技术实现步骤摘要】
确定文本的方法、深度学习模型的训练方法和装置


[0001]本公开涉及人工智能
,尤其涉及计算机视觉、图像处理、深度学习等
,可应用于智慧政务等场景。更具体地,本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]文档智能化是指从文档图像中识别出文本内容,再从识别出的文本内容中提取出用户需要的关键信息。然而,不同类型的文档,用户需要的关键信息不同,且即使同一类型的文档,用户的需求也会发生变化。

技术实现思路

[0003]本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种确定文本的方法,该方法包括:从目标文档图像中确定包含文本段的至少一个图像块;响应于接收输入文本,计算输入文本与每个图像块之间的相似度;以及根据相似度,从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。
[0005]根据第二方面,提供了一种深度学习模型的训练方法,该方法包括:从样本文档图像中确定包含文本段的多个图像块;针对每个图像块,计算图像块与样本文本之间的相似度,其中,样本文本标注有标签文本段;根据相似度以及标签文本段,确定深度学习模型的损失;以及根据损失,调整深度学习模型的参数。
[0006]根据第三方面,提供了一种确定文本的装置,该装置包括:第一图像块确定模块,用于从目标文档图像中确定包含文本段的至少一个图像块;第一相似度计算模块,用于响应于接收输入文本,计算输入文本与每个图像块之间的相似度;以及目标文本确定模块,用于根据相似度,从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。
[0007]根据第四方面,提供了一种深度学习模型的训练装置,该装置包括:第二图像块确定模块,用于从样本文档图像中确定包含文本段的多个图像块;第二相似度计算模块,用于针对每个图像块,计算图像块与样本文本之间的相似度,其中,样本文本标注有标签文本段;损失确定模块,用于根据相似度以及标签文本段,确定深度学习模型的损失;以及调整模块,用于根据损失,调整深度学习模型的参数。
[0008]根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0010]根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开的一个实施例的可以应用确定文本的方法以及深度学习模型的训练方法的示例性系统架构示意图;
[0014]图2是根据本公开的一个实施例的确定文本的方法的流程图;
[0015]图3是根据本公开的一个实施例的确定文本的方法的示意图;
[0016]图4是根据本公开的一个实施例的确定文本的方法的示意图;
[0017]图5是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
[0018]图6是根据本公开的一个实施例的确定文本的装置示意图;
[0019]图7是根据本公开的一个实施例的深度学习模型的训练装置示意图;
[0020]图8是根据本公开的一个实施例的确定文本的方法以及深度学习模型的训练方法中的至少之一的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]文档智能化在教育领域、政务领域、办公领域以及图书馆档案管理等领域都有广泛需求。现有的文档识别系统(例如基于OCR的文档识别系统)能较好地识别出图像中的文本,但是在针对识别出的文本内容进行关键信息抽取这一方面做得不够好。这是由于文档可以包含收据、合同、简历、信件、报告等多种类型,对于每一个类型的文档,用户需要的关键信息可能有很大差别。即使对于同一个类型的文档,用户在当下需要的关键信息也可能发生变化。
[0023]相关技术中的关键信息抽取方法可以包括以下几种。
[0024]一种关键信息抽取方法,包括OCR(Optical Character Recognition,光学字符识别)处理和NLP(Natural Language Processing,自然语言处理)的两个阶段。可以先使用一个训练好的OCR引擎获得图像中的文本内容,然后将文本内容序列化为文本序列输入NLP模型,进行信息抽取。这种两阶段的方法没有将文本的检测识别与信息抽取端到端地结合起来,且十分依赖OCR检测识别结果的准确性。
[0025]一种关键信息抽取方法,是将文本的检测识别与文本的分类结合起来的端到端的方法。该方法是根据文本的分类属性进行信息抽取的,例如对识别出的每一个文本进行分类,将属于预设类别的文本返回给用户。该方法需要预先定义好所需要的文本的类别,用户
使用时也只能抽取预先定义好的类别的文本内容,例如预设类别包括姓名、年龄、性别,通过该方法可以抽取出姓名、年龄、性别的文本,但是如果需要抽取其他类别的文本(例如地址等),则无法实现。因此,该方法难以满足各类场景下多样化的用户需求。
[0026]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序艮俗。
[0027]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0028]图1是根据本公开一个实施例的可以应用确定文本的方法和深度学习模型的训练方法的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0029]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文本的方法,包括:从目标文档图像中确定包含文本段的至少一个图像块;响应于接收输入文本,计算所述输入文本与每个所述图像块之间的相似度;以及根据所述相似度,从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。2.根据权利要求1所述的方法,其中,所述响应于接收输入文本,计算所述输入文本与每个所述图像块之间的相似度包括:响应于接收输入文本,确定所述输入文本的文本特征;以及针对每个图像块,确定所述图像块的图像特征,并计算所述文本特征与所述图像特征之间的相似度,作为所述输入文本与所述图像块之间的相似度。3.根据权利要求1或2所述的方法,还包括:针对每个图像块,根据所述图像块的图像特征,确定所述图像块的文本段内容;以及根据所述至少一个图像块各自的文本段内容,确定所述目标文档的文本段内容集合。4.根据权利要求3所述的方法,其中,所述根据所述相似度,从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括:从所述至少一个图像块中,确定与所述输入文本之间的相似度最大的图像块为所述目标图像块;以及从所述文本段内容集合中,确定所述目标图像块的文本段内容为所述目标文本。5.根据权利要求1或2所述的方法,其中,所述根据所述相似度,从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括:从所述至少一个图像块中,确定与所述输入文本之间的相似度最大的图像块为所述目标图像块;以及根据所述目标图像块的图像特征,确定所述目标图像块的文本段内容,作为所述目标文本。6.根据权利要求1至5中任一项所述的方法,其中,所述输入文本包括需求描述信息,所述需求描述信息包括主题信息、属性信息和关键字的至少之一。7.一种深度学习模型的训练方法,包括:从样本文档图像中确定包含文本段的多个图像块;针对每个图像块,计算所述图像块与样本文本之间的相似度,其中,所述样本文本标注有标签文本段;根据所述相似度以及所述标签文本段,确定所述深度学习模型的损失;以及根据所述损失,调整所述深度学习模型的参数。8.根据权利要求7所述的方法,其中,所述根据所述相似度以及所述标签文本段,确定所述深度学习模型的损失包括:根据所述标签文本段,从所述多个图像块中确定与所述样本文本对应的目标图像块;根据所述样本文本与所述目标图像块之间的相似度,确定正样本损失;根据所述输入文本与所述多个图像块中除所述目标图像块之外的剩余图像块之间的相似度,确定负样本损失;以及根据所述正样本损失和所述负样本损失,确定所述深度学习模型的损失。
9.根据权利要求7或8所述的方法,其中,所述样本文本包括需求描述信息,所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。10.一种确定文本的装置,包括:第一图像块确定模块,用于从目标文档图像中确定包含文本段的至少一个图像块;第一相似度计算模块,用于响应于接收输入文本,计算所述输入文本与每个所述图像块之间的相似度;以及目标文本确定模块,用于根据所述相似度,从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。11.根据权利要求10所述的装置,其中,所述第一相似度计算模块包括...

【专利技术属性】
技术研发人员:李泊翰吴亮吕鹏原章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1