一种关键信息抽取方法、装置、存储介质与电子设备制造方法及图纸

技术编号:34397214 阅读:67 留言:0更新日期:2022-08-03 21:32
本公开涉及一种关键信息抽取方法、装置、存储介质与电子设备,属于自然语言处理技术领域。方法包括:提取待处理图像中多个初始文本框的视觉特征与文本语义特征;根据视觉特征与文本语义特征,得到多个初始文本框的节点特征;基于图卷积模型,对多个初始文本框的节点特征进行聚类,得到多个初始文本框各自对应的类别,图卷积模型采用频谱域卷积进行聚类;根据多个初始文本框各自对应的类别,从多个初始文本框中确定出具有必要关键信息的目标文本框。使用本公开提出的关键信息抽取方法,可以从待处理图像中抽取必要关键信息,使得工作人员只需审核必要关键信息,而不必审核无关信息,从而提升了工作人员的审核效率。从而提升了工作人员的审核效率。从而提升了工作人员的审核效率。

【技术实现步骤摘要】
一种关键信息抽取方法、装置、存储介质与电子设备


[0001]本公开涉及自然语言处理
,具体地,涉及一种关键信息抽取方 法、装置、存储介质与电子设备。

技术介绍

[0002]近些年来,随着知识经济的快速发展,教育市场呈现良好的增长态势, 与此同时,也给各大学校的老师带来了较大的工作压力。
[0003]例如,各大学校在招聘老师时,需要招聘者审核应聘者的教师资格证、 合格证等个人证件,而在应聘者数量众多时,会导致招聘者审核的教师资格 证与合格证等个人证件的数量众多,人工审核数量众多的个人证件费时费 力,存在效率低下的问题。

技术实现思路

[0004]本公开的目的是提供一种关键信息抽取方法、装置、存储介质与电子设 备,以解决上述技术问题。
[0005]为了实现上述目的,本公开实施例的第一方面提供一种关键信息抽取方 法,所述方法包括:
[0006]提取待处理图像中多个初始文本框的视觉特征与文本语义特征;
[0007]根据所述视觉特征与文本语义特征,得到多个初始文本框的节点特征;
[0008]基于图卷积模型,对所述多个初始文本框的节点特征进行聚类,得到多 个初始文本框各自对应的类别,所述图卷积模型采用频谱域卷积进行聚类;
[0009]根据所述多个初始文本框各自对应的类别,从多个初始文本框中确定出 具有必要关键信息的目标文本框。
[0010]可选地,所述提取待处理图像中多个初始文本框的视觉特征,包括:
[0011]基于HRNet模型,提取所述多个初始文本框的视觉特征与文本语义特 征。
[0012]可选地,所述提取待处理图像中初始文本框的视觉特征与文本语义特征 之前,所述方法包括:
[0013]识别所述待处理图像,获取所述待处理图像的多个文本框;
[0014]对多个文本框中具有关键信息的文本框进行标注,得到带有第一预设标 签的初始文本框;
[0015]基于所述图卷积模型,提取带有所述第一预设标签的初始文本框。
[0016]可选地,所述图卷积模型通过以下步骤训练得到:
[0017]将中文、英文以及指定民族语言作为训练样本,对初始模型进行训练, 得到所述图卷积模型。
[0018]可选地,所述待处理图像通过以下步骤得到:
[0019]基于生成式对抗网络,增强输入图像的图像质量,得到第一图像;
[0020]对所述第一图像进行校正,得到所述待处理图像。
[0021]可选地,对所述第一图像进行校正,得到所述待处理图像,包括:
[0022]去除所述第一图像的背景区域,得到所述待处理图像。
[0023]可选地,对所述第一图像进行校正,得到所述待处理图像,包括:
[0024]根据所述第一图像的多条边,对所述第一图像的多个顶点进行拟合,得 到所述第一图像的多个顶点;
[0025]根据所述第一图像的多个顶点与所述第一图像的多条边,得到所述待处 理图像。
[0026]根据本公开实施例提出的第二方面,提供一种关键信息抽取装置,所述 装置包括:
[0027]提取模块,用于提取待处理图像中多个初始文本框的视觉特征与文本语 义特征;
[0028]节点特征确定模块,用于根据所述视觉特征与文本语义特征,得到多个 初始文本框的节点特征;
[0029]聚类模块,用于基于图卷积模型对所述多个初始文本框的节点特征进行 聚类,得到多个初始文本框各自对应的类别,所述图卷积模型采用频谱域卷 积进行聚类;
[0030]关键信息抽取模块,用于根据所述待处理图像的类型,从多个初始文本 框中确定出具有必要关键信息的目标文本框。
[0031]根据本公开实施例提出的第三方面,提供一种非临时性计算机可读存储 介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例的 第一方面任一项提供的关键信息抽取方法的步骤。
[0032]根据本公开实施例提出的第四方面,提供一种电子设备,包括:
[0033]存储器,其上存储有计算机程序;
[0034]处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施 例的第一方面任一项提供的关键信息抽取方法的步骤。
[0035]通过上述技术方案,从多个初始文本框中得到目标文本框,使得得到的 目标文本框中的关键信息是必要关键信息,而必要关键信息是与确认持证人 以及证件类型有关的必要关键信息,使得工作人员只需审核必要关键信息, 即可确定该待处理图像的卡证类型与持证人信息,而不必审核与卡证类型与 持证人信息无关的信息,从而提升了工作人员的审核效率。
[0036]并且,卷积模型可以采用频谱域卷积进行聚类,由于频谱域卷积可以通 过任意数量邻域的初始文本框,来预测得到当前所要预测的初始文本框的类 别,而非采取固定数量的邻域来预测初始文本框的类别,所以可以通过更少 数量的邻域来预测初始文本框的类别,提升了初始文本框类别预测的速度, 也可以通过更多数量的邻域来预测初始文本框的类别,提升初始文本框类别 预测的准确性。
[0037]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0038]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与 下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在 附图中:
[0039]图1是本公开一示例性实施例示出的关键信息抽取方法的步骤流程图;
[0040]图2是本公开一示例性实施例示出的其中一种教师资格证的示意图;
[0041]图3是本公开一示例性实施例示出的教师资格证中具有关键信息的初始 文本框的示意图;
[0042]图4是本公开一示例性实施例示出的具有必要关键信息的目标文本框的 示意图;
[0043]图5是本公开一示例性实施例示出的HRNet网络的示意图;
[0044]图6是本公开一示例性实施例示出的节点与卷积核的示意图;
[0045]图7是本公开一示例性实施例示出的用于确定待处理图像顶点的示意 图;
[0046]图8是本公开一示例性实施例示出的关键信息抽取装置的框图;
[0047]图9是本公开一示例性实施例示出的电子设备的框图。
具体实施方式
[0048]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是, 此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公 开。
[0049]需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照 所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给 予授权的情况下进行的。
[0050]请参阅图1示出的一种关键信息抽取方法,该方法包括以下步骤:
[0051]步骤S11:提取待处理图像中多个初始文本框的视觉特征与文本语义特 征。
[0052]本步骤中,对待处理图像进行图像识别之后,会得到待处理图像的多个 文本框,初始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键信息抽取方法,其特征在于,所述方法包括:提取待处理图像中多个初始文本框的视觉特征与文本语义特征;根据所述视觉特征与文本语义特征,得到多个初始文本框的节点特征;基于图卷积模型,对所述多个初始文本框的节点特征进行聚类,得到多个初始文本框各自对应的类别,所述图卷积模型采用频谱域卷积进行聚类;根据所述多个初始文本框各自对应的类别,从多个初始文本框中确定出具有必要关键信息的目标文本框。2.根据权利要求1所述的关键信息抽取方法,其特征在于,所述提取待处理图像中多个初始文本框的视觉特征,包括:基于HRNet模型,提取所述多个初始文本框的视觉特征与文本语义特征。3.根据权利要求1所述的关键信息抽取方法,其特征在于,所述提取待处理图像中初始文本框的视觉特征与文本语义特征之前,所述方法包括:识别所述待处理图像,获取所述待处理图像的多个文本框;对多个文本框中具有关键信息的文本框进行标注,得到带有第一预设标签的初始文本框;基于所述图卷积模型,提取带有所述第一预设标签的初始文本框。4.根据权利要求1所述的关键信息抽取方法,其特征在于,所述图卷积模型通过以下步骤训练得到:将中文、英文以及指定民族语言作为训练样本,对初始模型进行训练,得到所述图卷积模型。5.根据权利要求1所述的关键信息抽取方法,其特征在于,所述待处理图像通过以下步骤得到:基于生成式对抗网络,增强输入图像的图像质量,得到第一图像;对所述第一图像进行校正,得到所述待处理图像...

【专利技术属性】
技术研发人员:王少康马志国张飞飞
申请(专利权)人:北京鼎事兴教育咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1