一种关键信息抽取方法、装置、存储介质与电子设备制造方法及图纸

技术编号：34397214 阅读：67 留言：0更新日期：2022-08-03 21:32

本公开涉及一种关键信息抽取方法、装置、存储介质与电子设备，属于自然语言处理技术领域。方法包括：提取待处理图像中多个初始文本框的视觉特征与文本语义特征；根据视觉特征与文本语义特征，得到多个初始文本框的节点特征；基于图卷积模型，对多个初始文本框的节点特征进行聚类，得到多个初始文本框各自对应的类别，图卷积模型采用频谱域卷积进行聚类；根据多个初始文本框各自对应的类别，从多个初始文本框中确定出具有必要关键信息的目标文本框。使用本公开提出的关键信息抽取方法，可以从待处理图像中抽取必要关键信息，使得工作人员只需审核必要关键信息，而不必审核无关信息，从而提升了工作人员的审核效率。从而提升了工作人员的审核效率。从而提升了工作人员的审核效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种关键信息抽取方法、装置、存储介质与电子设备

[0001]本公开涉及自然语言处理
，具体地，涉及一种关键信息抽取方法、装置、存储介质与电子设备。

技术介绍

[0002]近些年来，随着知识经济的快速发展，教育市场呈现良好的增长态势，与此同时，也给各大学校的老师带来了较大的工作压力。
[0003]例如，各大学校在招聘老师时，需要招聘者审核应聘者的教师资格证、合格证等个人证件，而在应聘者数量众多时，会导致招聘者审核的教师资格证与合格证等个人证件的数量众多，人工审核数量众多的个人证件费时费力，存在效率低下的问题。

技术实现思路

[0004]本公开的目的是提供一种关键信息抽取方法、装置、存储介质与电子设备，以解决上述技术问题。
[0005]为了实现上述目的，本公开实施例的第一方面提供一种关键信息抽取方法，所述方法包括：
[0006]提取待处理图像中多个初始文本框的视觉特征与文本语义特征；
[0007]根据所述视觉特征与文本语义特征，得到多个初始文本框的节点特征；
[0008]基于图卷积模型，对所述多个初始文本框的节点特征进行聚类，得到多个初始文本框各自对应的类别，所述图卷积模型采用频谱域卷积进行聚类；
[0009]根据所述多个初始文本框各自对应的类别，从多个初始文本框中确定出具有必要关键信息的目标文本框。
[0010]可选地，所述提取待处理图像中多个初始文本框的视觉特征，包括：
[0011]基于HRNet模型，提取所述多个...

【技术保护点】

【技术特征摘要】
1.一种关键信息抽取方法，其特征在于，所述方法包括：提取待处理图像中多个初始文本框的视觉特征与文本语义特征；根据所述视觉特征与文本语义特征，得到多个初始文本框的节点特征；基于图卷积模型，对所述多个初始文本框的节点特征进行聚类，得到多个初始文本框各自对应的类别，所述图卷积模型采用频谱域卷积进行聚类；根据所述多个初始文本框各自对应的类别，从多个初始文本框中确定出具有必要关键信息的目标文本框。2.根据权利要求1所述的关键信息抽取方法，其特征在于，所述提取待处理图像中多个初始文本框的视觉特征，包括：基于HRNet模型，提取所述多个初始文本框的视觉特征与文本语义特征。3.根据权利要求1所述的关键信息抽取方法，其特征在于，所述提取待处理图像中初始文本框的视觉特征与文本语义特征之前，所述方法包括：识别所述待处理图像，获取所述待处理图像的多个文本框；对多个文本框中具有关键信息的文本框进行标注，得到带有第一预设标签的初始文本框；基于所述图卷积模型，提取带有所述第一预设标签的初始文本框。4.根据权利要求1所述的关键信息抽取方法，其特征在于，所述图卷积模型通过以下步骤训练得到：将中文、英文以及指定民族语言作为训练样本，对初始模型进行训练，得到所述图卷积模型。5.根据权利要求1所述的关键信息抽取方法，其特征在于，所述待处理图像通过以下步骤得到：基于生成式对抗网络，增强输入图像的图像质量，得到第一图像；对所述第一图像进行校正，得到所述待处理图像...

【专利技术属性】
技术研发人员：王少康，马志国，张飞飞，
申请(专利权)人：北京鼎事兴教育咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人