【技术实现步骤摘要】
一种关键信息抽取方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,尤其涉及智能搜索、计算机视觉、深度学习等
技术介绍
[0002]常见的影像件可以大致分为3类:表格、表单和文本。而每类影像件又可以细分很多的小类别,影像件种类多样,版式丰富。
技术实现思路
[0003]本公开提供了一种关键信息抽取方法、装置、电子设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种关键信息抽取方法,包括:
[0005]获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;
[0006]从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;
[0007]使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。
[0008]根据本公开的第二方面,提供了一种关键信息抽取装置,包括:
[0009]获取模块,用于获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;
[0010]确定模块,用于从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;
[0011]处理模块,用于使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。
[0012]根据本公开的第三方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通
【技术保护点】
【技术特征摘要】
1.一种关键信息抽取方法,包括:获取影像件的光学字符识别结果,并获取待抽取的目标字段信息;从预先配置的多个文件类型对应的流水线中,确定所述影像件的文件类型对应的目标流水线;使用所述目标流水线包括的算子,对所述光学字符识别结果进行处理,得到所述目标字段信息对应的抽取结果。2.根据权利要求1所述的方法,其中,当所述影像件的文件类型为文档时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中的每个文本、每个文本的概率、每个文本坐标和印章检测结果;所述每个文本、每个文本的概率、每个文本坐标和印章检测结果为光学字符识别结果;其中,所述印章检测结果包括以下至少一项:印章的位置,所述印章内的文本,所述印章的形状。3.根据权利要求1所述的方法,其中,当所述影像件的文件类型为表格时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中表格内的每个单元格内的文本、每个单元格的行列信息和表格外的文本,所述每个单元格内的文本、每个单元格的行列信息和表格外的文本为光学字符识别结果。4.根据权利要求1所述的方法,其中,当所述影像件的文件类型为表单时,所述获取影像件的光学字符识别结果的步骤,包括:对影像件进行光学字符识别,获得所述影像件中表单内的每个单元格内的文本、每个单元格的行列信息、表单外的文本和印章检测结果;对每个单元格内的文本进行拼接,所述每个单元格内拼接后的文本、每个单元格的行列信息、表格外的文本和印章检测结果为光学字符识别结果;其中,所述印章检测结果包括以下至少一项:印章的位置,所述印章内的文本,所述印章的形状。5.根据权利要求1所述的方法,其中,所述多个文件类型包括表格、表单和文档;所述表格对应的流水线包括以下至少一种算子:表格型数据结构的构建算子,表格型数据结构的合并算子,行列提取算子,单元格定位算子,实体高亮坐标计算算子;所述表单和文档对应的流水线包括以下至少一种算子:文本坐标对齐算子,模型抽取算子,策略召回算子,业务格式化算子,实体高亮坐标计算算子。6.根据权利要求5所述的方法,其中,当所述目标流水线包括文本坐标对齐算子时,使用所述文本坐标对齐算子,按照以下步骤对所述光学字符识别结果进行处理:将所述光学字符识别结果中的单个字符和单个字符的坐标进行对齐处理;其中,对齐处理包括以下至少一种处理:去除所述光学字符识别结果中的无效字符;将标点符号转换为预设语种的标点符号。7.根据权利要求5所述的方法,其中,当所述目标字段信息包括第一目标关键字段以及目标统一资源定位符,所述目标流水线包括模型抽取算子时,所述第一目标关键字段为抽
取模型需要抽取的关键字段,所述目标统一资源定位符为抽取模型在线推理服务的统一资源定位符,所述目标统一资源定位符处的抽取模型为第一目标抽取模型,使用所述模型抽取算子,按照以下步骤对所述光学字符识别结果进行处理:将所述光学字符识别结果转换为目标文档,所述目标文档为所述第一目标抽取模型支持的数据格式的文档;将所述目标文档和所述第一目标关键字段输入所述第一目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率;将最大概率的实体作为所述第一目标关键字段对应的第一目标关键值。8.根据权利要求7所述的方法,其中,所述方法还包括:将所述第一目标抽取模型进行动态图转静态图,得到第二目标抽取模型;所述将所述目标文档和所述第一目标关键字段输入所述第一目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率的步骤,包括:将所述目标文档和所述第一目标关键字段输入第二目标抽取模型,得到所述第一目标关键字段对应的每个实体的概率。9.根据权利要求7所述的方法,其中,所述抽取模型通过以下步骤训练得到:获取样本文本集,所述样本文本集包括带标注的多个样本文本;使用网络搜索方法,确定预设数量组模型参数;使用带标注的所述多个样本文本,对已使用每组模型参数的抽取模型分别进行训练;从训练得到的预设数量个抽取模型中,确定用于抽取关键信息的抽取模型。10.根据权利要求9所述的方法,其中,所述从训练得到的预设数量个抽取模型中,确定用于抽取关键信息的抽取模型的步骤,包括:确定训练得到的每个抽取模型的召回率和精确率;基于训练得到的每个抽取模型的召回率和精确率,确定训练得到的每个抽取模型的第一测量指标,其中,所得到的第一测量指标中最大的第一测量指标作为第二测量指标;将所述第二测量指标对应的抽取...
【专利技术属性】
技术研发人员:陈禹燊,方文浩,韩光耀,岳洪达,许海洋,王艺,苏磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。