抽取表单文档中信息的方法、电子设备和计算机可读介质技术

技术编号：27818277 阅读：23 留言：0更新日期：2021-03-30 10:24

本公开的实施例公开了抽取表单文档中信息的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取表单文档和预先确定的键值；基于预先确定的键值，生成键值语义序列；将表单文档和键值语义序列输入预先确定的信息生成模型，以得到目标信息序列和目标触发词序列；将目标信息序列和目标触发词序列推送至具有显示功能的目标设备，以及控制目标设备显示目标信息序列。这种方法将键值表示为键值语义序列，能够显式表示该键值的语义信息，从而可以直接根据键值语义序列得到表单文档中待抽取的目标信息序列的语义信息。引入目标触发词序列，能够解释键值语义序列，同时指示出目标信息序列在表单文档中的位置，提升了可抽取的目标信息序列的准确度，方便用户抽取表单文档中的关键信息。单文档中的关键信息。单文档中的关键信息。

全部详细技术资料下载

【技术实现步骤摘要】
抽取表单文档中信息的方法、电子设备和计算机可读介质

[0001]本公开实施例涉及信息抽取领域，具体涉及表单文档信息抽取的方法、电子设备和计算机可读介质。

技术介绍

[0002]信息抽取通常可以指从源文档中抽取出特定的事件或事实信息。近年来，人们对从各种垂直领域的表单文档中提取结构化信息的兴趣越来越大，如发票、采购订单、税务表格等，表单文档作为一种数据展示、统计、核对、分析的工具，应用的场合越来越多。现有的方法大多将每个要提取的结构化信息预先定义为类标签，然后预测表单文档中每个词的类标签,以找到目标结构化信息。
[0003]然而，当采用上述方式抽取表单文档中的结构化信息时，经常会存在如下技术问题：第一，待处理的结构化信息是全新出现的，没有预先定义的类标签。此时应用传统的基于类标签进行预测查找的方法就不再适用，无法找到全新出现的结构化信息。
[0004]第二，现有的方法只能根据预先定义的类标签进行查找抽取，对于表达类似含义的结构化信息则无法判断。因此结构化信息抽取的准确度比较低。

技术实现思路

[0005]本公开实施例提出了一种抽取表单文档中信息的方法。
[0006]第一方面，本公开实施例提供了一种抽取表单文档中信息的方法，该方法包括：获取表单文档和预先确定的键值；基于预先确定的键值，生成键值语义序列；将表单文档和键值语义序列输入预先确定的信息生成模型，以得到目标信息序列和目标触发词序列；将目标信息序列推送至具有显示功能的目标设备，以及控制目标设备显示目标信息序列。
[00...

【技术保护点】

【技术特征摘要】
1.一种抽取表单文档中信息的方法，包括：获取表单文档和预先确定的键值，其中，所述表单文档中包括第一数目个表单文档分词；基于所述预先确定的键值，生成键值语义序列；将所述表单文档和所述键值语义序列输入预先确定的信息生成模型，以得到目标信息序列和目标触发词序列；将所述目标信息序列和所述目标触发词序列推送至具有显示功能的目标设备，以及控制所述目标设备显示所述目标信息序列和所述目标触发词序列。2.根据权利要求1所述的方法，其中，所述获取表单文档和预先确定的键值之前，还包括：获取预先确定的样本库；对所述预先确定的样本库进行标记处理，以得到样本键值集合、样本信息集合和样本触发词集合；将所述样本库、所述样本键值集合、所述样本信息集合和所述样本触发词集合的集合确定为预先确定的训练库。3.根据权利要求2所述的方法，其中，所述键值语义序列包括第二数目个键值语义，所述键值语义为分词，所述预先确定的键值包括第二数目个分词；以及所述基于所述预先确定的键值，生成键值语义序列，包括：生成初始键值语义序列，其中，所述初始键值语义序列中的初始键值语义为空值，所述初始键值语义序列包括第二数目个初始键值语义；将所述预先确定的键值中的分词按照从前到后的顺序放入所述初始键值语义序列中，以得到所述键值语义序列。4.根据权利要求3所述的方法，其中，所述预先确定的信息生成模型包括第一提取网络、第二提取网络；以及将所述表单文档和所述键值语义序列输入预先确定的信息生成模型，以得到目标信息序列和目标触发词序列，包括：将所述表单文档和所述键值语义序列输入所述第一提取网络，生成触发词序列；将所述表单文档和所述触发词序列输入所述第二提取网络，生成所述目标信息序列和所述目标触发词序列。5.根据权利要求4所述的方法，其中，所述将所述表单文档和所述键值语义序列输入预先确定的信息生成模型，以得到目标信息序列和目标触发词序列之前，还包括：确定初始信息生成模型；利用所述预先确定的训练库训练所述初始信息生成模型，以得到过程信息生成模型；确定微调训练库，其中，所述微调训练库包括微调样本库、微调样本键值、微调样本信息和微调样本触发词；利用所述微调训练库训练所述过程信息生成模型，以得到所述预先确定的信息生成模型。6.根据权利要求5所述的方法，其中，所述将所述表单文档和所述键值语义序列输入所述第一提取网络...

【专利技术属性】
技术研发人员：吴勇民，
申请(专利权)人：北京庖丁科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人