文档信息抽取模型的训练方法、装置及电子设备制造方法及图纸

技术编号:34346034 阅读:13 留言:0更新日期:2022-07-31 04:49
本公开提供了文档信息抽取模型的训练方法、装置及电子设备,涉及人工智能领域,尤其涉及自然语言处理、深度学习、智能搜索技术领域。具体实现方案为:确定至少一个文本内容以及文本内容的标注信息,其中,标注信息根据文本内容所在页面中的键值对信息确定;根据至少一个文本内容、文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;采用至少一个文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型,从而降低文档标注数据的获取成本,提高文档标注数据的准确度,进而提高文档信息抽取模型的训练效率。抽取模型的训练效率。抽取模型的训练效率。

Training method, device and electronic equipment of document information extraction model

【技术实现步骤摘要】
文档信息抽取模型的训练方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、深度学习、智能搜索
,尤其涉及一种文档信息抽取模型的训练方法、装置及电子设备。

技术介绍

[0002]目前,文档信息抽取模型的训练,需要一定的文档标注数据,用于对预训练后的文档信息抽取模型进行微调。其中,文档标注数据的获取方式为,将文档递送至众包标注平台,让标注人员进行人工标注,得到文档标注数据。上述方案中,人工标注得到的文档标注数据数量级较小,标注效率差,模型的训练效率差。

技术实现思路

[0003]本公开提供了一种文档信息抽取模型的训练方法、装置及电子设备质。
[0004]根据本公开的一方面,提供了一种文档信息抽取模型的训练方法,包括:确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。
[0005]根据本公开的另一方面,提供了一种文档信息抽取模型的训练装置,包括:确定模块,用于确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;生成模块用于,根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;训练模块,用于采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。
[0006]根据本公开的又一方面,提供了一种电子设备,包括:
[0007]至少一个处理器;以及
[0008]与所述至少一个处理器通信连接的存储器;其中,
[0009]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述提出的文档信息抽取模型的训练方法。
[0010]根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述提出的文档信息抽取模型的训练方法。
[0011]根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述提出的文档信息抽取模型的训练方法的步骤。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开第一实施例的示意图;
[0015]图2是根据本公开第二实施例的示意图;
[0016]图3是根据本公开第三实施例的示意图;
[0017]图4是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]目前,文档信息抽取模型的训练,需要一定的文档标注数据,用于对预训练后的文档信息抽取模型进行微调。其中,文档标注数据的获取方式为,将文档递送至众包标注平台,让标注人员进行人工标注,得到文档标注数据。上述方案中,人工标注得到的文档标注数据数量级较小,标注效率差,模型的训练效率差。
[0020]针对上述问题,本公开提出一种文档信息抽取模型的训练方法、装置及电子设备。
[0021]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的文档信息抽取模型的训练方法可应用于文档信息抽取模型的训练装置,该装置可被配置于电子设备中,以使该电子设备可以执行文档信息抽取模型的训练功能。
[0022]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0023]如图1所示,该文档信息抽取模型可以包括以下步骤:
[0024]步骤101,确定至少一个文本内容以及文本内容的标注信息,其中,标注信息根据文本内容所在页面中的键值对信息确定。
[0025]在本公开实施例中,电子设备执行步骤101的过程例如可以为,确定至少一个文本内容,以及文本内容所在页面中的键值对信息;键值对信息包括:至少一个键值对;针对每个文本内容,根据文本内容对应的至少一个键值对中的值查询文本内容,获取文本内容中至少一个值的所在位置;根据至少一个值的所在位置以及值所在键值对中的键,生成文本内容的标注信息。
[0026]在本公开实施例中,文本内容指的是从含有键值对的网页中获取的文本,例如,“烤胡椒饼碳烤胡椒饼是一道美食,主料是面团、粗瘦绞肉,配料是香菜、肥肉,调料是蚝油、糖、香油等,这道美食主要通过碳火烧烤的方法制作而成。”。其中,该文本内容所在页面中的键值对信息可以包括三个键值对,比如,中文名

碳烤胡椒饼、口味

咸香、类型

一道美食。其中,“中文名”、“口味”、“类型”为键值对中的键,“碳烤胡椒饼”、“咸香”、“一道美食”为键值对中的值。
[0027]在本公开实施例中,根据“碳烤胡椒饼”、“咸香”、“一道美食”等键值对中的值,查询文本内容,获取文本内容中“碳烤胡椒饼”、“咸香”、“一道美食”等键值对中的值的所在位
置,将所在位置和“中文名”、“口味”、“类型”等键值对中的键,作为文本内容的标注信息,从而避免漏标、错标的情况出现,提高文档数据标注的准确度,提高文档数据标注的效率。
[0028]例如,上述文本内容的标注信息可以包括:“炭烤胡椒饼”在文本内容中的所在位置以及“中文名”、“咸香”在文本内容中的所在位置以及“口味”、“一道美食”在文本内容中的所在位置以及“类型”。
[0029]步骤102,根据至少一个文本内容、文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据。
[0030]其中,文档标注数据可以包括:文本内容对应的目标文档以及文本内容的标注信息。
[0031]在本公开实施例中,根据至少一个候选文档布局信息和文本内容,生成文本内容对应的目标文档;进而根据目标文档以及文本内容的标注信息,生成文档标注数据。
[0032]步骤103,采用至少一个文档标注数据,对初始的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档信息抽取模型的训练方法,包括:确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。2.根据权利要求1所述的方法,其中,所述确定至少一个文本内容以及所述文本内容的标注信息,包括:确定至少一个文本内容,以及所述文本内容所在页面中的键值对信息;所述键值对信息包括:至少一个键值对;针对每个文本内容,根据所述文本内容对应的至少一个所述键值对中的值查询所述文本内容,获取所述文本内容中至少一个所述值的所在位置;根据至少一个所述值的所在位置以及所述值所在键值对中的键,生成所述文本内容的标注信息。3.根据权利要求1所述的方法,其中,所述根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个文档布局信息,生成至少一个文档标注数据,包括:针对每个文本内容,从至少一个候选文档布局信息中选择目标文档布局信息;根据所述文本内容以及所述目标文档布局信息,生成所述文本内容对应的目标文档;根据所述目标文档以及所述文本内容的标注信息,生成所述文档标注数据。4.根据权利要求3所述的方法,其中,所述目标文档布局信息中包括文本内容布局信息和表格布局信息;所述根据所述文本内容以及所述目标文档布局信息,生成所述文本内容对应的目标文档,包括:按照所述文本内容布局信息对所述文本内容进行布局处理,得到文本布局内容;按照所述表格布局信息对所述文本内容所在页面中的键值对信息进行布局处理,得到表格布局内容;根据所述文本布局内容以及所述表格布局内容,生成所述文本内容对应的目标文档。5.根据权利要求1所述的方法,其中,所述文档标注数据包括:所述文本内容对应的目标文档以及所述文本内容的标注信息;所述采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型,包括:将所述文本内容对应的目标文档输入所述文档信息抽取模型,获取所述文档信息抽取模型的输出结果;根据所述输出结果以及所述文本内容的标注信息,构建损失函数;根据所述损失函数的数值对所述文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。6.一种文档信息抽取模型的训练装置,包括:确定模块,用于确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;生成模块,用于根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个<...

【专利技术属性】
技术研发人员:吴思瑾刘涵李晨辉胡腾冯仕堃陈永锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1