【技术实现步骤摘要】
文档信息抽取模型的训练方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及自然语言处理、深度学习、智能搜索
,尤其涉及一种文档信息抽取模型的训练方法、装置及电子设备。
技术介绍
[0002]目前,文档信息抽取模型的训练,需要一定的文档标注数据,用于对预训练后的文档信息抽取模型进行微调。其中,文档标注数据的获取方式为,将文档递送至众包标注平台,让标注人员进行人工标注,得到文档标注数据。上述方案中,人工标注得到的文档标注数据数量级较小,标注效率差,模型的训练效率差。
技术实现思路
[0003]本公开提供了一种文档信息抽取模型的训练方法、装置及电子设备质。
[0004]根据本公开的一方面,提供了一种文档信息抽取模型的训练方法,包括:确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;采用至少一个所述文档标注数据,对初始的文档 ...
【技术保护点】
【技术特征摘要】
1.一种文档信息抽取模型的训练方法,包括:确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个候选文档布局信息,生成至少一个文档标注数据;采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。2.根据权利要求1所述的方法,其中,所述确定至少一个文本内容以及所述文本内容的标注信息,包括:确定至少一个文本内容,以及所述文本内容所在页面中的键值对信息;所述键值对信息包括:至少一个键值对;针对每个文本内容,根据所述文本内容对应的至少一个所述键值对中的值查询所述文本内容,获取所述文本内容中至少一个所述值的所在位置;根据至少一个所述值的所在位置以及所述值所在键值对中的键,生成所述文本内容的标注信息。3.根据权利要求1所述的方法,其中,所述根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个文档布局信息,生成至少一个文档标注数据,包括:针对每个文本内容,从至少一个候选文档布局信息中选择目标文档布局信息;根据所述文本内容以及所述目标文档布局信息,生成所述文本内容对应的目标文档;根据所述目标文档以及所述文本内容的标注信息,生成所述文档标注数据。4.根据权利要求3所述的方法,其中,所述目标文档布局信息中包括文本内容布局信息和表格布局信息;所述根据所述文本内容以及所述目标文档布局信息,生成所述文本内容对应的目标文档,包括:按照所述文本内容布局信息对所述文本内容进行布局处理,得到文本布局内容;按照所述表格布局信息对所述文本内容所在页面中的键值对信息进行布局处理,得到表格布局内容;根据所述文本布局内容以及所述表格布局内容,生成所述文本内容对应的目标文档。5.根据权利要求1所述的方法,其中,所述文档标注数据包括:所述文本内容对应的目标文档以及所述文本内容的标注信息;所述采用至少一个所述文档标注数据,对初始的文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型,包括:将所述文本内容对应的目标文档输入所述文档信息抽取模型,获取所述文档信息抽取模型的输出结果;根据所述输出结果以及所述文本内容的标注信息,构建损失函数;根据所述损失函数的数值对所述文档信息抽取模型进行训练处理,得到训练好的文档信息抽取模型。6.一种文档信息抽取模型的训练装置,包括:确定模块,用于确定至少一个文本内容以及所述文本内容的标注信息,其中,所述标注信息根据所述文本内容所在页面中的键值对信息确定;生成模块,用于根据至少一个所述文本内容、所述文本内容的标注信息以及至少一个<...
【专利技术属性】
技术研发人员:吴思瑾,刘涵,李晨辉,胡腾,冯仕堃,陈永锋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。