【技术实现步骤摘要】
训练文档信息抽取模型、文档信息抽取的方法和装置
[0001]本公开涉及人工智能领域,尤其涉及自然语言处理领域,具体为一种训练文档信息抽取模型、文档信息抽取的方法和装置。
技术介绍
[0002]在真实的用户业务场景中,对文本的标注成本往往是非常昂贵的。因此,模型的零样本或是小样本学习能力非常重要,这决定了信息抽取模型是否可以在多个不同垂类的应用场景下被广泛的使用和部署。
[0003]同时,用户给出的少量标注数据可能同时包含了流式文档(*.doc、*.docx、*.Wps、*.Txt、*.excel等)和版式文档(*.pdf、*.jpg、*.Jpeg、*.Png、*.Bmp、*.tif等)。为了尽可能的利用用户给出的标注数据,根据用户需求对模型进行充分的训练,因此将流式文档信息抽取能力和版式文档信息抽取能力整合到统一架构的模型中是非常必要的。
[0004]相关技术在文档信息抽取过程中,将信息抽取拆解为两阶段,导致错误的累积,时耗较高,无法充分结合视觉和语义的信息。不能充分利用全部训练数据,需要更多的标注,人力成本 ...
【技术保护点】
【技术特征摘要】
1.一种训练文档信息抽取模型的方法,包括:获取标注了预设问题对应的答案的训练数据和文档信息抽取模型,其中,所述训练数据包括版式文档训练数据和流式文档训练数据;从所述训练数据中提取出至少一项特征;将所述至少一项特征融合后得到融合特征;将预设的问题、所述融合特征和所述训练数据输入文档信息抽取模型,得到预测结果;基于所述预测结果和所述答案调整文档信息抽取模型的网络参数。2.根据权利要求1所述的方法,其中,所述获取标注了预设问题对应的答案的训练数据,包括:通过对网页的爬取和解析,获取到网页的文本内容以及对应的键值对信息;根据所述文本内容以及对应的键值对信息构建标注了预设问题对应的答案的流式文档训练数据。3.根据权利要求1所述的方法,其中,所述获取标注了预设问题对应的答案的训练数据,包括:获取流式文档训练数据和版式文档集合;将所述版式文档集合中的文本内容清空,保留文档结构;将所述流式文档训练数据填充到所述文档结构中生成版式文档训练数据。4.根据权利要求1所述的方法,其中,所述从所述训练数据中提取出至少一项特征,包括:从所述训练数据中提取出以下至少一项:流式阅读顺序信息、文本字符的空间位置信息、文本分段信息、文档类型。5.一种文档信息抽取方法,包括:获取待提取的文档信息;从所述文档信息中提取出至少一项特征;将所述至少一项特征融合后得到融合特征;将预设的问题、所述融合特征和所述文档信息输入根据权利要求1
‑
4中任一项所述的方法训练出的文档信息抽取模型,得到答案。6.一种训练文档信息抽取模型的装置,包括:获取单元,被配置成获取标注了预设问题对应的答案的训练数据和文档信息抽取模型,其中,所述训练数据包括版式文档训练数据和流式文档训练数据;提取单元,被配置成从所述训练数据中提取出至少一项特征;融合单元,被配置成将所述至少一项特征融合后得到融合特征;预测单元,被配置成将预设的问题、所述融合特征和所述训练数据输入...
【专利技术属性】
技术研发人员:吴思瑾,刘涵,胡腾,冯仕堃,陈永锋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。