信息抽取方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:30095814 阅读:21 留言:0更新日期:2021-09-18 08:59
本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及自然语言处理技术领域。其中,信息抽取方法包括:获取待抽取文本;获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果。本公开能够简化信息抽取的步骤,降低信息抽取的成本,提升信息抽取的灵活性与准确性。性。性。

【技术实现步骤摘要】
信息抽取方法、装置、电子设备和可读存储介质


[0001]本公开涉及计算机
,尤其涉及自然语言处理
提供了一种信息抽取方法、装置、电子设备和可读存储介质。

技术介绍

[0002]在日常处理文档的工作中普遍存在抽取信息的需求,比如在处理合同时,需要知道文档中的“甲方”、“乙方”、“合同金额”等信息;在处理法律判决书时,需要知道文档中的“被告人”、“起诉人”、“涉嫌罪名”等信息。
[0003]现有技术通常使用信息抽取模型来抽取信息,但信息抽取模型仅对与其训练领域相关的语料抽取效果较好,而对训练领域之外的语料,由于缺乏相应的训练数据,无法进行准确地抽取。若要提升信息抽取模型在不同领域下的抽取能力,最直观的做法是获取大量的标注数据进行训练,而大量的标注数据需要大量的人力成本,难以获取。

技术实现思路

[0004]根据本公开的第一方面,提供了一种信息抽取方法,包括:获取待抽取文本;获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果。
[0005]根据本公开的第二方面,提供了一种信息抽取装置,包括:第一获取单元,用于获取待抽取文本;第二获取单元,用于获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;处理单元,用于根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;抽取单元,用于根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0007]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0008]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0009]由以上技术方案可以看出,通过所获取的样本集,对待抽取文本中每个字符的预测标签进行确定,进而抽取待抽取文本中满足预设要求的字符作为待抽取文本的抽取结果,无需进行信息抽取模型的训练,简化了信息抽取的步骤,降低了信息抽取的成本,且不
会限制待抽取文本所属的领域,能够从待抽取文本中抽取与任意字段名所对应的信息,极大地提升了信息抽取的灵活性与准确性。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是根据本公开第三实施例的示意图;
[0015]图4是用来实现本公开实施例的信息抽取方法的电子设备的框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和机构的描述。
[0017]图1是根据本公开第一实施例的示意图。如图1所示,本实施例的信息抽取方法,具体可以包括如下步骤:
[0018]S101、获取待抽取文本;
[0019]S102、获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;
[0020]S103、根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;
[0021]S104、根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果。
[0022]本实施例的信息抽取方法,通过所获取的样本集,对待抽取文本中每个字符的预测标签进行确定,进而抽取待抽取文本中满足预设要求的字符作为待抽取文本的抽取结果,无需进行信息抽取模型的训练,简化了信息抽取的步骤,降低了信息抽取的成本,且不会限制待抽取文本所属的领域,能够从待抽取文本中抽取与任意字段名所对应的信息,极大地提升了信息抽取的灵活性与准确性。
[0023]本实施例执行S101获取的待抽取文本由多个字符构成,待抽取文本所属的领域可以为任意领域。
[0024]本实施例在执行S101获取了待抽取文本之后,还可以进一步获取待抽取字段名,该待抽取字段名包含至少一个字符的文本,从待抽取文本中抽取得到的抽取结果即为待抽取文本中与待抽取字段名对应的字段值。
[0025]举例来说,若待抽取文本为“甲方:张三”,待抽取字段名为“甲方”,则本实施例需要从待抽取文本中抽取的是与“甲方”对应的字段值“张三”。
[0026]本实施例在执行S101获取待抽取文本之后,执行S102获取样本集,所获取的样本
集中包含多个样本文本与多个样本文本中每个样本字符的标签。
[0027]本实施例在执行S102获取样本集时,可以获取预先构建的样本集,也可以获取实时构建的样本集。优选地,为了提升信息抽取的效率,本实施例执行S102获取的样本集是预先构建的样本集。
[0028]可以理解的是,本实施例执行S102所获取的样本集中,包含少量的样本文本,例如包含在预设数量以内的多个样本文本,该预设数量可以为一个较小的数值,例如本实施例获取的样本集中仅包含5个样本文本。
[0029]本实施例执行S102获取的样本集中,不同样本字符的标签与待抽取字段名相对应,样本字符的标签用于表示该样本字符是否为字段值的开始、是否为字段值的中间或者是否为非字段值。
[0030]本实施例执行S102获取的样本集中,每个样本字符的标签可以为B、I与O中的一种;其中,标签为B的样本字符表示该样本字符是一个字段值的开始,标签为I的样本字符表示该样本字符是一个字段值的中间,标签为O的样本字符表示该样本字符为非字段值。
[0031]举例来说,若本实施例中的样本集包含的一个样本文本为“甲方:李四”,若本实施例中的待抽取字段名为“甲方”,则该样本文本中每个样本字符的标签可以分别为“O,O,O,B,I”。
[0032本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,包括:获取待抽取文本;获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果。2.根据权利要求1所述的方法,其中,所述获取样本集包括:获取预先构建的样本集。3.根据权利要求1所述的方法,其中,所述根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签包括:针对所述待抽取文本中的每个字符,根据该字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,计算该字符与所述样本集中每个样本字符之间的相似度;将与该字符具有最高相似度的样本字符的标签,作为该字符的预测标签。4.根据权利要求1所述的方法,其中,生成所述待抽取文本中每个字符的语义特征向量包括:获取待抽取字段名;将所述待抽取文本与所述待抽取字段名进行拼接之后,得到拼接结果中每个字符的词向量、句对向量与位置向量;根据每个字符的词向量、句对向量与位置向量,生成所述待抽取文本中每个字符的语义特征向量。5.根据权利要求1所述的方法,其中,生成所述样本集中每个样本字符的语义特征向量包括:获取待抽取字段名;针对所述样本集中的每个样本文本,将该样本文本与所述待抽取字段名进行拼接之后,得到拼接结果中每个样本字符的词向量、句对向量与位置向量;根据每个样本字符的词向量、句对向量与位置向量,生成该样本文本中每个样本字符的语义特征向量。6.根据权利要求1所述的方法,其中,所述根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,作为所述待抽取文本的抽取结果包括:根据每个字符的预测标签,生成所述待抽取文本的预测标签序列;确定所述预测标签序列中满足预设标签序列要求的标签序列;从所述待抽取文本中提取与所确定的标签序列对应的多个字符,作为所述待抽取文本的抽取结果。7.一种信息抽取装置,包括:第一获取单元,用于获取待抽取文本;第二获取单元,用于获取样本集,所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签;
处理单元,用于根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量,确定所述待抽取文本中每个字符的预测标签;抽取单元,用于根据每个字符的预测标签,从所述待抽取文本中抽取满足预设要求的字符,...

【专利技术属性】
技术研发人员:刘涵胡腾陈永锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1