信息提取方法、装置及电子设备制造方法及图纸

技术编号:35592534 阅读:16 留言:0更新日期:2022-11-16 15:10
本申请公开了一种信息提取方法、装置及电子设备。方法包括:对待提取信息进行分词操作,得到多个分词;对多个分词进行特征提取,得到多个分词各自对应的特征信息;通过目标片段提取器对多个分词各自对应的特征信息进行处理,得到多个分词分别对应的类别标识,目标片段提取器为信息提取模型中与待提取信息所属的目标语种对应的片段提取器;根据多个分词分别对应的类别标识,得到对应待提取信息的信息提取结果。本申请中,通过一个信息提取模型即可对多个目标语种进行信息提取,训练成本低,且由于不同的目标语种各自对应有片段提取器,使得各个目标语种各自对应的类别标识的准确率较高,从而提高了信息提取结果的准确率。从而提高了信息提取结果的准确率。从而提高了信息提取结果的准确率。

【技术实现步骤摘要】
信息提取方法、装置及电子设备


[0001]本申请涉及人工智能
,更具体地,涉及一种信息提取方法、装置及电子设备。

技术介绍

[0002]信息提取是人工智能技术中的一个重要环节,例如任务型机器人系统需要提取槽值,自动比价系统需要提取商品价格,证件识别系统需要提取姓名、身份证、落款日期等信息。
[0003]目前,在多个语种的信息提取场景中,为每个语言都单独使用一个模型。但是,采用现有的信息提取方法,训练成本较高,资源比较浪费。

技术实现思路

[0004]有鉴于此,本申请实施例提出了一种信息提取方法、装置及电子设备。
[0005]第一方面,本申请实施例提供了一种信息提取方法,所述方法包括:对待提取信息进行分词操作,得到多个分词,所述待提取信息属于多个目标语种中的至少一种;通过信息提取模型中的特征提取器对所述多个分词进行特征提取,得到所述多个分词各自对应的特征信息;通过目标片段提取器对所述多个分词各自对应的特征信息进行处理,得到所述多个分词分别对应的类别标识,所述信息提取模型包括所述多个目标语种分别对应的片段提取器,所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器,所述类别标识用于表征对应的分词为终止分词或起始分词;根据所述多个分词分别对应的类别标识,得到对应所述待提取信息的信息提取结果。
[0006]第二方面,本申请实施例提供了一种信息提取装置,所述装置包括:分词模块,用于对待提取信息进行分词操作,得到多个分词,所述待提取信息属于多个目标语种中的至少一种;特征信息获得模块,用于通过信息提取模型中的特征提取器对所述多个分词进行特征提取,得到所述多个分词各自对应的特征信息;标识获得模块,用于通过目标片段提取器对所述多个分词各自对应的特征信息进行处理,得到所述多个分词分别对应的类别标识,所述信息提取模型包括所述多个目标语种分别对应的片段提取器,所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器,所述类别标识用于表征对应的分词为终止分词或起始分词;结果获得模块,用于根据所述多个分词分别对应的类别标识,得到对应所述待提取信息的信息提取结果。
[0007]可选地,所述待提取信息的多个分词按照所述待提取信息的语序排列;所述结果获得模块,还用于在所述待提取信息中确定类别标识为起始分词的第一分词;在所述待提取信息中确定类别标识为终止分词且排列在所述第一分词之后的分词,作为第二分词;若所述待提取信息中存在排列在所述第一分词和所述第二分词之间的中间分词,根据所述第一分词、所述第二分词以及所述中间分词,得到对应所述待提取信息的信息提取结果;若所述待提取信息中不存在排列在所述第一分词和所述第二分词之间的中间分词,根据所述第
一分词以及所述第二分词,得到对应所述待提取信息的信息提取结果。
[0008]可选地,装置还包括模型训练模块,用于获取所述多个目标语种分别对应的样本信息,每个所述目标语种对应至少一个样本信息;对每个所述样本信息进行分词操作,得到对应每个所述样本信息的多个样本分词;通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取,得到每个所述样本信息的多个样本分词各自对应的特征信息;通过所述初始模型中与每个所述目标语种对应的片段提取器,对每个所述目标语种下的每个所述样本信息的多个特征信息进行识别,得到每个所述样本信息的多个样本分词分别对应的类别标识;根据每个所述样本信息的多个样本分词各自对应的类别标识,得到每个所述样本信息的样本提取结果;根据每个所述样本信息的样本提取结果对所述初始模型进行训练,得到所述信息提取模型。
[0009]可选地,模型训练模块,还用于通过所述初始模型中的向量编码器对每个所述样本信息的多个样本分词进行向量编码,得到每个所述样本信息的多个样本分词各自对应的编码结果;通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理,得到每个所述样本信息的多个编码结果各自对应的第一处理结果;通过所述特征提取器中的全连接前馈网络对每个所述样本信息对应的多个第一处理结果进行处理,得到每个所述样本信息的多个第一处理结果各自对应的特征信息。
[0010]可选地,模型训练模块,还用于通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理,得到每个所述样本信息的多个编码结果各自对应的第二处理结果;对每个所述样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理,得到每个所述样本信息的多个编码结果各自对应的第一处理结果。
[0011]可选地,每个所述目标语种对应的片段提取器均包括用于预测起始分词的第一分类器以及用于预测终止分词的第二分类器;模型训练模块,还用于通过所述初始模型中与每个所述目标语种对应的片段提取器中的第一分类器,对每个所述目标语种下的每个所述样本信息的多个特征信息进行处理,得到每个所述样本信息的多个样本分词分别对应的起始类别标识,所述样本分词的起始类别标识表征样本分词是否为起始分词;通过所述初始模型中与每个所述目标语种对应的片段提取器中的第二分类器,对每个所述目标语种下的每个所述样本信息的多个特征信息进行处理,得到每个所述样本信息的多个样本分词分别对应的终止类别标识,所述样本分词的终止类别标识表征样本分词是否为终止分词;将每个所述样本信息的多个样本分词分别对应的起始类别标识以及终止类别标识,作为每个所述样本信息的多个样本分词分别对应的类别标识。
[0012]可选地,每个所述样本信息的多个样本分词按照每个所述样本信息的语序排列;模型训练模块,还用于针对每个所述样本信息,确定类别标识为起始分词的第一样本分词;从每个所述样本信息对应的多个样本分词中筛选分词类别为终止分词且排列在所述第一样本分词之后的样本分词,作为每个所述样本信息的第二分词;若每个所述样本信息对应的多个样本分词中存在排列在第一样本分词以及第二样本分词之间的中间样本分词,根据所述样本信息对应的第一样本分词、第二样本分词以及中间样本分词,得到每个所述样本信息的样本提取结果;若每个所述样本信息对应的多个样本分词中不存在排列在第一样本分词以及第二样本分词之间的中间样本分词,根据所述样本信息对应的第一样本分词以及第二样本分词,得到每个所述样本信息的样本提取结果。
[0013]可选地,模型训练模块,还用于根据每个所述目标语种下的每个所述样本信息的样本提取结果,对所述初始模型中与每个所述目标语种对应的片段提取器进行训练,得到信息提取模型。
[0014]第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
[0015]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
[0016]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:对待提取信息进行分词操作,得到多个分词,所述待提取信息属于多个目标语种中的至少一种;通过信息提取模型中的特征提取器对所述多个分词进行特征提取,得到所述多个分词各自对应的特征信息;通过目标片段提取器对所述多个分词各自对应的特征信息进行处理,得到所述多个分词分别对应的类别标识,所述信息提取模型包括所述多个目标语种分别对应的片段提取器,所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器,所述类别标识用于表征对应的分词为终止分词或起始分词;根据所述多个分词分别对应的类别标识,得到对应所述待提取信息的信息提取结果。2.根据权利要求1所述的方法,其特征在于,所述待提取信息的多个分词按照所述待提取信息的语序排列;所述根据所述多个分词分别对应的类别标识,得到对应所述待提取信息的信息提取结果,包括:在所述待提取信息中确定类别标识为起始分词的第一分词;在所述待提取信息中确定类别标识为终止分词且排列在所述第一分词之后的分词,作为第二分词;若所述待提取信息中存在排列在所述第一分词和所述第二分词之间的中间分词,根据所述第一分词、所述第二分词以及所述中间分词,得到对应所述待提取信息的信息提取结果;若所述待提取信息中不存在排列在所述第一分词和所述第二分词之间的中间分词,根据所述第一分词以及所述第二分词,得到对应所述待提取信息的信息提取结果。3.根据权利要求1所述的方法,其特征在于,所述信息提取模型的训练方法包括:获取所述多个目标语种分别对应的样本信息,每个所述目标语种对应至少一个样本信息;对每个所述样本信息进行分词操作,得到对应每个所述样本信息的多个样本分词;通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取,得到每个所述样本信息的多个样本分词各自对应的特征信息;通过所述初始模型中与每个所述目标语种对应的片段提取器,对每个所述目标语种下的每个所述样本信息的多个特征信息进行识别,得到每个所述样本信息的多个样本分词分别对应的类别标识;根据每个所述样本信息的多个样本分词各自对应的类别标识,得到每个所述样本信息的样本提取结果;根据每个所述样本信息的样本提取结果对所述初始模型进行训练,得到所述信息提取模型。4.根据权利要求3所述的方法,其特征在于,所述通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取,得到每个所述样本信息的多个样本分词各自对应的特征信息,包括:通过所述初始模型中的向量编码器对每个所述样本信息的多个样本分词进行向量编码,得到每个所述样本信息的多个样本分词各自对应的编码结果;
通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理,得到每个所述样本信息的多个编码结果各自对应的第一处理结果;通过所述特征提取器中的全连接前馈网络对每个所述样本信息对应的多个第一处理结果进行处理,得到每个所述样本信息的多个第一处理结果各自对应的特征信息。5.根据权利要求4所述的方法,其特征在于,所述通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理,得到每个所述样本信息的多个编码结果各自对应的第一处理结果,包括:通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理,得到每个所述样本信息的多个编码结果各自对应的第二处理结果;对每个所述样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理,得到每个所述样本信息的多个编码...

【专利技术属性】
技术研发人员:王博锐
申请(专利权)人:广州欢聚时代信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1