信息提取方法、装置及电子设备制造方法及图纸

技术编号：35592534 阅读：16 留言：0更新日期：2022-11-16 15:10

本申请公开了一种信息提取方法、装置及电子设备。方法包括：对待提取信息进行分词操作，得到多个分词；对多个分词进行特征提取，得到多个分词各自对应的特征信息；通过目标片段提取器对多个分词各自对应的特征信息进行处理，得到多个分词分别对应的类别标识，目标片段提取器为信息提取模型中与待提取信息所属的目标语种对应的片段提取器；根据多个分词分别对应的类别标识，得到对应待提取信息的信息提取结果。本申请中，通过一个信息提取模型即可对多个目标语种进行信息提取，训练成本低，且由于不同的目标语种各自对应有片段提取器，使得各个目标语种各自对应的类别标识的准确率较高，从而提高了信息提取结果的准确率。从而提高了信息提取结果的准确率。从而提高了信息提取结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
信息提取方法、装置及电子设备

[0001]本申请涉及人工智能
，更具体地，涉及一种信息提取方法、装置及电子设备。

技术介绍

[0002]信息提取是人工智能技术中的一个重要环节，例如任务型机器人系统需要提取槽值，自动比价系统需要提取商品价格，证件识别系统需要提取姓名、身份证、落款日期等信息。
[0003]目前，在多个语种的信息提取场景中，为每个语言都单独使用一个模型。但是，采用现有的信息提取方法，训练成本较高，资源比较浪费。

技术实现思路

[0004]有鉴于此，本申请实施例提出了一种信息提取方法、装置及电子设备。
[0005]第一方面，本申请实施例提供了一种信息提取方法，所述方法包括：对待提取信息进行分词操作，得到多个分词，所述待提取信息属于多个目标语种中的至少一种；通过信息提取模型中的特征提取器对所述多个分词进行特征提取，得到所述多个分词各自对应的特征信息；通过目标片段提取器对所述多个分词各自对应的特征信息进行处理，得到所述多个分词分别对应的类别标识，所述信息提取模型包括所述多个目标语种分别对应的片段提取器，所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器，所述类别标识用于表征对应的分词为终止分词或起始分词；根据所述多个分词分别对应的类别标识，得到对应所述待提取信息的信息提取结果。
[0006]第二方面，本申请实施例提供了一种信息提取装置，所述装置包括：分词模块，用于对待提取信息进行分词操作，得到多个分词，所述待提取信息属于多个目标语种...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法，其特征在于，所述方法包括：对待提取信息进行分词操作，得到多个分词，所述待提取信息属于多个目标语种中的至少一种；通过信息提取模型中的特征提取器对所述多个分词进行特征提取，得到所述多个分词各自对应的特征信息；通过目标片段提取器对所述多个分词各自对应的特征信息进行处理，得到所述多个分词分别对应的类别标识，所述信息提取模型包括所述多个目标语种分别对应的片段提取器，所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器，所述类别标识用于表征对应的分词为终止分词或起始分词；根据所述多个分词分别对应的类别标识，得到对应所述待提取信息的信息提取结果。2.根据权利要求1所述的方法，其特征在于，所述待提取信息的多个分词按照所述待提取信息的语序排列；所述根据所述多个分词分别对应的类别标识，得到对应所述待提取信息的信息提取结果，包括：在所述待提取信息中确定类别标识为起始分词的第一分词；在所述待提取信息中确定类别标识为终止分词且排列在所述第一分词之后的分词，作为第二分词；若所述待提取信息中存在排列在所述第一分词和所述第二分词之间的中间分词，根据所述第一分词、所述第二分词以及所述中间分词，得到对应所述待提取信息的信息提取结果；若所述待提取信息中不存在排列在所述第一分词和所述第二分词之间的中间分词，根据所述第一分词以及所述第二分词，得到对应所述待提取信息的信息提取结果。3.根据权利要求1所述的方法，其特征在于，所述信息提取模型的训练方法包括：获取所述多个目标语种分别对应的样本信息，每个所述目标语种对应至少一个样本信息；对每个所述样本信息进行分词操作，得到对应每个所述样本信息的多个样本分词；通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取，得到每个所述样本信息的多个样本分词各自对应的特征信息；通过所述初始模型中与每个所述目标语种对应的片段提取器，对每个所述目标语种下的每个所述样本信息的多个特征信息进行识别，得到每个所述样本信息的多个样本分词分别对应的类别标识；根据每个所述样本信息的多个样本分词各自对应的类别标识，得到每个所述样本信息的样本提取结果；根据每个所述样本信息的样本提取结果对所述初始模型进行训练，得到所述信息提取模型。4.根据权利要求3所述的方法，其特征在于，所述通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取，得到每个所述样本信息的多个样本分词各自对应的特征信息，包括：通过所述初始模型中的向量编码器对每个所述样本信息的多个样本分词进行向量编码，得到每个所述样本信息的多个样本分词各自对应的编码结果；
通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理，得到每个所述样本信息的多个编码结果各自对应的第一处理结果；通过所述特征提取器中的全连接前馈网络对每个所述样本信息对应的多个第一处理结果进行处理，得到每个所述样本信息的多个第一处理结果各自对应的特征信息。5.根据权利要求4所述的方法，其特征在于，所述通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理，得到每个所述样本信息的多个编码结果各自对应的第一处理结果，包括：通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理，得到每个所述样本信息的多个编码结果各自对应的第二处理结果；对每个所述样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理，得到每个所述样本信息的多个编码...

【专利技术属性】
技术研发人员：王博锐，
申请(专利权)人：广州欢聚时代信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人