信息抽取模型的训练方法、信息抽取方法以及装置制造方法及图纸

技术编号：37984393 阅读：8 留言：0更新日期：2023-06-30 09:59

本公开提供了一种信息抽取模型的训练方法、信息抽取方法以及装置，涉及人工智能技术领域，尤其涉及深度学习以及自然语言处理领域。具体实现方案为：基于初始化的目标模型执行N次迭代操作，得到信息抽取模型；其中，N次迭代操作中的第i次迭代操作包括：基于当前的行业数据占比，在第一数据集中提取通用数据和/或至少一个行业的行业数据，得到第二数据集，当前的行业数据占比大于第i

全部详细技术资料下载

【技术实现步骤摘要】
信息抽取模型的训练方法、信息抽取方法以及装置

[0001]本公开涉及人工智能
，尤其涉及深度学习以及自然语言处理领域。

技术介绍

[0002]目前，为了实现信息抽取，可以采用全监督的方式训练信息抽取模型，以利用信息抽取模型在文本中进行信息抽取。一般来说，为了提升模型性能，需要获取大量标注数据，以基于大量标注数据将模型训练至收敛。

技术实现思路

[0003]本公开提供了一种信息抽取模型的训练方法、信息抽取方法以及装置。
[0004]根据本公开的一方面，提供了一种信息抽取模型的训练方法，包括：
[0005]基于初始化的目标模型执行N次迭代操作，得到信息抽取模型；其中，N为大于1的整数；
[0006]其中，N次迭代操作中的第i次迭代操作包括：
[0007]基于当前的行业数据占比，在第一数据集中提取通用数据和/或至少一个行业的行业数据，得到第二数据集；其中，当前的行业数据占比大于第i
‑
1次迭代操作中的行业数据占比，i为不大于N的正整数；
[0008]基于第二数据集，对第i
‑
1次更新的目标模型进行训练，得到第i次更新的目标模型；
[0009]在符合第一预设条件的情况下，将第i次更新的目标模型作为信息抽取模型。
[0010]根据本公开的另一方面，提供了一种信息抽取方法，包括：
[0011]利用信息抽取模型，在待处理文本中抽取目标信息；其中，信息抽取模型是基于本公开实施例中任一的模型训练方法训练得到的。r/>[0012]根据本公开的另一方面，提供了一种信息抽取模型的训练装置，包括：
[0013]第一迭代模块，用于基于初始化的目标模型执行N次迭代操作，得到信息抽取模型；其中，N为正整数；
[0014]其中，第一迭代模块包括：
[0015]数据确定单元，用于基于当前的行业数据占比，在第一数据集中提取通用数据和/或至少一个行业的行业数据，得到第二数据集；其中，当前的行业数据占比大于第i
‑
1次迭代操作中的行业数据占比，i为不大于N的正整数；
[0016]第一训练单元，用于基于第二数据集，对第i
‑
1次更新的目标模型进行训练，得到第i次更新的目标模型；
[0017]第一确认单元，用于在符合第一预设条件的情况下，将第i次更新的目标模型作为信息抽取模型。
[0018]根据本公开的另一方面，提供了一种信息抽取装置，包括：
[0019]模型处理模块，用于利用信息抽取模型，在待处理文本中抽取目标信息；其中，信
息抽取模型是基于本公开实施例中任一的模型训练装置训练得到的。
[0020]根据本公开的另一方面，提供了一种电子设备，包括：
[0021]至少一个处理器；以及
[0022]与该至少一个处理器通信连接的存储器；其中，
[0023]该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。
[0024]根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
[0025]根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
[0026]根据本公开实施例的技术方案，可以降低数据标注的人工成本和资源。
[0027]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0028]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0029]图1是本公开一实施例提供的信息抽取模型的训练方法的流程示意图；
[0030]图2是根据本公开实施例的一个应用示例中预训练整体方案的示意图；
[0031]图3是根据本公开实施例的一个应用示例中继续预训练方案的示意图；
[0032]图4是本公开一实施例提供的信息抽取方法的流程示意图；
[0033]图5是本公开实施例中信息抽取模型的一个应用示例的示意图；
[0034]图6是本公开一实施例提供的信息抽取模型的训练装置的示意性框图；
[0035]图7是本公开另一实施例提供的信息抽取模型的训练装置的示意性框图；
[0036]图8是本公开一实施例提供的信息抽取装置的示意性框图；
[0037]图9是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0038]以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0039]下面对本公开实施例所涉及到的基本概念进行简单说明。应理解，下文所介绍的基本概念并不对本公开实施例产生限定。
[0040]1、SPO(Subject
‑
Predicate
‑
Object，主语
‑
谓语
‑
宾语)三元组：SPO三元组即为知识三元组数据，包括主语(例如实体)、谓语(例如实体属性/实体之间的关系)以及宾语(例如实体属性值/关联实体)。
[0041]2、实体(entity)：知识图谱中的实体一般指现实中的事物，但没有明确的边界定义。实际应用中最常用的是命名实体(named entity)，即特定类型的事物名称或符号。一般指可以用名字标识的现实中的事物，如人名、地名、组织机构名等，广义的命名实体还包括
时间表达式、数字表达式、地址等。
[0042]3、属性：实体特征和实体之间关系的统称。
[0043]4、槽(slot)：slot为信息组成单元或者说填充单元，例如主语S和宾语O的组成单元，S和O可能包含多个slot。需要注意，在实际的抽取结果中，允许slot缺失。但S和O至少都需要有一个slot，如果S和O都只包含单个slot，则抽取的SPO三元组为简单知识三元组，如果S或者O包含多个slot，则抽取的SPO三元组为多元知识三元组。
[0044]为了便于理解本公开实施例提供的信息抽取模型的训练方法以及信息抽取方法，以下对本公开实施例的相关技术进行说明，以下相关技术作为可选方案与本公开实施例的技术方案可以进行任意结合，其均属于本公开实施例的保护范围。
[0045]在本公开实施中，信息抽取可以包括但不限于SPO三元组抽取。相关技术中，SPO三元组抽取的方法以流水线方式实现，即将SPO三元组抽取拆分成两个子任务：实体识别和实体关系分类。首先是实体识别任本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息抽取模型的训练方法，包括：基于初始化的目标模型执行N次迭代操作，得到信息抽取模型；其中，N为大于1的整数；其中，所述N次迭代操作中的第i次迭代操作包括：基于当前的行业数据占比，在第一数据集中提取通用数据和/或至少一个行业的行业数据，得到第二数据集；其中，所述当前的行业数据占比大于第i
‑
1次迭代操作中的行业数据占比，i为不大于N的正整数；基于所述第二数据集，对第i
‑
1次更新的目标模型进行训练，得到第i次更新的目标模型；在符合第一预设条件的情况下，将所述第i次更新的目标模型作为所述信息抽取模型。2.根据权利要求1所述的方法，其中，所述第i次迭代操作还包括：基于所述至少一个行业中的目标行业的行业数据，对所述第i次更新的目标模型进行调整。3.根据权利要求1或2所述的方法，其中，所述第i次迭代操作还包括：获取所述第i次更新的目标模型针对所述第一数据集的预测结果；基于所述预测结果，在所述第一数据集中的至少一个行业数据子集中，确定出非相关行业数据子集；在所述第一数据集中删除所述非相关行业数据子集。4.根据权利要求3所述的方法，其中，所述基于所述预测结果，在所述第一数据集中的至少一个行业数据子集中，确定出非相关行业数据子集，包括：基于所述预测结果，在所述第一数据集中确定出不存在目标信息的样本数据；基于所述不存在目标信息的样本数据，在所述第一数据集中的至少一个行业数据子集中，确定出非相关行业数据子集。5.一种信息抽取方法，包括：利用信息抽取模型，在待处理文本中抽取目标信息；其中，所述信息抽取模型是基于如权利要求1
‑
4中任一项所述的方法训练得到的。6.根据权利要求5所述的方法，其中，所述利用信息抽取模型，在待处理文本中抽取目标信息，包括：将所述待处理文本、抽取类型以及抽取信息结构输入所述信息抽取模型，得到所述待处理文本中的目标信息；其中，所述目标信息包含满足所述抽取信息结构的至少一个信息，且所述至少一个信息满足所述抽取类型对应的任务要求。7.根据权利要求6所述的方法，其中，所述将待处理文本、抽取类型以及抽取信息结构输入所述信息抽取模型，得到所述待处理文本中的目标信息，包括：将待处理文本、抽取类型以及抽取信息结构输入所述信息抽取模型；利用所述信息抽取模型中的提示层，对所述抽取类型以及所述抽取信息结构进行处理，得到提示信息；利用所述信息抽取模型中的预训练语言模型，对所述提示信息以及待处理文本进行处理，得到输入信息特征表示；利用所述信息抽取模型中的信息抽取层，对所述输入信息特征表示进行处理，得到所述待处理文本中的至少一组目标信息。
8.根据权利要求7所述的方法，其中，所述将待处理文本、抽取类型以及抽取信息结构输入所述信息抽取模型，得到所述待处理文本中的目标信息，还包括：在得到多组目标信息的情况下，利用所述信息抽取模型中的信息抽取层对所述多组目标信息进行对齐。9.一种信息抽取模型的训练装置，包括：第一迭代模块，用于基于初始化的目标模型执行N次迭代操作，得到信息抽取模型；其中，N为正整数；其中，所述第一迭代模块包括：数据确定单元，用于基于当前的行业数据占比，在第一数据集中提取通用数...

【专利技术属性】
技术研发人员：刘剑，孙建东，史亚冰，蒋烨，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人