建立信息抽取模型的方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:27743472 阅读:12 留言:0更新日期:2021-03-19 13:37
本申请公开了一种建立信息抽取模型的方法、装置,涉及自然语言处理、深度学习技术领域。本申请在建立信息抽取模型时所采用的方案为:获取多个训练数据,使用训练数据对深度学习模型进行预设次数的训练;获取多个标注有主语的待处理文本,使用深度学习模型对多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;根据各待处理文本、各待处理文本中的主语以及与主语对应的谓语和宾语得到置信数据;使用训练数据与置信数据对深度学习模型进行训练之后,转至执行获取待处理文本的步骤,以此循环进行,直至深度学习模型的训练达到终止条件得到信息抽取模型。本申请能够建立从不同关系类别的文本中抽取关系信息的信息抽取模型。

【技术实现步骤摘要】
建立信息抽取模型的方法、装置、电子设备和可读存储介质
本申请涉及信息处理
,尤其涉及自然语言处理、深度学习
中的一种建立信息抽取模型的方法、装置、电子设备和可读存储介质。
技术介绍
在各个行业中,普遍存在以自然语言记录的无结构文本,例如新闻、百科、财报等。同时,在各个行业中,也普遍存在从无结构文本中抽取结构化信息的需求,例如从无结构文本中抽取关系信息,关系信息即为文本中的实体对与实体对之间关系的三元组(subject,object,predicate)。由于存在大量的无结构文本,很难直接通过人力进行关系信息的抽取工作,所以相应的以计算机为基础的关系信息抽取软件应运而生。但现有的关系信息抽取软件需要预先制定抽取目标的关系类别,如成立时间、演唱者、专辑等,每种关系信息抽取软件仅能够抽取特定类别的关系信息。若要实现抽取不同类别的关系信息,则需要开发多个关系信息抽取软件,导致关系信息抽取软件的训练步骤较为繁琐、训练效率较低。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种建立信息抽取模型的方法,包括:获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。本申请为解决技术问题所采用的技术方案是提供一种建立信息抽取模型的装置,包括:第一训练单元,用于获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;预测单元,用于获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;处理单元,用于根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;第二训练单元,用于使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行上述建立信息抽取模型的方法。上述申请中的一个实施例具有如下优点或有益效果:本申请能够简化信息抽取模型的训练步骤,提升信息抽取模型的训练效率,并使得所建立的信息抽取模型具备从不同关系类别的文本中抽取关系信息的能力。因为采用了通过持续地获取置信数据对深度学习模型进行训练的技术手段,所以克服了现有技术中关系抽取软件仅能够抽取特定类别的关系的技术问题,实现了使得所建立的信息抽取模型具备从不同关系类别的文本中抽取关系信息的能力的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是用来实现本申请实施例的建立信息抽取模型的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的建立信息抽取模型的方法,具体可以包括如下步骤:S101、获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;S102、获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;S103、根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;S104、使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型。本实施例提供的建立信息抽取模型的方法,在使用训练数据对深度学习模型进行预设次数的训练之后,使用深度学习模型对所获取的标注有主语的待处理文本进行预测,并根据待处理文本、待处理文本中标注的主语与预测结果得到置信数据,进而结合训练数据与置信数据继续对深度学习模型进行训练,使得深度学习模型能够自主地挖掘待处理文本中的关系信息,从而持续学习新知识,简化了信息抽取模型的训练步骤,提升了信息抽取模型的训练效率,并使得所建立的信息抽取模型具备从不同关系类别的文本中抽取关系信息的能力。本实施例执行S101获取的训练数据为经过标注的数据,每个训练数据由训练文本、训练文本中的主语以及与主语对应的谓语和宾语构成。举例来说,若训练文本为“《三体》小说的作者是刘慈欣”,该训练文本的主语(subject)为“三体”,与主语“三体”对应的谓语(predicate)为“作者”,与主语“三体”对应的宾语(object)为“刘慈欣”,则本实施例将“《三体》小说的作者是刘慈欣,三体,作者,刘慈欣”作为一个训练数据。具体地,本实施例中的深度学习模型由预训练模型(例如ERNIE)、谓语预测器(predicatepredictor)与宾语预测器(objectpredictor)构成;其中,预训练模型用于得到语义向量,谓语预测器用于根据语义向量来预测谓语,宾语预测器用于根据语义向量与预测得到的谓语来预测宾语。因此,本实施例执行S101在使用训练数据对深度学习模型进行预设次数的训练时,可以采用的可选实现方式为:针对每个训练数据,将训练文本转化为向量序列之后,与训练文本中主语的位置信息进行拼接;将拼接结果作为预训练模型的输入,得到预训练模型输出的语义向量;将语义向量作为谓语预测器的输入,将与主语对应的谓语作为谓语预测器的输出;将语义向量与语义向量中对应谓语的向量作为宾语预测器的输入,将与主语对应的宾语作为宾语预测器本文档来自技高网...

【技术保护点】
1.一种建立信息抽取模型的方法,包括:/n获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;/n获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;/n根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;/n使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;/n所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。/n

【技术特征摘要】
1.一种建立信息抽取模型的方法,包括:
获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;
获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;
根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;
使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;
所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。


2.根据权利要求1所述的方法,其中,所述深度学习模型由预训练模型、谓语预测器与宾语预测器构成。


3.根据权利要求2所述的方法,其中,对深度学习模型进行训练包括:
将文本转化为向量序列之后,与文本中主语的位置信息进行拼接,所述文本为所述训练数据中的训练文本或者所述置信数据中的待处理文本;
将拼接结果作为所述预训练模型的输入,得到所述预训练模型输出的语义向量;
将所述语义向量作为所述谓语预测器的输入,将与主语对应的谓语作为所述谓语预测器的输出;
将所述语义向量与所述语义向量中对应所述谓语的向量作为所述宾语预测器的输入,将与主语对应的宾语作为所述宾语预测器的输出。


4.根据权利要求1所述的方法,其中,所述获取多个标注有主语的待处理文本包括:
获取包含关系词的多个文本作为多个待处理文本,并对各待处理文本中的主语进行标注。


5.根据权利要求2所述的方法,其中,所述使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语包括:
针对每一个待处理文本,将待处理文本转化为向量序列之后,与待处理文本中所标注的主语的位置信息进行拼接;
将拼接结果作为所述预训练模型的输入,得到所述预训练模型输出的语义向量;
将所述语义向量作为所述谓语预测器的输入,根据所述谓语预测器的输出得到与主语对应的谓语;
将所述语义向量与所述语义向量中对应所得到的谓语的向量作为所述宾语预测器的输入,根据所述宾语预测器的输出得到与主语对应的宾语。


6.根据权利要求1所述的方法,其中,所述根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据包括:
确定各待处理文本的置信度;
选取置信度超过预设阈值的待处理文本;
将所选取的待处理文本、待处理文本的主语以及与主语对应的谓语和主语,作为所述置信数据。


7.一种建立信息抽取模型的装置,包括:
第一训练单元,用于获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;
预测单元,用于获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;
处理单元,用于根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和...

【专利技术属性】
技术研发人员:贾巍戴岱肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1