信息抽取模型训练方法、信息抽取方法、装置及电子设备制造方法及图纸

技术编号:26651022 阅读:16 留言:0更新日期:2020-12-09 00:51
本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,应用于深度学习技术领域,其中该方法包括:将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。

【技术实现步骤摘要】
信息抽取模型训练方法、信息抽取方法、装置及电子设备
本申请涉及深度学习
,具体而言,本申请涉及一种信息抽取模型训练方法、信息抽取方法、装置及电子设备。
技术介绍
现阶段,信息抽取研究领域中,一般采用序列标注的框架,然后使用各种深度学习模型进行建模,通过数据驱动的的方式,来抽取实体以及实体间关系。然而,在整个过程中,人类的领域知识没有办法直接用于建模中,比如,“我吃了一个苹果”,“苹果特别好用”,前面一个苹果指的是水果,后面一个苹果指的是苹果手机,在抽取的时候需要学习到这2个区别,需要训练数据中存在大量相关的区分数据,让模型能够学习到2者之间的区别。
技术实现思路
本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。本申请采用的技术方案如下:第一方面,提供了一种信息抽取模型训练方法,包括:步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第一损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;>迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。可选地,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;基于预定的匹配成功的得分值与传递数值确定第二损失函数值。可选地,该方法包括:从训练文本样本集中获取文本样本;基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。可选地,第一损失函数值与第二损失函数的权重值通过机器学习的方法学习得到。可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。第二方面,提供了一种信息抽取方法,包括:获取待抽取信息的文本的文本序列,文本序列为文本向量;将待抽取信息的文本的文本序列输入权利要求1-5任一项的目标信息抽取模型得到抽取的目标信息。可选地,抽取的目标信息包括实体信息和/或实体之间的关系信息。可选地,待抽取信息的文本为简历文本。第三方面,提供了一种信息抽取模型训练装置,包括:构建模块,用于构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;第一输入模块,用于将文本样本序列输入至多层神经网络得到预测序列;第一确定模块,用于基于文本样本对应的标注序列以及预测序列确定第一损失函数值;第二确定模块,用于基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;第三确定模块,用于基于第一损失函数值与第二损失函数值确定第三损失函数值;更新模块,用于基于第三损失函数值更新多层深度学习网络的参数;迭代执行模块,用于迭代执行第一确定模块、第二确定模块、第三确定模块、更新模块的功能,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。可选地,基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:获取单元,用于获取多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将输出向量映射为一个传递数值;提取单元,用于基于自然语言理解技术提取文本样本的关键词,如果预构建的领域知识库包括关键词,则匹配成功;确定单元,用于基于预定的匹配成功的得分值与传递数值确定第二损失函数值。可选地,该装置包括:第一获取模块,用于从训练文本样本集中获取文本样本;词嵌入模块,用于基于预训练的词嵌入模型得到文本样本的文本样本序列,文本样本序列为向量表达。可选地,基于第一损失函数值与第二损失函数值确定第三损失函数值,包括:加权处理单元,用于基于预定的第一损失函数值与第二损失函数的权重值,对第一损失函数值与第二损失函数值进行加权处理,得到第三损失函数值。可选地,该装置还包括:机器学习模块,用于第一损失函数值与第二损失函数的权重值通过机器学习的装置学习得到。可选地,文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。第四方面,提供了一种信息抽取装置,该装置包括:第二获取模块,用于获取待抽取信息的文本的文本序列,文本序列为文本向量;第二输入模块,用于将待抽取信息的文本的文本序列输入第一方面任一项所示的目标信息抽取模型得到抽取的目标信息。可选地,抽取的目标信息包括实体信息和/或实体之间的关系信息。可选地,待抽取信息的文本为简历文本。第五方面,提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的信息抽取模型训练方法或信息抽取方法。第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的信息抽取模型训练方法或信息抽取方法。本申请提供了一种信息抽取模型训练方法、信息抽取方法、装置及电子设备,与仅通过标注的训练样本训练深度学习模型相比,本申请通过步骤一、构建初始信息抽取模型,初始信息抽取模型包括多层深度学习网络;步骤二、将文本样本序列输入至多层神经网络得到预测序列;步骤三、基于文本样本对应的标注序列以及预测序列确定第损失函数值;步骤四、基于预构建的领域知识规则对文本样本进行匹配,并基于匹配结果确定第二损失函数值;步骤五、基于第一损失函数值与第二损失函数值确定第三损失函数值;步骤六、基于第三损失函数值更新多层深度学习网络的参数;迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。即将领域知识引入到深度学习中进行信息抽取,从而不需要大量的样本训练即能使得训练的模型学习到领域知识,进而提升了模型训练的效率以及提升模型预测的准确度。本申请附加的方面和优点将在下面的描述中部分给出,这些将从下本文档来自技高网...

【技术保护点】
1.一种信息抽取模型训练方法,其特征在于,包括:/n步骤一、构建初始信息抽取模型,所述初始信息抽取模型包括多层深度学习网络;/n步骤二、将文本样本序列输入至所述多层神经网络得到预测序列;/n步骤三、基于所述文本样本对应的标注序列以及所述预测序列确定第一损失函数值;/n步骤四、基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值;/n步骤五、基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值;/n步骤六、基于所述第三损失函数值更新所述多层深度学习网络的参数;/n迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。/n

【技术特征摘要】
1.一种信息抽取模型训练方法,其特征在于,包括:
步骤一、构建初始信息抽取模型,所述初始信息抽取模型包括多层深度学习网络;
步骤二、将文本样本序列输入至所述多层神经网络得到预测序列;
步骤三、基于所述文本样本对应的标注序列以及所述预测序列确定第一损失函数值;
步骤四、基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值;
步骤五、基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值;
步骤六、基于所述第三损失函数值更新所述多层深度学习网络的参数;
迭代执行上述步骤,直至得到的第一损失函数值收敛时,得到训练成功的目标信息抽取模型。


2.根据权利要求1所述的方法,其特征在于,基于预构建的领域知识规则对所述文本样本进行匹配,并基于匹配结果确定第二损失函数值,包括:
获取所述多层深度学习网络中最后一层前任一层深度学习网络的输出向量,并将所述输出向量映射为一个传递数值;
基于自然语言理解技术提取所述文本样本的关键词,如果预构建的领域知识库包括所述关键词,则匹配成功;
基于预定的匹配成功的得分值与所述传递数值确定第二损失函数值。


3.根据权利要求1所述的方法,其特征在于,该方法包括:
从训练文本样本集中获取文本样本;
基于预训练的词嵌入模型得到所述文本样本的文本样本序列,所述文本样本序列为向量表达。


4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数值与所述第二损失函数值确定第三损失函数值,包括:
基于预定的第一损失函数值与所述第二损失函数的权重值,对所述第一损失函数值与所述第二损失函数值进行加权处理,得到第三损失函数值。


5.根据权利要求4所述的方法,其特征在于,第一损失函数值与所述第二损失函数的权重值通过机器学习的方法学习得到。


6.根据权利要求1所述的方法,其特征在于,所述文本样本对应的标注序列为人工标注的表示实体的序列和/或实体之间的关系的序列。


7.一种信息抽取方法,其特征在于,包括:
获取待抽取信息的文本的文本序列,所述文本序列为文本向量;
将所述待抽取信息的文本的文本序列输入权利要求1-5任一项所述的目标信息抽取模型得到抽取的目标信息。


8.根据权利要求7所述的方法,其特征在于,所述抽取的目标信息包括实体信息和/或实体之间的关系信息。


9.根据权利要求8所述的...

【专利技术属性】
技术研发人员:李靖郑邦东
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1