当前位置: 首页 > 专利查询>清华大学专利>正文

一种开放信息抽取模型的训练方法和装置制造方法及图纸

技术编号:37789561 阅读:7 留言:0更新日期:2023-06-09 09:19
本发明专利技术提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明专利技术基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。以适应真实世界场景。以适应真实世界场景。

【技术实现步骤摘要】
一种开放信息抽取模型的训练方法和装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种开放信息抽取模型的训练方法和装置。

技术介绍

[0002]开放信息抽取,是将给定自然语言文本转换成由<论元1,谓词,论元2,

,论元n>组成的结构化知识N元组的技术。开放信息抽取模型,在结构化知识N元组抽取方面具备显着的独立性和可扩展性,已成为文本自动摘要、问答系统等诸多自然语言处理应用的基石。
[0003]然而,早期的开放信息抽取模型,采用基于规则或统计的方法来抽取结构化知识N元组,强烈依赖于数据集中存在的句法特征,难以泛化到真实世界未知的句法结构上。借鉴深度学习技术而构建的开放信息抽取模型(总体上分为基于序列标注的开放信息抽取模型和基于序列生成的开放信息抽取模型两大类),均受限于训练集中句法分布的部分可观测性,导致模型性能在句法分布多样的真实世界场景下效果显著下降。
[0004]因此,亟需在句法分布充分的数据集上训练始终鲁棒的开放信息抽取模型。

技术实现思路

[0005]为解决或者部分解决上述技术问题,本专利技术提供一种开放信息抽取模型的训练方法和装置,基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。
[0006]第一方面,本专利技术提供一种开放信息抽取模型的训练方法,所述方法包括:
[0007]获取以自然语言语句为样本的目标数据集
[0008]生成所述目标数据集中每一条自然语言语句的转述句;
[0009]对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;
[0010]以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;
[0011]利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。
[0012]根据本专利技术提供的开放信息抽取模型的训练方法,所述生成所述目标数据集中每一条自然语言语句的转述句,包括:
[0013]对于所述目标数据集中每一条自然语言语句,将所述自然语言语句、所述自然语言语句对应的句法树和目标句法树构成的序列输入至句法可控的转述生成模型中,得到所述转述生成模型输出的遵从所述目标句法树的语句;
[0014]将所述语句作为所述自然语言语句的转述句;
[0015]其中,所述转述生成模型,是利用平行语料ParaNMT

small训练的;
[0016]所述平行语料ParaNMT

small中的每一个样本,均由自然语言语句及其对应的转
述句组成。
[0017]根据本专利技术提供的开放信息抽取模型的训练方法,所述自然语言语句对应的句法树,按下述方式确定:
[0018]对所述自然语言语句进行句法解析以及括号树形式表示,得到所述自然语言语句对应的句法树;
[0019]所述目标句法树,按下述方式确定:
[0020]确定所述平行语料ParaNMT

small每一个样本中自然语言语句对应的句法树和转述句对应的句法树;
[0021]对所述平行语料ParaNMT

small每一个样本中自然语言语句对应的句法树和转述句对应的句法树进行仅保留前三层的截断处理后,组合生成所述平行语料ParaNMT

small每一个样本对应的句法树对;
[0022]由所述平行语料ParaNMT

small所有样本对应的句法树对构成句法树对集合,由所述平行语料ParaNMT

small所有样本中自然语言语句对应的句法树构成的第一句法树集合,并由所述平行语料ParaNMT

small所有样本中转述句对应的句法树构成的第二句法树集合;
[0023]从第一句法树集合中选取与所述自然语言语句对应的句法树相似度最高的M个句法树,并将所述M个句法树作为源端句法树;
[0024]根据每一个源端句法树和所述第二句法树集合中每一个句法树构成的句法树对在所述句法树对集合中出现的频次,确定每一个源端句法树对应的分布函数;
[0025]从每一个源端句法树对应的分布函数中采样K个句法树,以得到M
×
K个句法树;
[0026]将所述M
×
K个句法树均作为所述目标句法树;
[0027]其中,每一个源端句法树对应的分布函数如下所示:
[0028][0029]上式中,为所述源端句法树,为第二句法树集合中的句法树,为第二句法树集合中第j个句法树,为在所述句法树对集合中出现的频次,为在所述句法树对集合中出现的频次。
[0030]根据本专利技术提供的开放信息抽取模型的训练方法,所述对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应结构化知识,包括:
[0031]对所述目标数据集中每一条自然语言语句的转述句,采用语义匹配方式,对所述转述句进行论元恢复,得到第一语句;
[0032]采用句法树游走方式,对所述第一语句进行论元恢复,得到第二语句;
[0033]采用谓词预测方式,对所述第二语句进行谓词恢复,得到所述自然语言语句对应的结构化知识。
[0034]根据本专利技术提供的开放信息抽取模型的训练方法,所述采用语义匹配方式,对所
述转述句进行论元恢复,得到第一语句,包括:
[0035]获取所述自然语言语句对应的第一向量化嵌入表示和所述转述句对应的第二向量化嵌入表示;
[0036]对于所述自然语言语句中的每一个三元组,根据所述第一向量化嵌入表示和所述第一向量化嵌入表示,计算所述三元组中论元/谓词与所述转述句中各单词的余弦相似度以得到所述三元组中论元/谓词对应的相似度得分序列;
[0037]将所述三元组中论元/谓词对应的相似度得分序列中相似度得分连续大于预设阈值的位置区间作为所述三元组中论元/谓词的候选位置;
[0038]根据所述三元组中论元的候选位置和所述三元组中谓词的候选位置,以总体相似度最高且没有位置重合为依据定位所述三元组的位置;
[0039]根据定位的所述自然语言语句中的每一个三元组的位置,生成所述第一语句。
[0040]根据本专利技术提供的开放信息抽取模型的训练方法,所述三元组中论元对应的相似度得分序列按下式计算:
[0041][0042]所述三元组中谓词对应的相似度得分序列c
r
,按下式计算:
[0043]其中,为所述第一向量化嵌入表示中所述自然语言语句的第j个单词对应部分,h
t
为所述第二向量化嵌入表示,为论元的首个单词在所述自然语言语句中的排序序号,为论元的末个单词在所述自然语言语句中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种开放信息抽取模型的训练方法,其特征在于,所述方法包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。2.根据权利要求1所述的开放信息抽取模型的训练方法,其特征在于,所述生成所述目标数据集中每一条自然语言语句的转述句,包括:对于所述目标数据集中每一条自然语言语句,将所述自然语言语句、所述自然语言语句对应的句法树和目标句法树构成的序列输入至句法可控的转述生成模型中,得到所述转述生成模型输出的遵从所述目标句法树的语句;将所述语句作为所述自然语言语句的转述句;其中,所述转述生成模型,是利用平行语料ParaNMT

small训练的;所述平行语料ParaNMT

small中的每一个样本,均由自然语言语句及其对应的转述句组成。3.根据权利要求2所述的开放信息抽取模型的训练方法,其特征在于,所述自然语言语句对应的句法树,按下述方式确定:对所述自然语言语句进行句法解析以及括号树形式表示,得到所述自然语言语句对应的句法树;所述目标句法树,按下述方式确定:确定所述平行语料ParaNMT

small每一个样本中自然语言语句对应的句法树和转述句对应的句法树;对所述平行语料ParaNMT

small每一个样本中自然语言语句对应的句法树和转述句对应的句法树进行仅保留前三层的截断处理后,组合生成所述平行语料ParaNMT

small每一个样本对应的句法树对;由所述平行语料ParaNMT

small所有样本对应的句法树对构成句法树对集合,由所述平行语料ParaNMT

small所有样本中自然语言语句对应的句法树构成的第一句法树集合,并由所述平行语料ParaNMT

small所有样本中转述句对应的句法树构成的第二句法树集合;从第一句法树集合中选取与所述自然语言语句对应的句法树相似度最高的M个句法树,并将所述M个句法树作为源端句法树;根据每一个源端句法树和所述第二句法树集合中每一个句法树构成的句法树对在所述句法树对集合中出现的频次,确定每一个源端句法树对应的分布函数;从每一个源端句法树对应的分布函数中采样K个句法树,以得到M
×
K个句法树;将所述M
×
K个句法树均作为所述目标句法树;其中,每一个源端句法树对应的分布函数如下所示:
上式中,为所述源端句法树,为第二句法树集合中的句法树,为第二句法树集合中第j个句法树,为在所述句法树对集合中出现的频次,为在所述句法树对集合中出现的频次。4.根据权利要求2或3所述的开放信息抽取模型的训练方法,其特征在于,所述对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识,包括:对所述目标数据集中每一条自然语言语句的转述句,采用语义匹配方式,对所述转述句进行论元恢复,得到第一语句;采用句法树游走方式,对所述第一语句进行论元恢复,得到第二语句;采用谓词预测方式,对所述第二语句进行谓词恢复,得到所述自然语言语句对应的结构化知识。5.根据权利要求4所述的开放信息抽取模型的训练方法,其特征在于,所述采用语义匹配方式,对所述转述句进行论元恢复,得到第一语句,包括:获取所述自然语言语句对应的第一向量化嵌入表示和所述转述句对应的第二向量化嵌入表示;...

【专利技术属性】
技术研发人员:许斌齐济刘金鑫侯磊李涓子
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1