【技术实现步骤摘要】
一种基于ERNIE的远程监督关系抽取的降噪方法
本专利技术涉及自然语言处理
,尤其涉及一种基于ERNIE的远程监督关系抽取的降噪方法。
技术介绍
关系抽取是信息抽取中的一个基本任务,研究的是如何预测句子中实体对之间的语义关系。关系抽取的一个关键问题是相对缺乏大规模的高质量的标注数据。近年来,应对这一挑战的常用而有效的方法是利用远程监督实现通过语料与知识库对齐来获取训练数据的方法,即假设知识库中存在某一个实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。远程监控策略是一种有效的大规模训练数据自动标注方法。远程监督关系抽取被广泛应用于寻找新的关系文本中的事实。然而,由于一句话中提到两个实体并不一定表示两者之间的关系情况,因此远程监督不可避免地存在着错误的标签问题,这些问题中的噪音数据会严重影响关系抽取的性能。大量关于处理远程监督的噪声数据的研究工作已经取得重大进展,特别是近年来用于关系抽取的深度神经网络的快速发展给处理噪声工作带来了质的飞跃,但是在处理噪声的实验结果仍然有待提升。基于 ...
【技术保护点】
1.一种基于ERNIE的远程监督关系抽取的降噪方法,其特征在于,包括步骤:/n通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;/n将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;/n利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;/n用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;/n将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。/n
【技术特征摘要】
1.一种基于ERNIE的远程监督关系抽取的降噪方法,其特征在于,包括步骤:
通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;
将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;
用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;
将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
2.根据权利要求1所述的方法,其特征在于,所述关系标签为NA和notNA这两种关系标签。
3.根据权利要求1所述的方法,其特征在于,所述利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集的步骤中,具体为:
将原始训练集分成标签为NA和非NA的两部分,再利用之前训练好的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则从原始训练集中去除这个句子,这样就去除了训练集中标签为非NA的包中的假正性噪声数据,将去除假正性噪声数据的关系为非NA的包和原始训练集中关系为NA的包合并成新的数据集,即得到了新的降噪后的训练集。
4.根据权利要求1所述的方法,其特征在于,所述用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型的步骤中,包括:
利用CNN作为编码器得到各个包中的句子的向量表示;
利用attent...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。