【技术实现步骤摘要】
一种基于数据合成和两阶段自训练的低资源关系抽取方法
[0001]本专利技术涉及数据合成领域,具体涉及一种基于数据合成和两阶段自训练的低资源关系抽取方法。
技术介绍
[0002]关系抽取系统作为知识抽取与图谱构建的重要技术支撑,旨在挖掘非结构化文本中实体间的关系,近年来成为自然语言处理领域的研究热点。尽管神经网络模型,特别是预训练语言模型,已经在关系抽取任务上取得了显著的突破,但是训练这些模型需要大量的标注数据。然而在许多现实场景中,获取高质量的标注数据通常是耗时耗力的,因此如何在有限的资源与数据下搭建性能优良的关系抽取系统,成为了一个重大挑战。
[0003]远监督通过将文本中的实体与现有知识库对齐,自动标注关系抽取数据,其作为一种构建大规模关系抽取数据集的有效方法被广泛研究。但是由于关系模式和文本语料库的不同,远监督标注的数据可能会与下游任务有很大差异,抑制了模型性能的进一步优化。例如出于对现有知识库的依赖,目前的远监督大多采用Wikidata作为关系三元组的来源,维基百科作为远监督的语料库。这就将标注数据的模式和文 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据合成和两阶段自训练的低资源关系抽取方法,包括以下步骤:步骤一、基于已标注的训练数据的数据合成:通过在训练数据中加入位置符的方式,将训练数据转化为线性的自然语言序列;构建基于大规模语言模型的数据合成模型,通过训练数据对数据合成模型进行微调;使用多项式抽样反复执行数据合成过程,直至获得符合预设条件的未标注的生成数据集,生成数据中具有位置符;为生成数据中的单词序列,,分别为的主体和客体;为生成数据的数量;步骤二、两阶段自学习:在训练数据集上训练自编码语言模型η,然后对加了位置符的生成数据集使用自编码语言模型η分类,实现软伪标签标注:;令的软伪标签集,为软伪标签;使用K个不同的随机种子训练多个自编码语言模型,记为教师模型η,第k个教师模型标注的软伪标签集记为;初始化一个新的自编码语言模型,记为学生模型,对学生模型应用两阶段训练策略:在第一阶段训练中,使用具有软伪标签的生成数据进行蒸馏训练:;将学生模型优化为学生模型,计算蒸馏损失:;代表KL散度;在第二阶段训练中,将学生模型在训练数据集上进行训练:;为标准的交叉熵损失函数,为对应的标签集,是第二阶段训练迭代后得到的学生模型;在下一次执行两阶段训练策略时,将学生模型作为教师模型η;重复执行两阶段训练策略,直至生成数据集中每个生成数据都被标注上软伪标签;步骤三、关系抽取:构建基于自编码语言模型的关系抽取模型;生成数据和训练数据统称为训练实例,训练实例的关系标签称为真实标...
【专利技术属性】
技术研发人员:张勇东,毛震东,陈伟东,宋彦,徐本峰,高杰,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。