当前位置: 首页 > 专利查询>东南大学专利>正文

一种快速启动的交互式关系标注与抽取框架制造技术

技术编号:32490269 阅读:16 留言:0更新日期:2022-03-02 09:56
本发明专利技术涉及一种快速启动的交互式关系标注与抽取框架,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。该方案克服现有启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取。成本特性的关系标注和抽取。成本特性的关系标注和抽取。

【技术实现步骤摘要】
一种快速启动的交互式关系标注与抽取框架


[0001]本专利技术涉及一种以人机交互为基础,快速启动的交互式关系标注与抽取框架,属于计算机人工智能以及自然语言处理


技术介绍

[0002]关系抽取是信息抽取领域的重要子任务,在知识图谱、对话系统和知识问答系统的构建等多个应用场景中起到关键作用,在医疗、军事、金融等领域也具有广泛的应用价值。关系抽取的主要目标是从文本中抽取出<主、谓、宾>的三元组结构,或<头、关系、尾>。关系抽取的常见形式是输入一段文本和其涉及的两个实体,判断文本内容是否描述了两个实体之间存在的关系,并推断出存在何种关系。
[0003]在过去的研究中,监督学习关系抽取方法取得了不错的效果。但监督学习方法本身依赖于大量的标注数据,这些标注数据的获得往往需要耗费极大的人力物力,这使得监督学习方法在实际业务落地中的冷启动成本非常高昂,难以普及。此外,监督学习方法的可迁移性也较差,例如用通用领域语料训练出来的监督学习关系抽取模型,很难应用于特定领域。因此,监督学习关系抽取方法在实际应用落地中存在诸多问题。
[0004]少样本学习技术是一种解决冷启动数据需求问题的有效方法。元学习技术是少样本学习技术中的一类重要技术,利用元学习可对关系抽取任务进行预训练,从而获得关系抽取模型的一套初始化参数。这一套初始化参数能够利用少数训练数据进行快速收敛,从而解决关系抽取任务中的冷启动数据需求问题。
[0005]主动学习技术被广泛用于降低标注成本,且在计算机视觉领域取得了较好的效果。主动学习技术通过计算机器学习过程中的指标,获取较难分类的数据样本。然后人工对这些样本进行校对和审核,并将校对后数据重新用于机器学习模型的训练,从而提升机器学习模型的性能,并降低标注的数据量。

技术实现思路

[0006]本专利技术正是针对现有技术中存在的问题,提供一种快速启动的交互式关系标注与抽取框架,该技术方案提出了利用人工校对信息降低标注数据并提升模型性能的主动学习技术,结合了少样本关系抽取技术以提升模型的冷启动性能,基于本专利技术公布的框架,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。
[0007]为了实现上述目的,本专利技术的技术方案如下,一种快速启动的交互式关系标注与抽取框架,包括以下步骤:
[0008]S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;
[0009]S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
[0010]S3:设定待抽取关系和少量标注数据;
[0011]S4:对待抽取文本进行数据预处理;
[0012]S5:使用命名实体识别模型对待抽取文本进行命名实体识别;
[0013]S6:对实体进行人工配对;
[0014]S7:对配对结果进行初步关系抽取;
[0015]S8:对关系抽取结果进行人工校对;
[0016]S9:对少样本关系抽取模型进行微调;
[0017]S10:重复S4到S9直到所有的待抽取文本均处理完成。本框架提出了利用人工校对信息降低标注数据并提升模型性能的主动学习技术,结合了少样本关系抽取技术以提升模型的冷启动性能。利用校对后数据进行模型微调,提升模型抽取的效果。基于本专利技术公布的框架,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。
[0018]作为本专利技术的一种改进,步骤S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练,构建快速启动交互式关系标注与抽取框架,其中框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库,此外,所述框架还包含人工校对交互方法、元学习训练方法、参数更新方法和主动学习。
[0019]作为本专利技术的一种改进,步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Net
ner
,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Net
re
,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Net
re
的参数θ0进行微调,得到参数θ1。
[0020]作为本专利技术的一种改进,步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S。
[0021]作为本专利技术的一种改进,步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,为方便标注者处理,在待处理文本中将命名实体识别的结果{e1,e2,...e
n
}进行标记。
[0022]作为本专利技术的一种改进,步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{e
h
,e
t
}。将被标注者选中的实体对{e
h
,e
t
},以及包含实体对的句子S、实体类型{C
h
,C
t
}和实体在句子中的相对位置{Pos
h
,Pos
t
}作为下一步进行关系抽取的输入。
[0023]作为本专利技术的一种改进,步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体e
h
,对应类型为C
h
,后点击的实体为e
t
,对应类型为C
t
;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:
[0024]1)若e
h
和e
t
均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Pos
h
={h
start
,h
end
},Pos
t
={t
start
,t
end
}。其中h
start
为e
h
的开始的字的序号,h
end
为e
h
的结束的字的序号,t
start
为e
t
的开始的字的序号,t
end
为e
t
的结束的字的序号;
[0025]2)若e
h
和e
t
包含于两个相连的句子S1和S2,则将S1和S2进行连接,记为S,若S长度小于等于预设阈值L,并按1)所述方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种快速启动的交互式关系标注与抽取框架,其特征在于,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。2.根据权利要求1所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练,构建快速启动交互式关系标注与抽取框架,框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库。3.根据权利要求2所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Net
ner
,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Net
re
,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Net
re
的参数θ0进行微调,得到参数θ1。4.根据权利要求3所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S。5.根据权利要求4所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,在待处理文本中将命名实体识别的结果{e1,e2,...e
n
}进行标记。6.根据权利要求5所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{e
h
,e
t
},将被标注者选中的实体对{e
h
,e
t
},以及包含实体对的句子S、实体类型{C
h
,C
t
}和实体在句子中的相对位置{Pos
h
,Pos
t
}作为下一步进行关系抽取的输入。7.根据权利要求6所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体e
h
,对应类型为C
h
,后点击的实体为e
t
,对应类型为C
t
;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:1)若e
h
和e
t
均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Pos
h
={h
start
,h
end
},Pos
t
={t
start
,t
end
}...

【专利技术属性】
技术研发人员:李学恺漆桂林
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1