【技术实现步骤摘要】
一种快速启动的交互式关系标注与抽取框架
[0001]本专利技术涉及一种以人机交互为基础,快速启动的交互式关系标注与抽取框架,属于计算机人工智能以及自然语言处理
技术介绍
[0002]关系抽取是信息抽取领域的重要子任务,在知识图谱、对话系统和知识问答系统的构建等多个应用场景中起到关键作用,在医疗、军事、金融等领域也具有广泛的应用价值。关系抽取的主要目标是从文本中抽取出<主、谓、宾>的三元组结构,或<头、关系、尾>。关系抽取的常见形式是输入一段文本和其涉及的两个实体,判断文本内容是否描述了两个实体之间存在的关系,并推断出存在何种关系。
[0003]在过去的研究中,监督学习关系抽取方法取得了不错的效果。但监督学习方法本身依赖于大量的标注数据,这些标注数据的获得往往需要耗费极大的人力物力,这使得监督学习方法在实际业务落地中的冷启动成本非常高昂,难以普及。此外,监督学习方法的可迁移性也较差,例如用通用领域语料训练出来的监督学习关系抽取模型,很难应用于特定领域。因此,监督学习关系抽取方法在实际应用落地中存在诸多问题。
[0004]少样本学习技术是一种解决冷启动数据需求问题的有效方法。元学习技术是少样本学习技术中的一类重要技术,利用元学习可对关系抽取任务进行预训练,从而获得关系抽取模型的一套初始化参数。这一套初始化参数能够利用少数训练数据进行快速收敛,从而解决关系抽取任务中的冷启动数据需求问题。
[0005]主动学习技术被广泛用于降低标注成本 ...
【技术保护点】
【技术特征摘要】
1.一种快速启动的交互式关系标注与抽取框架,其特征在于,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。2.根据权利要求1所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练,构建快速启动交互式关系标注与抽取框架,框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库。3.根据权利要求2所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Net
ner
,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Net
re
,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Net
re
的参数θ0进行微调,得到参数θ1。4.根据权利要求3所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S。5.根据权利要求4所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,在待处理文本中将命名实体识别的结果{e1,e2,...e
n
}进行标记。6.根据权利要求5所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{e
h
,e
t
},将被标注者选中的实体对{e
h
,e
t
},以及包含实体对的句子S、实体类型{C
h
,C
t
}和实体在句子中的相对位置{Pos
h
,Pos
t
}作为下一步进行关系抽取的输入。7.根据权利要求6所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体e
h
,对应类型为C
h
,后点击的实体为e
t
,对应类型为C
t
;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:1)若e
h
和e
t
均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Pos
h
={h
start
,h
end
},Pos
t
={t
start
,t
end
}...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。