一种快速启动的交互式关系标注与抽取框架制造技术

技术编号：32490269 阅读：16 留言：0更新日期：2022-03-02 09:56

本发明专利技术涉及一种快速启动的交互式关系标注与抽取框架，包括以下步骤：S1：使用通用命名实体识别数据集对命名实体识别模型进行预训练；S2：使用通用关系抽取数据集对少样本关系抽取模型进行预训练；S3：设定待抽取关系和少量标注数据；S4：对待抽取文本进行数据预处理；S5：使用命名实体识别模型对待抽取文本进行命名实体识别；S6：对实体进行人工配对；S7：对配对结果进行初步关系抽取；S8：对关系抽取结果进行人工校对；S9：对少样本关系抽取模型进行微调；S10：重复S4到S9直到所有的待抽取文本均处理完成。该方案克服现有启动成本高昂和重人力成本投入的缺点，实现具有快速启动和低人工成本特性的关系标注和抽取。成本特性的关系标注和抽取。成本特性的关系标注和抽取。

全部详细技术资料下载

【技术实现步骤摘要】
一种快速启动的交互式关系标注与抽取框架

[0001]本专利技术涉及一种以人机交互为基础,快速启动的交互式关系标注与抽取框架，属于计算机人工智能以及自然语言处理

技术介绍

[0002]关系抽取是信息抽取领域的重要子任务，在知识图谱、对话系统和知识问答系统的构建等多个应用场景中起到关键作用，在医疗、军事、金融等领域也具有广泛的应用价值。关系抽取的主要目标是从文本中抽取出<主、谓、宾>的三元组结构，或<头、关系、尾>。关系抽取的常见形式是输入一段文本和其涉及的两个实体，判断文本内容是否描述了两个实体之间存在的关系，并推断出存在何种关系。
[0003]在过去的研究中，监督学习关系抽取方法取得了不错的效果。但监督学习方法本身依赖于大量的标注数据，这些标注数据的获得往往需要耗费极大的人力物力，这使得监督学习方法在实际业务落地中的冷启动成本非常高昂，难以普及。此外，监督学习方法的可迁移性也较差，例如用通用领域语料训练出来的监督学习关系抽取模型，很难应用于特定领域。因此，监督学习关系抽取方法在实际应用落地中存在诸多问题。
[0004]少样本学习技术是一种解决冷启动数据需求问题的有效方法。元学习技术是少样本学习技术中的一类重要技术，利用元学习可对关系抽取任务进行预训练，从而获得关系抽取模型的一套初始化参数。这一套初始化参数能够利用少数训练数据进行快速收敛，从而解决关系抽取任务中的冷启动数据需求问题。
[0005]主动学习技术被广泛用于降低标注成本...

【技术保护点】

【技术特征摘要】
1.一种快速启动的交互式关系标注与抽取框架，其特征在于，包括以下步骤：S1：使用通用命名实体识别数据集对命名实体识别模型进行预训练；S2：使用通用关系抽取数据集对少样本关系抽取模型进行预训练；S3：设定待抽取关系和少量标注数据；S4：对待抽取文本进行数据预处理；S5：使用命名实体识别模型对待抽取文本进行命名实体识别；S6：对实体进行人工配对；S7：对配对结果进行初步关系抽取；S8：对关系抽取结果进行人工校对；S9：对少样本关系抽取模型进行微调；S10：重复S4到S9直到所有的待抽取文本均处理完成。2.根据权利要求1所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S1：使用通用命名实体识别数据集对命名实体识别模型进行预训练，构建快速启动交互式关系标注与抽取框架，框架包含：命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库。3.根据权利要求2所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练，具体如下，构建框架中的命名实体识别模型Net
ner
，采用通用领域命名实体类识别数据集进行预训练；构建所述框架中的少样本关系抽取模型Net
re
，先使用通用领域关系抽取数据集以元学习方式训练，得到初始化参数θ0，再使用专用关系抽取数仓库对Net
re
的参数θ0进行微调，得到参数θ1。4.根据权利要求3所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S3：设定待抽取关系和少量标注数据；从待处理文本仓库中，选取一条待抽取文本S。5.根据权利要求4所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S4：对待抽取文本进行数据预处理；使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别，在待处理文本中将命名实体识别的结果{e1，e2，...e
n
}进行标记。6.根据权利要求5所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S5：使用命名实体识别模型对待抽取文本进行命名实体识别，具体如下，标注者手动将S4中识别出的命名实体进行配对，即选出需要进行关系抽取的头尾实体对{e
h
，e
t
}，将被标注者选中的实体对{e
h
，e
t
}，以及包含实体对的句子S、实体类型{C
h
，C
t
}和实体在句子中的相对位置{Pos
h
，Pos
t
}作为下一步进行关系抽取的输入。7.根据权利要求6所述的快速启动的交互式关系标注与抽取框架，其特征在于，步骤S6：对实体进行人工配对，标注者手动将命名实体进行配对：在文本中依次点击两个实体，先点击的实体为头实体e
h
，对应类型为C
h
，后点击的实体为e
t
，对应类型为C
t
；实体根据点击的实体和其所在的句子之间的关系，计算实体在句子中的相对位置，具体做法如下：1)若e
h
和e
t
均包含于句子S，则将句子S的第一个字的序号标记为0，第二个字的序号标记为1，依次标记整个句子S，则Pos
h
＝{h
start
，h
end
}，Pos
t
＝{t
start
，t
end
}...

【专利技术属性】
技术研发人员：李学恺，漆桂林，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人