一种基于多源标注的事件抽取方法、装置及系统制造方法及图纸

技术编号：41011046 阅读：2 留言：0更新日期：2024-04-18 21:47

本发明专利技术属于自然语言处理技术领域，公开了一种基于多源标注的事件抽取方法、装置及系统，方法包括步骤：创建一个包含多个不同事件类型的事件集；将从各种数据源收集大量文本；将语料库数据集划分为两个子集；对训练集进行标注；对标签进行融合；将通过标签聚合得到的最终标签作为训练标签，将训练集中的文本作为输入，对深度神经网络进行训练；训练好的神经网络模型被用来对新的文本进行事件抽取；利用训练好的模型，对新的文本进行事件类型的预测，从而完成事件抽取的任务。本发明专利技术有效评估标注方的区分能力，将标签与标注方在对应类别上的表现进行加权，得到适当的难标注事件标签的质量，在有限条件下获得高质量的事件抽取有标签数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理和人工智能，尤其涉及一种基于多源标注的事件抽取方法、装置及系统。

技术介绍

1、事件抽取是自然语言处理(nlp)中的一项关键任务，旨在从文本中识别并提取特定类型的事件。事件抽取对于许多应用有着重要的价值，包括信息检索、知识图谱构建、新闻摘要和监控等。

2、事件抽取的核心问题在于理解语义，这是一个具有挑战性的任务。最近，深度学习已经被广泛应用于事件抽取。然而，深度学习模型的成功往往依赖于大量的高质量标注数据来训练。然而，获取这样的数据是昂贵的，因为它需要人工专家进行细致的标注，这既耗时又费力。在保证质量与成本的平衡上，通常可以组织多个非专业的标注者对同一数据进行重复的标注。对于同一数据，不同标注者中出现最多的标签被认为具有高质量，并被视为真实的标签。然而，对于事件数据的标注，一个数据集中可能有数十个类别。区分如此多的类别已经是一项耗费精力的任务，存在的相似类别进一步增加了标注的困难。当标注难以区分的数据类别时，标注者可能会很容易犯错误。这可能导致错误的重复标签比正确的标签更多，因此打破了现有方法选择准确标签的标准，即众数投票方法。

3、现有技术中，申请号为cn202111624377.0的中国专利技术申请设计了一套基于众包技术的面向多层次标注者的事件标注系统，完成了数据集构建、语料库构建、标注机制、众包分配与聚合机制和结果数据库导出机制，具有相对完整的流程。然而，该专利技术申请仅以简单的众数投票作为众包聚合机制，没有考虑到每个标注个体水平之间的差异性，更没有考虑到混淆类的存在对标注

4、如上所述，众包标注也面临着诸多挑战。首先，不同标注方对不同类别的数据的标注水平不平衡。其次，标注方的标注质量可能会有很大的不同。因此，如何从众包标注中有效地提取有价值的信息，以及如何设计算法来适当地聚合这些标注，以获得高质量的标注结果，是当前面临的一项关键问题。本专利技术即是针对这一问题，提出了一种基于多源标注的事件抽取方法、装置及系统。

技术实现思路

1、有鉴于此，本专利技术创造提出了一种基于多源标注的事件抽取方法、装置及系统，对众包标签选择进行了基础研究，设计了一个质量评估过程，该过程将能力强的标注者权重高于能力弱的标注者。通过多轮质量评估算法，正确的标签能够在数量上占优势，超越错误的标签，大大提高聚合后标注的准确度，从而得到更加健壮的事件抽取模型。

2、为实现上述专利技术目标，本专利技术公开了一种基于多源标注的事件抽取方法，包括以下步骤：

3、创建一个包含多个不同事件类型的事件集，每个事件由一个或多个角色组成；

4、从多种数据源收集文本，文本包含要抽取的事件；基于文本构建语料库，语料库的数据包括多个领域、主题和文本类型；

5、将构建的语料库数据集d划分为两个子集：训练集dtr和推理集dte；所述训练集dtr用于模型学习和训练的部分，所述推理集dte用于模型进行事件抽取推理的部分；

6、对训练集进行标注，得到标签；

7、对标签进行融合，包括推断易混淆类别，对标签质量进行评估，并融合标签；

8、将通过标签聚合得到的最终标签作为训练标签，将训练集中的文本作为输入，对一个深度神经网络进行训练；

9、训练好的神经网络模型f*用于对新的文本进行事件抽取：给定一个推理集用模型f*对每一个文本ti进行预测，得到预测的事件标签i∈{1，2，...，m}，其中m是推理文本的总数，i为文本标号；

10、利用训练好的模型，对新的文本进行事件类型的预测，从而完成事件抽取的任务。

11、进一步地，创建一个包含多个不同事件类型的事件集，每个事件由一个或多个角色组成，包括：

12、首先，根据需要抽取的事件类型，定义每种事件的角色；然后，从领域专家的知识库中获取相关的事件和角色信息，以丰富事件集；最后，对事件集进行反复的审查和修订，确保其完整性和准确性；

13、构建完成的事件集e表示为包含n类事件的集合e＝{e1，e2，…，en}，其中每个事件e是由m个角色构成的集合ei＝{r1，r2，…，rm}，i∈[1，n]，rm为第m个角色。

14、进一步地，所述数据集划分，包括：

15、训练集dtr占据整个数据集的小部分，但保证有足够数量的样本；剩余的样本则构成推理集dte；进一步地，将训练集dtr划分为已知集dk和未知集du，已知集dk中的样本是已经精确标注的部分，在未知集du中，样本的正确标签是未知的，这样，整个数据集d被划分为已知集dk，未知集du和推理集dte。

16、进一步地，推断易混淆类别包括：

17、构建各种常见的易混淆类别集合，记为gk，k＝1，2，…，m，m为易混淆类别总数；对每一个标注者，预先对其进行测试，判断其在标注类上的准确率；如果准确率过低，那么将该组所对应的易混淆类加入到该标注者的易混淆类别集中，即

18、ll＝{class(gk)|accl(gk)≤λ}，k∈{1，2，...，m}；

19、λ为accl(gk)表示易混淆类别测试集合gk上第l个标注者的标注结果的标签准确率，m为易混淆类别总数，l是易混淆类的编号。

20、进一步地，标签的质量是一个高斯分布，其分布函数由数学期望e和方差v决定，即：

21、qi＝(ei，vi)，ei∈[0，1]，vi∈[0，∞)

22、标注质量的数学期望通过不断迭代来达到最终的估计，某个标注质量迭代的依据是根据它与其他标注的一致性程度来决定的；迭代起始时，初始化所有标注的质量为：

23、ei＝pi，vi＝0，i＝1，2，

24、pi为标注者i在预先的随机抽取得到的验证集ri上的标注精度，表示为：

25、pi＝acci(ri)

26、其中acci(ri)是第i个标注者标注ri的结果的标签准确率；

27、共有m个标注，其中第i个标注的标注结果是yi，其混淆类是li，那么其标注的质量表示如下：

28、

29、i，k∈{1，2，…，m}，i≠k，y＝{y1，y2，…，ym}

30、其中，y是标注结果的集合，lk，ek分别是第k个标注的混淆类和数学期望，是更新后的标签yi的质量，s(·)是s形函数，用以平滑输出，s-1(·)是s(·)的反函数，它们的解析式如下：

31、

32、f(ei，li；y，{lk}，{ek})项通过下面的方程计算：

33、

34、

35、

36、

37、其中yi是第i个标注者的标注结果，ci，k表示标注者i和k之间的一致性，表示标注类别为混淆类的标注结果，g(ei，ek；lk)是置信度的更新量；

38、标签质量的方差由下面的方程计算：<本文档来自技高网...

【技术保护点】

1.一种基于多源标注的事件抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多源标注的事件抽取方法，其特征在于，创建一个包含多个不同事件类型的事件集，每个事件由一个或多个角色组成，包括：

3.根据权利要求2所述的基于多源标注的事件抽取方法，其特征在于，所述数据集划分，包括：

4.根据权利要求1所述的基于多源标注的事件抽取方法，其特征在于，推断易混淆类别包括：

5.根据权利要求4所述的基于多源标注的事件抽取方法，其特征在于，标签的质量是一个高斯分布，其分布函数由数学期望E和方差V决定，即：

6.根据权利要求5所述的基于多源标注的事件抽取方法，其特征在于，将得到的标签质量作为众数投票的权重，对最终聚合的标签结果进行投票，得到最终具有高可靠性的标签，即：

7.根据权利要求6所述的基于多源标注的事件抽取方法，其特征在于，对一个深度神经网络进行训练，包括：

8.一种使用如权利要求1-7任一项所述方法的基于多源标注的事件抽取装置，其特征在于，包括

9.一种基于多源标注的事件抽取系统

...

【技术特征摘要】

1.一种基于多源标注的事件抽取方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于多源标注的事件抽取方法，其特征在于，所述数据集划分，包括：

4.根据权利要求1所述的基于多源标注的事件抽取方法，其特征在于，推断易混淆类别包括：

5.根据权利要求4所述的基于多源标注的事件抽取方法，其特征在于，标签的质量是一个高斯分布，其分布函数由数学期望e...

【专利技术属性】
技术研发人员：刘丽华，黄宏斌，吴继冰，王懋，张翀，陈海文，王吉，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人