System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于人工引导的开放信息抽取聚类方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

基于人工引导的开放信息抽取聚类方法技术

技术编号:41069327 阅读:3 留言:0更新日期:2024-04-24 11:24
本发明专利技术提供一种基于人工引导的开放信息抽取聚类方法,首先对于预定义关系的标注数据,在聚类空间中拉近相同关系的表示;对于未标注数据,设计了一种针对聚类的标签策略,选择若干点进行标注。然后在聚类空间中将所有点分配给最近的标注点并得到伪标签,基于该伪标签和未标注样本对BERT模型进行关系抽取训练。本发明专利技术的基于人工引导的开放信息抽取聚类方法将原来的OpenRE两阶段过程相统一,从而提高模型性能。同时可以有效减轻对未标注样本估计偏差造成较坏影响,可以广泛应用于各种分布的未标注数据。此外,本发明专利技术提出的OpenRE两阶段统一框架在该领域内并未采用过,为后续信息抽取聚类具有启发性。

【技术实现步骤摘要】

本专利技术属于数据分析处理领域,具体涉及一种基于人工引导的开放信息抽取聚类方法


技术介绍

1、关系提取(re)的目的是检测和提取非结构化文本中给定的实体对之间的关系。遵循监督学习和远程监督学习范式的典型关系抽取方法建立在封闭世界假设的基础上。也就是说,要提取的关系是提前定义好的。为了处理现实世界中出现的未知关系类型,开放关系抽取得到了广泛的研究。开放域关系抽取(openre)研究领域的一个经典处理范式是开放信息抽取(openie)。然而,提取结果可能存在冗余和歧义。近年来,基于聚类的无监督关系发现方法受到越来越多的关注。该范式通过人类定义的语言特征或预先训练的语言模型中的知识构建的实例表示来聚类和识别关系。一些研究人员还试图转移预定义关系标记数据中的知识,以提高聚类性能。

2、基于聚类的方法将openre拆分为两个阶段,这导致以下问题。在第一阶段,很难准确估计数据中簇的数量。不准确的估计会导致聚类结果出现错误并进一步混淆了第二阶段的语义标注。同时,第二阶段子集群的合并困难且容易出错。当簇的数量被低估时,不同关系的样本混合在同一组中。如果将这个簇标记为其中一种关系,那么这个簇中的其他关系全部被标注错误。虽然有些聚类方法不需要预先指定聚类的数量,这些方法仍然依赖于对数据本身性质的各种假设,它们的结果不能得到保证。


技术实现思路

1、为解决上述问题,提供一种人工引导的openre聚类方法,该方法将孤立的两阶段统一,以有效地提高现有方法在openre上的性能,本专利技术采用了如下技术方案:

2、本专利技术提供了一种基于人工引导的开放信息抽取聚类方法,其特征在于,包括以下步骤:步骤s1,对于预定义关系的标注样本,在聚类空间中拉近该标注样本中相同关系的表示;步骤s2,对于未标注样本,采用针对聚类的标签策略筛选出若干密度较大同时两两将较远的点进行标注作为标注点;步骤s3,在聚类空间中选择距离标注点最近的点作为该标注点所在的簇,并分配伪标签;步骤s4,使用未标注样本和伪标签对预训练模型bert进行关系抽取训练。

3、本专利技术提供的基于人工引导的开放信息抽取聚类方法,还可以具有这样的技术特征,其中,步骤s1包括以下子步骤:步骤s1-1,基于深度预训练语言模型编码获取预定义关系的标注样本的富特征表示;步骤s1-2,将富特征表示通过一个非线性映射映射到一个聚类空间,使用center loss将相同关系的样本表示拉近。

4、本专利技术提供的基于人工引导的开放信息抽取聚类方法,还可以具有这样的技术特征,其中,在步骤s1-2中,为了防止不同关系样本的表示距离过近,将聚类空间的表示通过一个非线性变换映射回bert表示空间,将两个表示使用重构loss训练。

5、本专利技术提供的基于人工引导的开放信息抽取聚类方法,还可以具有这样的技术特征,其中,步骤s2包括以下子步骤:步骤s2-1,将未标注样本映射到聚类空间,计算每个样本在一定半径r内其他点的数量作为该点的密度;步骤s2-2,计算每个样本距离一个比他密度大的样本的距离;步骤s2-3,通过步骤s2-2和步骤s2-3,筛选出若干密度较大同时两两将较远的样本点。

6、本专利技术提供的基于人工引导的开放信息抽取聚类方法,还可以具有这样的技术特征,其中,步骤s3的具体过程为:在聚类空间中,计算所有样本点距离标注点的距离,选择距离最近的点作为标注点所在的簇,并按照标注的点分配伪标签,同时,将所有样本分成两类,距离标记点距离小于一定阈值的作为高置信度样本,高于阈值的作为低置信度样本。

7、本专利技术提供的基于人工引导的开放信息抽取聚类方法,还可以具有这样的技术特征,其中,步骤s4具体为:在预训练模型bert-base-cased的基础上,将未标注样本作为模型输入,伪标签作为模型输出,进行模型fine-tune过程,对于高置信度样本,使用交叉熵损失函数进行优化,对于低置信度样本,使用对比学习进行优化。

8、专利技术作用与效果

9、根据本专利技术的一种基于人工引导的开放信息抽取聚类方法,首先对于预定义关系的标注数据,在聚类空间中拉近相同关系的表示;对于未标注数据,设计了一种针对聚类的标签策略,选择若干点进行标注。然后在聚类空间中将所有点分配给最近的标注点并得到伪标签,基于该伪标签和未标注样本对bert模型进行关系抽取训练。本专利技术的基于人工引导的开放信息抽取聚类方法将原来的openre两阶段过程相统一,从而提高模型性能。同时可以有效减轻对未标注样本估计偏差造成较坏影响,可以广泛应用于各种分布的未标注数据。此外本专利技术提出的openre两阶段统一框架在该领域内并未采用过,为后续信息抽取聚类具有启发性。

本文档来自技高网...

【技术保护点】

1.一种基于人工引导的开放信息抽取聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

3.根据权利要求2所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

4.根据权利要求1所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

5.根据权利要求1所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

6.根据权利要求5所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

【技术特征摘要】

1.一种基于人工引导的开放信息抽取聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

3.根据权利要求2所述的基于人工引导的开放信息抽取聚类方法,其特征在于:

...

【专利技术属性】
技术研发人员:桂韬张奇黄萱菁乔梁程战战
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1