System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于因果关系表示增强的跨领域命名实体的方法技术_技高网
当前位置: 首页 > 专利查询>中原工学院专利>正文

一种基于因果关系表示增强的跨领域命名实体的方法技术

技术编号:41180274 阅读:5 留言:0更新日期:2024-05-07 22:14
本发明专利技术公开了一种基于因果关系表示增强的跨领域命名实体的方法,首先将源域的语义特征与目标域的语义特征进行融合,生成一种增强的上下文语义特征表示。然后,通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系,以便更好地理解和利用这些关系。最后,在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应特征表示,用于进一步优化预测效果。在五个英文数据集和一个专有的跨领域实体识别数据CrossNER上,与现有方法相比,CRRE‑NER模型平均性能提高了0.36%,在小样本场景中的跨领域任务提高幅度达到1.05%。这表明提取和利用潜在的因果关系可有效增强对目标域实体识别的能力。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种基于因果关系表示增强的跨领域命名实体的方法


技术介绍

1、命名实体识别(named entity recogni-tion,ner)是自然语言处理领域的一个基础任务,其目标是从文本中识别出具有特定语义的实体信息,如人名、地名、组织机构名等,这项技术在知识图谱、信息提取、文本理解等领域有着广泛的应用。然而,在实践应用中,由于不同领域的文本类型和实体名称存在巨大的差异,导致特定目标领域的标注数据十分稀缺,这使得将ner模型应用于数据资源匮乏领域的跨领域命名实体识别(cross-domainnamed-entity recognition,cd-ner)成为当前的一个热门研究方向。

2、图1展示了跨领域实体识别迁移学习中的挑战,以及如何利用因果关系表示来增强目标领域的实体识别能力。以源领域中的句子“david marked keynote in the book”为例,源领域模型将“david”标记为“person”,这是通过学习“david”和“marked”的语义依赖关系实现的。然而,当这种依赖关系迁移到目标领域的句子“as ajudge,david markedthis book with a score”时,可能会出现语义不匹配的问题。源领域中的“marked”表示“标记”,而目标领域中的“marked”表示“打分”,这种语义差异可能导致源领域模型在目标领域的预测失准。此外,源领域模型在大规模语料库上训练,发现“david”的实体特征表示与“marked”高度相关。当这种特征迁移到目标领域后,可能会干扰实体的特征表示,导致目标域预测“david”为“person”而非正确的“writer”标签。这种问题可以通过缓解领域迁移导致的虚假语义特征对标签预测的影响来解决,从而提升目标领域的实体识别能力。由该例可知,虚假语义特征会影响目标领域标签的生成。现有技术中有的通过对文本中的实体和非实体部分的特征进行比较,实体的特征表示与预测标签之间主要具有因果效应,而非实体特征中更多地蕴含对实体标签预测的虚假关联,这一发现为本专利技术的论断提供了有力支持。然而,现有的跨领域方法主要关注如何将源领域的语义特征迁移到目标领域,但往往忽视了虚假关联对预测的影响,这可能对目标任务的结果产生负面影响。最新一些关于因果学习的研究也表明,利用结构因果模型、因果干预和反事实推断能够增强这种具有因果相关特征表示对下游任务的预测。例如采用域自适应因果编码器,通过依赖树和对抗学习的特性来提取相应的因果信息,但这种方法主要是利用梯度反转方法来最小化训练和测试数据集之间的分布偏移。

3、上述方法只是在领域内对数据分布特征进行因果关系讨论,并没有对跨领域任务中的特征表示与标签之间的因果关系进行深入研究。为此,我们提出一种基于因果关系表示增强的跨领域命名实体的方法。


技术实现思路

1、本专利技术要解决的技术问题是克服现有的缺陷,提供一种基于因果关系表示增强的跨领域命名实体的方法,提出并深入探讨了一种新颖地利用文本序列特征与标签之间的因果关系来增强跨领域命名实体识别的方法,通过引入因果推断方法来解决跨领域中产生的虚假语义特征,充分利用存在的直接因果效应特征表示来提高目标领域的实体识别能力,可以有效解决
技术介绍
中的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于因果关系表示增强的跨领域命名实体的方法,采用bert作为骨干模型,结构因果模型作为因果关系捕捉器,干预和反事实作为具有因果效应的语义特征提取器,构建crre-ner架构模型,crre-ner架构模型包括语义特征融合模块、因果学习模块、干预和反事实模块,其特征在于,包括以下步骤:

3、s1)训练源域模型:定义一个源领域ds和一个目标领域dt,每个领域d包含一个文本序列集合xd={x1,x2,...,xn},其中xi=(x1,x2,...,xk)是文本中的单词或字符序列,以及一个实体标签序列集合yd={y1,y2,...,yn},其中yi=(y1,y2,...,yk)是文本中的实体标签序列,利用源领域的训练数据ds={xs,ys}来训练一个模型mθ,然后在目标领域dt上进行预测;

4、给定一个在源域数据集ds上预训练ner模型f0,通过目标数据集来获取模型中具有因果关系的语义特征,按照以往的做法,由于f0是由ds训练的,所以往往重复训练ds是大规模的和耗时的。因此,假设在跨领域特征知识迁移时,使用ds去训练出模型f0,那么在目标域中可以充分利用f0的特征知识。

5、s2)语义特征融合:通过将源域中的特征知识迁移到目标域中进行语义特征融合,从而更好的结合领域之间的语义特征知识;

6、s3)因果学习:用于捕捉融合语义特征与目标域标签的因果关系;

7、s4)干预和反事实:通过干预和反事实来提取蕴含的直接因果效应特征表示来获取最优的结果。

8、作为本专利技术的一种优选技术方案,所述步骤s2)语义特征融合具体包括以下步骤:

9、首先将源域模型通过预测每个目标域中所有样本实体类型的平均值,即将源域模型中的特征知识转化为相对应的条件分布p(ys∣yt=y)具体计算如下:

10、

11、其中表示拥有真实标签的目标域训练样本数目,并且f0中蕴含着大量的语义特征知识,可以近似理解为源域的概率模型p(ys∣xt);下一步,利用条件分布来构建源域图gs(vs,es),源域模型通过骨干网络(backbone)提取输入数据的高级特征,然后通过分类层(classification)进行预测,形成整体的源域图结构,其中图结点代表的是文本序列中词(token)所对应的语义特征表示,token在ner任务中可以称为实体或者非实体,边代表的是语义相似性特征,根据以上特征,通过利用概率模型构建图结点表示为:

12、

13、是每个token对应的语义特征表示,|ys|是源领域标签的数量,通过对节点进行规范化处理并引入沃瑟斯坦距离(wasserstein distance,wd)作为距离函数来计算结点之间距离,计算结点之间距离大小作为源域图的边,其中距离函数越大代表文本中对应的token之间的相似性越小,距离函数越小代表文本中对应token之间的语义相似性越大,因此边可以表示为:

14、

15、然后,当且仅当两个节点的距离小于阈值时,我们在两个节点之间加边,此时源域图构建完成后,在目标域中给定一个序列x=[x1,x2,...,xt]和标签y=[y1,y2,...,yt],通过骨干网络生成文本序列中每个token的特征表示d是维度的大小;然后利用图卷积神经网络(graph convolutional network,gcn)对图结构中每个节点的相邻节点进行信息传播,之后通过聚合操作学习token之间的语义相似性特征,最后生成新的聚合节点表示计算如下:

16、

17、通过把聚合结点表示嵌入到目标域文本序列本文档来自技高网...

【技术保护点】

1.一种基于因果关系表示增强的跨领域命名实体的方法,采用BERT作为骨干模型,结构因果模型作为因果关系捕捉器,干预和反事实作为具有因果效应的语义特征提取器,构建CRRE-NER架构模型,CRRE-NER架构模型包括语义特征融合模块、因果学习模块、干预和反事实模块,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S1)训练源域模型具体包括以下步骤:

3.根据权利要求2所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S2)语义特征融合具体包括以下步骤:

4.根据权利要求3所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:引入二元交叉熵损失函数(Binary-Cross-Entropy,BCE)损失函数,具体损失计算如下:

5.根据权利要求4所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S3)因果学习具体包括以下步骤:

6.根据权利要求5所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:为两条边引入交叉熵损失函数(Cross Entropyloss,CE),LGY代表边G→Y的损失函数,LEY代表边E→Y的的损失函数,LGY和LEY计算公式如下:

7.根据权利要求6所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S4)干预和反事实具体包括以下步骤:

8.根据权利要求7所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S4)干预和反事实具体还包括以下步骤:

9.根据权利要求7所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤S4)干预和反事实中,在对实体进行掩码操作时,只对源域和目标域标签中具有所属关系的实体进行掩码操作,在计算Y*时其他边的计算方式不变。

...

【技术特征摘要】

1.一种基于因果关系表示增强的跨领域命名实体的方法,采用bert作为骨干模型,结构因果模型作为因果关系捕捉器,干预和反事实作为具有因果效应的语义特征提取器,构建crre-ner架构模型,crre-ner架构模型包括语义特征融合模块、因果学习模块、干预和反事实模块,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤s1)训练源域模型具体包括以下步骤:

3.根据权利要求2所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:所述步骤s2)语义特征融合具体包括以下步骤:

4.根据权利要求3所述的一种基于因果关系表示增强的跨领域命名实体的方法,其特征在于:引入二元交叉熵损失函数(binary-cross-entropy,bce)损失函数,具体损失计算如下:

5.根据权利要求4所述的一种基于因果关系表示增强的跨领域命名实...

【专利技术属性】
技术研发人员:刘小明杨凯曹梦远许进忠杨关杨华
申请(专利权)人:中原工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1