System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于边界token标注的情感四元组抽取方法技术_技高网

基于边界token标注的情感四元组抽取方法技术

技术编号:40630733 阅读:4 留言:0更新日期:2024-03-13 21:16
本发明专利技术涉及自然语言处理技术领域,涉及一种基于边界token标注的情感四元组抽取方法,其包括以下步骤:1)使用预训练的语言模型作为主干,生成语义上下文的token表示;2)利用GCN引入句法依赖树到token表示;3)枚举所有可能的token对,分别将1)和2)中对应的token表示输入到CLN中,分别生成带有上下文语义和句法依赖的所有token对的表示;4)通过线性层融合两种token对表示,获得最终的token对表示,并且使用多标签分类器来预测标签;5)从标签中还原出结构化情感四元组。本发明专利技术能较佳地进行情感四元组抽取。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体地说,涉及一种基于边界token标注的情感四元组抽取方法


技术介绍

1、结构化的情感四元组抽取(ssqe)所有上述研究都忽略了意见持有者的提取,这是意见表达的关键作用。结构化情绪四倍提取是absa最新提出的子任务,它提取持有者、方面目标项、相应意见项和表达的情绪的四倍。有学者采用了基于令牌的双词汇依赖解析模型,通过建立令牌对之间的关系来提取跨度和关系。然而,模型中跨度预测和跨度关系预测的标签比例不平衡,一些重叠的情感四倍体无法被模型识别。有学者通过引入一种新的标签策略,提取了四倍的情感,该策略包含两组令牌对标签,即基本标签集和整个标签集。尽管他们通过整个标签集捕获了各种令牌关系,并将这些关系柔和地应用于隐藏层,但该过程仍然存在标签比例失衡的问题。


技术实现思路

1、本专利技术的内容是提供一种基于边界token标注的情感四元组抽取方法,其能够克服现有技术的某种或某些缺陷。

2、根据本专利技术的基于边界token标注的情感四元组抽取方法,其包括以下步骤:

3、1)使用预训练的语言模型作为主干,生成语义上下文的token表示;

4、2)利用gcn引入句法依赖树到token表示;

5、3)枚举所有可能的token对,分别将1)和2)中对应的token表示输入到cln中,分别生成带有上下文语义和句法依赖的所有token对的表示;

6、4)通过线性层融合两种token对表示,获得最终的token对表示,并且使用多标签分类器来预测标签;

7、5)从标签中还原出结构化情感四元组。

8、作为优选,步骤1)中,具体为:

9、给定一个输入句子s={x1,x2,...,xn},将单词序列输入到预训练的语言模型中以产生上下文标记嵌入序列其中dh表示token的维度。

10、作为优选,步骤2)中,具体为:执行依赖解析句子并生成句法依赖树,将其转换为邻接矩阵:

11、

12、aij表示矩阵中第i个词和第j个词之间是否存在依赖弧;

13、然后,将预训练语言模型输出的token表示和邻接矩阵输入到图卷积网络gcn中得到带有句法依赖信息的token表示;

14、具体来说,对于第l层的节点i,其隐藏表示由以下等式获得:

15、

16、其中wl是第l层的可训练权重矩阵,bl是当前权重的偏移值;当l=1时,是编码器生成的第j个token的嵌入;是gcn第l次迭代产生的第j个token的嵌入;n代表单词token的个数。

17、作为优选,步骤3)中,具体为:带有上下文表示的token一共可以组合成n*n个token对,可以表示一个n*n的矩阵,这里为了节省训练时候的显存开销,仅使用上三角矩阵中的token对表示,并将其平铺为一个序列其中vk表示第k个标记对表示序列的长度,l和dh分别是序列的长度和表示的维度;

18、单词对(xi;xj)的表示vk被视为xi的上下文表示hi和xj的上下文表示hj的组合,其中该组合应意味着xj是以xi为条件;通过条件正则化层计算vk:

19、

20、其中wα和wβ是可训练权重;bα和bβ是可训练的偏移量;μ、σ分别代表h上的平均值和标准差;

21、hj元素的标准差计算如下:

22、

23、其中hjq表示hj的第q维;

24、同样的,将句法依赖特征输入到cln中,生成句法依赖令牌对的表示形式其中

25、uk=cln(gi,gj)

26、gi、gj分别表示hi,hj经过gcn后产生的嵌入。

27、作为优选,步骤4)中,使用线性插值组合两种类型的令牌对表示来生成最终令牌对表示zk定义如下:

28、zk=αuk+(1-α)vk

29、其中α∈[0;1]是一个可调整的加权参数。

30、作为优选,步骤4)中,为了预测标签,使用线性层来计算最终标记对的标签得分矩阵sk∈rv×|l|表示,其中v是标记对表示的序列长度,|l|是标签类型的数量;

31、具体地,sk计算如下:

32、sk=wtzk+b

33、其中w是可训练权重,b是偏差;sk的每个分量对应一个标签;当sk第r个维度第k个token对被标记为相应的标签。

34、作为优选,步骤5)中,具体为:

35、首先,解码所有类型的所有意见角色的持有者-意见对和意见-方面对;

36、然后,保留持有者-意见对,其中持有者和意见对出现在第一个获得的角色集中并过滤掉不满足条件的对;对于意见-方面对,使用相同的方法;

37、最后,通过将两种类型的对组合成一个完整的四元组,其中要求两个不同类型的对不许具有相同的意见角色。

38、作为优选,训练过程中,采用交叉熵损失函数进行多标签分类:

39、

40、其中分别表示第k个token对的正类和负类。

41、与现有方法不同,本专利技术将情感四元组的抽取任务转换为实体和关系的联合提取任务。本专利技术提出了一种仅标记实体的边界令牌对来提取情感四元组的标记框架,从而避免了标签比例不平衡的问题。使用多标签分类器,本专利技术可以识别重叠的情感四元组。此外,本专利技术使用gcn来引入句法依赖信息,并使用cln生成高质量的令牌对表示,增强了实体和关系的识别。

本文档来自技高网...

【技术保护点】

1.基于边界token标注的情感四元组抽取方法,其特征在于:包括以下步骤:

2.根据权利要求1中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤1)中,具体为:

3.根据权利要求2中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤2)中,具体为:执行依赖解析句子并生成句法依赖树,将其转换为邻接矩阵:

4.根据权利要求3中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤3)中,具体为:带有上下文表示的token一共可以组合成n*n个token对,可以表示一个n*n的矩阵,这里为了节省训练时候的显存开销,仅使用上三角矩阵中的token对表示,并将其平铺为一个序列其中Vk表示第k个标记对表示序列的长度,L和dh分别是序列的长度和表示的维度;

5.根据权利要求4中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤4)中,使用线性插值组合两种类型的令牌对表示来生成最终令牌对表示Zk定义如下:

6.根据权利要求5中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤4)中,为了预测标签,使用线性层来计算最终标记对的标签得分矩阵Sk∈RV×|L|表示,其中V是标记对表示的序列长度,|L|是标签类型的数量;

7.根据权利要求6中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤5)中,具体为:

8.根据权利要求7中所述的基于边界token标注的情感四元组抽取方法,其特征在于:训练过程中,采用交叉熵损失函数进行多标签分类:

...

【技术特征摘要】

1.基于边界token标注的情感四元组抽取方法,其特征在于:包括以下步骤:

2.根据权利要求1中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤1)中,具体为:

3.根据权利要求2中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤2)中,具体为:执行依赖解析句子并生成句法依赖树,将其转换为邻接矩阵:

4.根据权利要求3中所述的基于边界token标注的情感四元组抽取方法,其特征在于:步骤3)中,具体为:带有上下文表示的token一共可以组合成n*n个token对,可以表示一个n*n的矩阵,这里为了节省训练时候的显存开销,仅使用上三角矩阵中的token对表示,并将其平铺为一个序列其中vk表示第k个标记对表示序列的长度,l和dh分...

【专利技术属性】
技术研发人员:李优张绍聪林煜明
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1