System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于问答文本依赖和图卷积网络的方面级情感分析方法及系统技术方案_技高网

基于问答文本依赖和图卷积网络的方面级情感分析方法及系统技术方案

技术编号:42084611 阅读:21 留言:0更新日期:2024-07-19 17:00
本发明专利技术公开了基于问答文本依赖和图卷积网络的方面级情感分析方法及系统,涉及自然语言处理技术领域。首先,通过引入三种不同的依赖图来丰富依赖信息。接下来,使用预训练语言模型BERT分别且同时的对问题文本和答案文本进行编码,得到问答对各自的隐藏状态向量。然后,构建了三种分别对应于依赖图类型的GCN,依赖图与对应的隐藏状态向量一同作为GCN的输入,以更好的聚合问答对的特征。最后,使用一种基于检索的注意力机制,通过为每个单词分配权重,充分将GCN的输出和与方面相关的重要特征融合起来,并通过softmax层得到最终情感极性的概率分布以实现情感预测。本发明专利技术解决了基于问答的方面级情感分析领域句法关系、文本输入和噪声过大的问题。

【技术实现步骤摘要】

本专利技术属于自然语言处理的,涉及一种情感分析方法,特别涉及基于问答文本依赖和图卷积网络的方面级情感分析方法。


技术介绍

1、随着互联网的不断发展,越来越多的用户在互联网上发表自己的看法或评价,然而由于信息爆炸式的增长,消费者很难在庞大的文本数据中找到想要关注的细粒度信息,商家也很难发现需要改进的方面细节,于是作为情感分析一个细粒度子任务的方面级情感分析(aspect-based sentiment analysis,absa)成为了自然语言处理中最热门的研究方向之一。

2、近年,很多主流的电商平台都为消费者和商家提供了一种名为“消费者问答”的新的评论形式(交互式文本)。对于一件商品或一个服务,潜在的消费者可以提出他们关心的问题,已经购买过该商品或服务的消费者可以为他们提供答案,于是便有了问答评论。问答评论中蕴含大量有价值的情感信息,同时,由于回答问题的用户是被随机选择出来的,往往不存在传统评论中“刷好评”的现象,这使得问答评论比传统评论更具有可信性,所以问答评论比传统评论更具有研究价值和意义。

3、传统的方面级情感分析通常是针对单一句子文本进行情感分析,即识别句子中的特定方面词以及与之相关联的情感极性。然而,随着消费者和商家在电商平台上越来越多地倾向于使用交互式的问答评论形式,这种单一句子的情感分析逐渐不能满足用户对于细粒度情感信息的需求。相比于传统的方面级情感分析,基于问答文本的方面级情感分析面临着更大的挑战,主要体现在以下三个方面:

4、(1)句法关系问题:早期absa研究者通常采用基于lstm、基于cnn和基于记忆的方法来解决absa任务。然而,随着模型性能达到瓶颈,研究者们发现这些方法普遍忽略了句法关系。因此,他们提出了将依赖树和依赖图引入absa模型的思想。通过整合依赖信息和gcn,研究者成功提升了模型性能。然而,如何有效地捕捉问答文本中的句法关系一直是研究中的一个尚未解决的问题。

5、(2)文本输入问题:目前的研究大多集中在将单一文本输入到模型进行情感预测,而对于交互式问答文本输入方式的研究却寥寥无几。一个很容易想到的方法是直接将问题文本和答案文本拼接成一个单一序列,然后像传统的absa方法一样输入到模型中。然而,问答文本中的问题文本和答案文本是两个并行的单元,且方面信息存在于问题文本中,意见信息存在于答案文本中,如果直接拼接一个含有两个及以上的问答文本并输入模型中,可能会使某个方面词与其对应的意见信息相距较远,从而导致错误的预测。

6、(3)噪声问题:在自然语言处理中,减小噪声一直是研究者们致力于解决的问题。在进行基于问答文本的方面级情感分析时,问答对中可能存在诸如问题与答案之间的歧义、信息不一致以及意见表达的复杂性等问题,这些因素都会干扰情感极性预测的准确性。

7、因此,充分利用句法关系、合理输入问答对以及减小噪声是面向问答文本的方面级情感分析的关键。


技术实现思路

1、有鉴于此,本专利技术提出基于问答文本依赖和图卷积网络的方面级情感分析方法及系统,本专利技术弥补了方面级情感分析在交互式数据上研究的空缺,解决了当前基于问答文本的方面级情感分析任务面临的三个挑战:句法关系问题、文本输入问题和噪声问题。

2、本专利技术采用的技术方案如下:

3、一方面,本专利技术提供了一种基于问答文本依赖和图卷积网络的方面级情感分析方法,包括:

4、获取问答情感分析数据集,并对所述数据集中的问答情感分析数据进行预处理;

5、基于预处理后的问答情感分析数据构造三种依赖图;所述三种依赖图包括:方面词与问题的依赖图、方面词与答案的依赖图和方面词与问答对的依赖图;

6、分别将问题文本和答案文本与方面词进行拼接,得到问题文本与方面词拼接后的输入表示和答案文本与方面词拼接后的输入表示,将这两个表示输入到预训练模型bert中以分别生成问答对的隐藏状态向量;

7、分别将问题和答案文本的隐藏状态向量以及方面词与问题、方面词与答案的依赖图送入问题图卷积神经网络和答案图卷积网络中,以分别提取问题和答案与方面词之间的特征;将所述问题图卷积网络和答案图卷积网络的输出进行拼接,并将其与方面词与问答对的依赖图一起输入到聚合图卷积网络中,以全面捕获问答对与方面词之间的特征;

8、利用基于检索的注意力机制,为卷积层得到的隐藏状态向量融合与方面词相关的重要特征,并为问答文本中的每个单词分配一个注意力权重,得到情感预测的最终表示;基于所述情感预测的最终表示进行情感极性预测,得到积极、中性、消极三种情感极性的概率分布。

9、进一步地,对所述数据集中的问答情感分析数据进行预处理,包括:

10、删除非文字字符、相同问题下的重复回答;

11、经过逐一识别后删除由卖家回复的答案;

12、将原始语料转换为深度学习模型可接受的输入形式。

13、进一步地,基于预处理后的问答情感分析数据构造三种依赖图,包括:

14、解析输入的问答文本,并根据解析结果,为每个单词创建一个节点,并根据它们之间的依赖关系建立边;

15、如果两个单词之间存在依赖关系,则在输入文本对应的邻接矩阵中将该位置设置为1,否则为0,这决定了在依赖图中两词之间是否存在边;

16、添加从方面词到问题和答案节点的连接边,以更好地捕捉方面词与问题、答案之间的关联。

17、进一步地,将这两个表示输入到预训练模型bert中以分别生成问答对的隐藏状态向量,包括:

18、

19、

20、其中,hq为问题文本的隐藏状态向量,ha为答案文本的隐藏状态向量,m和n分别表示输入的问题文本和答案文本序列的长度,是每个单词对应的单词向量,dh是隐藏维度。

21、进一步地,得到情感预测的最终表示,包括:

22、将bert得到的问题文本和答案文本的隐藏状态向量hq和ha合并,得到整体的问答文本表示

23、利用基于检索的注意力机制,为每个单词分配一个权重,计算过程如下:

24、

25、

26、其中,ht是hqa中第t个单词的隐藏状态向量;

27、情感预测的最终表示形式为:

28、

29、进一步地,基于所述情感预测的最终表示进行情感极性预测,包括:

30、将所述情感预测的最终表示输入到一个全连接层和softmax层,输出得到情感决策空间中不同情感极性的概率分布:

31、y=softmax(wor+bo);

32、其中wo和bo分别为可训练权重和偏置,y为情感决策空间中不同情感极性的概率分布。

33、又一方面,本专利技术还提供了一种基于问答文本依赖和图卷积网络的方面级情感分析系统,包括:

34、问答数据预处理模块,用于获取问答情感分析数据集,并对所述数据集中的问答情感分析数据进行预处理;

3本文档来自技高网...

【技术保护点】

1.一种基于问答文本依赖和图卷积网络的方面级情感分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述数据集中的问答情感分析数据进行预处理,包括:

3.根据权利要求1所述的方法,其特征在于,基于预处理后的问答情感分析数据构造三种依赖图,包括:

4.根据权利要求1所述的方法,其特征在于,将这两个表示输入到预训练模型BERT中以分别生成问答对的隐藏状态向量,包括:

5.根据权利要求1所述的方法,其特征在于,得到情感预测的最终表示,包括:

6.根据权利要求1所述的方法,其特征在于,基于所述情感预测的最终表示进行情感极性预测,包括:

7.一种基于问答文本依赖和图卷积网络的方面级情感分析系统,其特征在于,包括:

【技术特征摘要】

1.一种基于问答文本依赖和图卷积网络的方面级情感分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述数据集中的问答情感分析数据进行预处理,包括:

3.根据权利要求1所述的方法,其特征在于,基于预处理后的问答情感分析数据构造三种依赖图,包括:

4.根据权利要求1所述的方法,其特征在于,将这两...

【专利技术属性】
技术研发人员:张益嘉刘乃博鲁明羽
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1