System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种细粒度情感元素抽取方法及系统技术方案_技高网

一种细粒度情感元素抽取方法及系统技术方案

技术编号:41100289 阅读:12 留言:0更新日期:2024-04-25 13:57
本发明专利技术提出一种细粒度情感元素抽取方法及系统,涉及深度学习、方面情感分析的技术领域,将获取的自然语言文本评论序列输入至预训练语言模型编码器进行编码,得到基于上下文的表征,构建不同长度的序列跨度,结合表征及不同长度跨度的跨度表征,所有跨度表征形成原始跨度表征序列,以更好地捕捉上下文信息,并在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与观点词标签,为建立隐式层面的方面词与观点词之间的联系打下基础,然后输入至已训练好的方面情感四元组抽取模型中,进行方面情感四元组抽取,通过本发明专利技术能够对评论序列信息进行更加细粒度的分析,精准地提取到自然语言文本评论序列对应的方面情感四元组。

【技术实现步骤摘要】

本专利技术涉及深度学习、方面情感分析的,更具体地,涉及一种细粒度情感元素抽取方法及系统


技术介绍

1、随着社交媒体、在线评论和数字化交流的普及,情感分析逐渐成为企业了解公众情绪、产品评价和社会趋势的关键工具,情感分析的任务就是挖掘出公众的情感倾向,如喜怒哀乐等。而传统的情感分析已经无法满足当前企业需求,更加细粒度的分析对企业了解用户需求更为关键。如“我喜欢这部手机。”这句话含有积极情感,但是对于实际的应用是远远不够的。再如“手机的拍照功能很好,但外观有点丑。”仅从整个句子上去理解这句话,很难判断出对“手机”的情感倾向。因为“拍照功能”是正面的,“外观”是负面的。为了更准确地分析结果,需要使用细粒度的情感分析方法,方面情感分析便是其中一种广受关注的细粒度的情感分析方法。方面情感分析可以进行更完整的情感分析,发现文本的各个方面对象,并确定文本针对每个方面所表达的情感信息,使得情感分析更为精准和具体,有助于深入理解人们在交流中所表达的情感。

2、方面情感分析着眼于提取文本中的实体目标(也称方面词a),并确定该方面词a所拥有的情感信息,如观点词o,方面类别c和情感极性s,一条文本可能存在多种以上所描述的方面情感四元组(方面词a、观点词o、方面类别c和情感极性s)。如果从文本表征的方式去做分类,主要分为两个派别,其中一种是基于令牌的表征,在这种分类方式中,文本被分解为单独的令牌(例如单词或子词),每个令牌被视为独立的单元,并且对每个令牌进行表示。这意味着每个令牌都有自己的特征向量,模型关注单个令牌的特征。相对于令牌表征,另外一种是基于跨度的表征,其关注的是文本中的连续片段或跨度,标注或预测文本中具有特定含义或属性的跨度,跨度表征更容易对整个文本片段进行建模,能够更好地捕捉上下文信息,尤其对于序列标注任务较为有效。如现有技术中公开了一种方面情感三元组抽取方法,基于自定义的三种角色维度方面项、观点项和情感片段,对文本中的每一跨度进行标注,然后将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取,突破现有基于词级别标注方法的局限性,同时能够支持端到端一次性地抽取对应的方面项、观点项及其对应的匹配,可有效提高方面情感三元组抽取的性能。总的来说,跨度表征考虑了文本中多个令牌之间的关系,通常通过对跨度中的所有令牌进行聚合来得到一个整体的表示。跨度表示通过聚合文本中多个令牌的信息,可以更好地捕捉局部文本的关系,适用于需要考虑一定上下文信息的任务。

3、但在进行细粒度情感分析时,一个显著的挑战是如何在评论语句中建立方面词与其相应观点词之间的联系,尤其是考虑到一个评论可能包含多个方面词和观点词的情况。这种复杂性源于评论语句的多样性,其中表达方式各异。在处理这个问题的同时,需要考虑到不同评论语句可能具有不同的表达形式。有些评论可能具有句子结构规整的特性,这为划分不同方面词与观点词对提供了一定的线索。因此,研究如何有效利用句子结构规整的特性,以更精准地建立方面词与观点词之间的联系,进行细粒度情感元素抽取,成为一个具有深远研究意义的课题。


技术实现思路

1、为解决在进行细粒度情感分析时,如何精准抽取情感四元组,建立方面词与其相应观点词之间的联系的问题,本申请中提出了一种细粒度情感元素抽取方法及系统,提高细粒度情感分析的准确性。

2、为解决上述问题,本申请采用的技术方案为:

3、一方面,本申请提出一种细粒度情感元素抽取方法,包括以下步骤:

4、将获取的自然语言文本评论序列输入至预训练语言模型编码器进行编码,得到自然语言文本评论序列基于上下文的表征;

5、构建不同长度的自然语言文本评论序列的跨度,结合表征,构建不同长度跨度的跨度表征,所有跨度表征形成原始跨度表征序列,并在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与隐式观点词标签;

6、将添加含有局部结构信息的隐式方面词标签与隐式观点词标签的原始跨度表征序列输入至已训练好的方面情感四元组抽取模型中,进行方面情感四元组抽取。

7、优选地,所述方面情感四元组抽取模型包括:

8、面向局部结构模块,基于隐式方面词标签、原始跨度表征序列进行隐式方面词预测;基于隐式观点词标签、原始跨度表征序列进行隐式观点词预测;

9、方面词与观点词解码模块,用于对原始跨度表征序列进行分类,得到变化的跨度表征序列,基于原始跨度表征序列和变化的跨度表征序列,分别预测出方面词最终表征和观点词最终表征;

10、方面类别预测模块,用于将方面词最终表征和观点词最终表征相加,并与方面词左侧跨度的表征、方面词右侧跨度的表征进行拼接,获取方面词的类别;

11、方面词与观点词交互模块,分别获取方面词最终表征的新表示和观点词最终表征的新表示,将方面词最终表征的新表示结合方面词最终表征,进行交叉注意力机制计算,然后获取每个方面词对应的观点词以及情感极性概率;将观点词最终表征的新表示结合观点词最终表征,进行交叉注意力机制计算,然后获取每个观点词对应的方面词以及情感极性概率;

12、推理筛选合并模块,用于将方面词的类别、方面词最终表征、观点词最终表征和情感极性进行合并操作,并进行方面情感四元组置信度筛选,抽取出最终的方面情感四元组。

13、优选地,利用梯度下降法训练方面情感四元组抽取模型,得到已训练好的方面情感四元组抽取模型。

14、优选地,获取的自然语言文本评论序列表示为,其中,n表示自然语言文本评论序列的长度,表示自然语言文本评论序列中第 i个单词,经预训练语言模型编码器进行编码后,得到自然语言文本评论序列基于上下文的表征,表征表示为:};设定最大跨度长度为l,采用滑动窗口的方式,从1到l,依次构建不同长度的自然语言文本评论序列的跨度:

15、;

16、结合表征,构建不同长度跨度的跨度表征,每一个长度跨度内的多个单词构成一个跨度表征,从1到l中,第j个跨度长度表示为:

17、

18、所有跨度表征形成原始跨度表征序列,为:;其中,start表示自然语言文本评论序列基于上下文的表征中跨度的起始位置,end表示自然语言文本评论序列基于上下文的表征中跨度的结束位置; m表示根据最大跨度长度l生成的跨度数量;

19、在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与隐式观点词标签,生成表征:

20、

21、其中,表示隐式方面词标签,表示隐式观点词标签,隐式方面词标签与隐式观点词标签分别含有预训练语言模型编码器输出的自然语言文本评论序列中隐式方面词的局部结构表征与隐式观点词的局部结构表征。

22、根据上述技术手段,在构建不同长度跨度的跨度表征后,隐式方面词标签与隐式观点词标签分别作用于判断自然语言文本评论序列中是否存在隐式的方面词或者是观点词。

<本文档来自技高网...

【技术保护点】

1.一种细粒度情感元素抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的细粒度情感元素抽取方法,其特征在于,所述方面情感四元组抽取模型包括:

3.根据权利要求2所述的细粒度情感元素抽取方法,其特征在于,利用梯度下降法训练方面情感四元组抽取模型,得到已训练好的方面情感四元组抽取模型。

4.根据权利要求2所述的细粒度情感元素抽取方法,其特征在于,获取的自然语言文本评论序列表示为,其中,N表示自然语言文本评论序列的长度,表示自然语言文本评论序列中第i个单词,经预训练语言模型编码器进行编码后,得到自然语言文本评论序列基于上下文的表征,表征表示为:};设定最大跨度长度为L,采用滑动窗口的方式,从1到L,依次构建不同长度的自然语言文本评论序列的跨度:

5.根据权利要求4所述的细粒度情感元素抽取方法,其特征在于,所述面向局部结构模块包括多头注意力机制层、第一多层感知机及第一softmax层;以隐式方面词标签作为多头注意力机制层的查询、以原始跨度表征序列作为键、以原始跨度表征序列作为值,输入至多头注意力机制层,进行多头注意力机制计算,经多头注意力机制层输出后,输入至第一多层感知机进行隐式方面词预测,最后经过第一softmax层得到预测概率,过程满足以下表达式:

6.根据权利要求4所述的细粒度情感元素抽取方法,其特征在于,所述方面词与观点词解码模块包括降维层、还原层、修正线性单元激活层、第一拼接层、第二多层感知机及第二softmax层,在方面词与观点词解码模块中,对原始跨度表征序列进行分类,得到变化的跨度表征序列的过程包括:

7.根据权利要求6所述的细粒度情感元素抽取方法,其特征在于,方面类别预测模块包括:表征相加层及第二拼接层,在所述表征相加层中,将方面词最终表征和观点词最终表征相加,得到+的表征,然后与方面词左侧跨度的表征、方面词右侧跨度的表征进行拼接,获得方面词的类别,满足表达式:

8.根据权利要求6所述的细粒度情感元素抽取方法,其特征在于,所述方面词与观点词交互模块包括:方面词解码器、观点词解码器、双向长短时记忆层LSTM、交叉注意力机制层、方面词多层感知机、观点词多层感知机及第三softmax层;

9.根据权利要求8所述的细粒度情感元素抽取方法,其特征在于,所述推理筛选合并模块将方面词的类别、方面词最终表征、观点词最终表征和情感极性进行合并操作,并进行方面情感四元组置信度筛选,抽取出最终的方面情感四元组的过程为:

10.一种细粒度情感元素抽取系统,其特征在于,所述系统包括:预训练语言模型编码器、跨度表征生成器及已训练好的方面情感四元组抽取模型;

...

【技术特征摘要】

1.一种细粒度情感元素抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的细粒度情感元素抽取方法,其特征在于,所述方面情感四元组抽取模型包括:

3.根据权利要求2所述的细粒度情感元素抽取方法,其特征在于,利用梯度下降法训练方面情感四元组抽取模型,得到已训练好的方面情感四元组抽取模型。

4.根据权利要求2所述的细粒度情感元素抽取方法,其特征在于,获取的自然语言文本评论序列表示为,其中,n表示自然语言文本评论序列的长度,表示自然语言文本评论序列中第i个单词,经预训练语言模型编码器进行编码后,得到自然语言文本评论序列基于上下文的表征,表征表示为:};设定最大跨度长度为l,采用滑动窗口的方式,从1到l,依次构建不同长度的自然语言文本评论序列的跨度:

5.根据权利要求4所述的细粒度情感元素抽取方法,其特征在于,所述面向局部结构模块包括多头注意力机制层、第一多层感知机及第一softmax层;以隐式方面词标签作为多头注意力机制层的查询、以原始跨度表征序列作为键、以原始跨度表征序列作为值,输入至多头注意力机制层,进行多头注意力机制计算,经多头注意力机制层输出后,输入至第一多层感知机进行隐式方面词预测,最后经过第一softmax层得到预测概率,过程满足以下表达式:

6.根据权利要...

【专利技术属性】
技术研发人员:陈炳丰许浩然许柏炎郝志峰蔡瑞初邱辰杰
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1