一种细粒度情感元素抽取方法及系统技术方案

技术编号：41100289 阅读：12 留言：0更新日期：2024-04-25 13:57

本发明专利技术提出一种细粒度情感元素抽取方法及系统，涉及深度学习、方面情感分析的技术领域，将获取的自然语言文本评论序列输入至预训练语言模型编码器进行编码，得到基于上下文的表征，构建不同长度的序列跨度，结合表征及不同长度跨度的跨度表征，所有跨度表征形成原始跨度表征序列，以更好地捕捉上下文信息，并在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与观点词标签，为建立隐式层面的方面词与观点词之间的联系打下基础，然后输入至已训练好的方面情感四元组抽取模型中，进行方面情感四元组抽取，通过本发明专利技术能够对评论序列信息进行更加细粒度的分析，精准地提取到自然语言文本评论序列对应的方面情感四元组。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习、方面情感分析的，更具体地，涉及一种细粒度情感元素抽取方法及系统。

技术介绍

1、随着社交媒体、在线评论和数字化交流的普及，情感分析逐渐成为企业了解公众情绪、产品评价和社会趋势的关键工具，情感分析的任务就是挖掘出公众的情感倾向，如喜怒哀乐等。而传统的情感分析已经无法满足当前企业需求，更加细粒度的分析对企业了解用户需求更为关键。如“我喜欢这部手机。”这句话含有积极情感，但是对于实际的应用是远远不够的。再如“手机的拍照功能很好，但外观有点丑。”仅从整个句子上去理解这句话，很难判断出对“手机”的情感倾向。因为“拍照功能”是正面的，“外观”是负面的。为了更准确地分析结果，需要使用细粒度的情感分析方法，方面情感分析便是其中一种广受关注的细粒度的情感分析方法。方面情感分析可以进行更完整的情感分析，发现文本的各个方面对象，并确定文本针对每个方面所表达的情感信息，使得情感分析更为精准和具体，有助于深入理解人们在交流中所表达的情感。

2、方面情感分析着眼于提取文本中的实体目标（也称方面词a），并确定该方面词a所拥有的情感信息，如观点词o，方面类别c和情感极性s，一条文本可能存在多种以上所描述的方面情感四元组（方面词a、观点词o、方面类别c和情感极性s）。如果从文本表征的方式去做分类，主要分为两个派别，其中一种是基于令牌的表征，在这种分类方式中，文本被分解为单独的令牌（例如单词或子词），每个令牌被视为独立的单元，并且对每个令牌进行表示。这意味着每个令牌都有自己的特征向量，模型关注单个令牌的特征。相对于令牌表征，另外

3、但在进行细粒度情感分析时，一个显著的挑战是如何在评论语句中建立方面词与其相应观点词之间的联系，尤其是考虑到一个评论可能包含多个方面词和观点词的情况。这种复杂性源于评论语句的多样性，其中表达方式各异。在处理这个问题的同时，需要考虑到不同评论语句可能具有不同的表达形式。有些评论可能具有句子结构规整的特性，这为划分不同方面词与观点词对提供了一定的线索。因此，研究如何有效利用句子结构规整的特性，以更精准地建立方面词与观点词之间的联系，进行细粒度情感元素抽取，成为一个具有深远研究意义的课题。

技术实现思路

1、为解决在进行细粒度情感分析时，如何精准抽取情感四元组，建立方面词与其相应观点词之间的联系的问题，本申请中提出了一种细粒度情感元素抽取方法及系统，提高细粒度情感分析的准确性。

2、为解决上述问题，本申请采用的技术方案为：

3、一方面，本申请提出一种细粒度情感元素抽取方法，包括以下步骤：

4、将获取的自然语言文本评论序列输入至预训练语言模型编码器进行编码，得到自然语言文本评论序列基于上下文的表征；

5、构建不同长度的自然语言文本评论序列的跨度，结合表征，构建不同长度跨度的跨度表征，所有跨度表征形成原始跨度表征序列，并在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与隐式观点词标签；

6、将添加含有局部结构信息的隐式方面词标签与隐式观点词标签的原始跨度表征序列输入至已训练好的方面情感四元组抽取模型中，进行方面情感四元组抽取。

7、优选地，所述方面情感四元组抽取模型包括：

8、面向局部结构模块，基于隐式方面词标签、原始跨度表征序列进行隐式方面词预测；基于隐式观点词标签、原始跨度表征序列进行隐式观点词预测；

9、方面词与观点词解码模块，用于对原始跨度表征序列进行分类，得到变化的跨度表征序列，基于原始跨度表征序列和变化的跨度表征序列，分别预测出方面词最终表征和观点词最终表征；

10、方面类别预测模块，用于将方面词最终表征和观点词最终表征相加，并与方面词左侧跨度的表征、方面词右侧跨度的表征进行拼接，获取方面词的类别；

11、方面词与观点词交互模块，分别获取方面词最终表征的新表示和观点词最终表征的新表示，将方面词最终表征的新表示结合方面词最终表征，进行交叉注意力机制计算，然后获取每个方面词对应的观点词以及情感极性概率；将观点词最终表征的新表示结合观点词最终表征，进行交叉注意力机制计算，然后获取每个观点词对应的方面词以及情感极性概率；

12、推理筛选合并模块，用于将方面词的类别、方面词最终表征、观点词最终表征和情感极性进行合并操作，并进行方面情感四元组置信度筛选，抽取出最终的方面情感四元组。

13、优选地，利用梯度下降法训练方面情感四元组抽取模型，得到已训练好的方面情感四元组抽取模型。

14、优选地，获取的自然语言文本评论序列表示为，其中，n表示自然语言文本评论序列的长度，表示自然语言文本评论序列中第 i个单词，经预训练语言模型编码器进行编码后，得到自然语言文本评论序列基于上下文的表征，表征表示为：}；设定最大跨度长度为l，采用滑动窗口的方式，从1到l，依次构建不同长度的自然语言文本评论序列的跨度：

15、；

16、结合表征，构建不同长度跨度的跨度表征，每一个长度跨度内的多个单词构成一个跨度表征，从1到l中，第j个跨度长度表示为：

17、

18、所有跨度表征形成原始跨度表征序列，为：；其中，start表示自然语言文本评论序列基于上下文的表征中跨度的起始位置，end表示自然语言文本评论序列基于上下文的表征中跨度的结束位置； m表示根据最大跨度长度l生成的跨度数量；

19、在原始跨度表征序列的前后分别添加含有局部结构信息的隐式方面词标签与隐式观点词标签，生成表征：

20、

21、其中，表示隐式方面词标签，表示隐式观点词标签，隐式方面词标签与隐式观点词标签分别含有预训练语言模型编码器输出的自然语言文本评论序列中隐式方面词的局部结构表征与隐式观点词的局部结构表征。

22、根据上述技术手段，在构建不同长度跨度的跨度表征后，隐式方面词标签与隐式观点词标签分别作用于判断自然语言文本评论序列中是否存在隐式的方面词或者是观点词。

<本文档来自技高网...

【技术保护点】

1.一种细粒度情感元素抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的细粒度情感元素抽取方法，其特征在于，所述方面情感四元组抽取模型包括：

3.根据权利要求2所述的细粒度情感元素抽取方法，其特征在于，利用梯度下降法训练方面情感四元组抽取模型，得到已训练好的方面情感四元组抽取模型。

4.根据权利要求2所述的细粒度情感元素抽取方法，其特征在于，获取的自然语言文本评论序列表示为，其中，N表示自然语言文本评论序列的长度，表示自然语言文本评论序列中第i个单词，经预训练语言模型编码器进行编码后，得到自然语言文本评论序列基于上下文的表征，表征表示为：}；设定最大跨度长度为L，采用滑动窗口的方式，从1到L，依次构建不同长度的自然语言文本评论序列的跨度：

5.根据权利要求4所述的细粒度情感元素抽取方法，其特征在于，所述面向局部结构模块包括多头注意力机制层、第一多层感知机及第一softmax层；以隐式方面词标签作为多头注意力机制层的查询、以原始跨度表征序列作为键、以原始跨度表征序列作为值，输入至多头注意力机制层，进行多头注意力机制计算，经

6.根据权利要求4所述的细粒度情感元素抽取方法，其特征在于，所述方面词与观点词解码模块包括降维层、还原层、修正线性单元激活层、第一拼接层、第二多层感知机及第二softmax层，在方面词与观点词解码模块中，对原始跨度表征序列进行分类，得到变化的跨度表征序列的过程包括：

7.根据权利要求6所述的细粒度情感元素抽取方法，其特征在于，方面类别预测模块包括：表征相加层及第二拼接层，在所述表征相加层中，将方面词最终表征和观点词最终表征相加，得到+的表征，然后与方面词左侧跨度的表征、方面词右侧跨度的表征进行拼接，获得方面词的类别，满足表达式：

8.根据权利要求6所述的细粒度情感元素抽取方法，其特征在于，所述方面词与观点词交互模块包括：方面词解码器、观点词解码器、双向长短时记忆层LSTM、交叉注意力机制层、方面词多层感知机、观点词多层感知机及第三softmax层；

9.根据权利要求8所述的细粒度情感元素抽取方法，其特征在于，所述推理筛选合并模块将方面词的类别、方面词最终表征、观点词最终表征和情感极性进行合并操作，并进行方面情感四元组置信度筛选，抽取出最终的方面情感四元组的过程为：

10.一种细粒度情感元素抽取系统，其特征在于，所述系统包括：预训练语言模型编码器、跨度表征生成器及已训练好的方面情感四元组抽取模型；

...

【技术特征摘要】

1.一种细粒度情感元素抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的细粒度情感元素抽取方法，其特征在于，所述方面情感四元组抽取模型包括：

4.根据权利要求2所述的细粒度情感元素抽取方法，其特征在于，获取的自然语言文本评论序列表示为，其中，n表示自然语言文本评论序列的长度，表示自然语言文本评论序列中第i个单词，经预训练语言模型编码器进行编码后，得到自然语言文本评论序列基于上下文的表征，表征表示为：}；设定最大跨度长度为l，采用滑动窗口的方式，从1到l，依次构建不同长度的自然语言文本评论序列的跨度：

5.根据权利要求4所述的细粒度情感元素抽取方法，其特征在于，所述面向局部结构模块包括多头注意力机制层、第一多层感知机及第一softmax层；以隐式方面词标签作为多头注意力机制层的查询、以原始跨度表征序列作为键、以原始跨度表征序列作为值，输入至多头注意力机制层，进行多头注意力机制计算，经多头注意力机制层输出后，输入至第一多层感知机进行隐式方面词预测，最后经过第一softmax层得到预测概率，过程满足以下表达式：

6.根据权利要...

【专利技术属性】
技术研发人员：陈炳丰，许浩然，许柏炎，郝志峰，蔡瑞初，邱辰杰，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人