一种基于深度学习的方面词提取方法技术

技术编号:34526517 阅读:15 留言:0更新日期:2022-08-13 21:17
本发明专利技术公开了一种基于深度学习的方面词提取方法,具体如下,构筑方面词提取数据集;将数据集中的句子特征嵌入到语义空间中;使用多特征编码器进行句子特征编码;使用基于双向LSTM的上下文编码层对句子上下文进行编码;使用基于多头自注意力机制的全局语义信息提取层对句子的全局语义信息进行提取,捕获方面词与上下文的之间语义关系;基于条件随机场的的序列解码层对模型学习到的向量进行解码,通过序列标注完成句子中的方面词提取,可用于社交媒体文本的方面词提取。本发明专利技术基于对句子的多特征进行充分地学习,结合多头自注意力机制完成方面词上下文语义信息的捕获,在复杂的场景下仍能表现出良好的效果,具有精准度高、鲁棒性强的特点。性强的特点。性强的特点。

【技术实现步骤摘要】
一种基于深度学习的方面词提取方法


[0001]本专利技术涉及一种基于深度学习的方面词提取方法,该方法可用于社交媒体文本方面词的提取,属于互联网与自然语言处理


技术介绍

[0002]随着互联网的不断发展,越来越多的网民习惯于使用社交媒体(例如微博、Twitter等)表达对新闻事件的观点和态度。各大社交媒体平台逐渐成为现实世界事件发展的传感器,网络舆情在反映民意、折射现实等方面发挥着越来越重要的作用。与此同时,网络上也充斥着各种各样的不良言论,但是网络空间不是法外之地,通过网络舆情分析技术对网络舆论进行监管,有利于实现政府部门了解民意、妥善处理社会舆论事件、营造健康和谐的网络环境。情感分析技术作为舆情分析技术的重要组成部分,情感分析的质量将直接决定舆情分析的质量分析。现有的情感分析技术是文档级情感分析和句子级情感分析,不能满足舆情分析系统对社交媒体内容情感细节的需求,因此需要引入方面级情感分析技术。然而,方面词提取是方面级情感分析的前提,高质量的方面词对方面级情感分析具有重要意义。
[0003]近年来,许多学者对方面词提取技术进行了深入的研究。研究的方法包括两种:基于有监督学习的方法和基于无监督学习的方法。基于有监督学习的方面词提取方法的研究者们将方面词提取视为一个序列标注任务,常见的研究方法有基于图的方法、基于语义分析的方法和基于统计的方法。虽然该方法方法在一定程度上提高了方面词提取的精度,但是该方法严重依赖人工标注的高质量数据,人工标注数据会带来成本问题,而且模型难以迁移到新的领域中。基于无监督学习的方法,可以在一定程度上解决上述方法存在的问题。但是基于无监督学习方法没有充分考虑对单词序列信息的捕获,并且忽略了字符级特征的提取,这将导致模型提取出的方面词不完整。
[0004]目前网络空间安全形势严峻,针对现有方面词提取研究存在着句子的语义特征没有被充分学习的问题,本专利技术提出了一种基于深度学习的方面词提取方法。首先,使用多特征编码层对句子进行初始编码;然后,将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习;接着,将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中,进行方面词之间语义关联的学习;最后,通过基于条件随机场的序列解码层完成序列解码,得出方面词提取结果。该方法提升了方面词提取模型的鲁棒性,提高了提取的精准度。

技术实现思路

[0005]针对现有技术存在的问题与不足,本专利技术提供一种基于深度学习的方面词提取方法,该方法能够完成高精度的方面词提取,相比现有方法,能够更有效地对评论文本进行方面词提取,从而改善现有方法精准度不足的问题。
[0006]为了实现上述目的,本专利技术的技术方案如下:一种基于深度学习的方面词提取方
法,该方法涵盖方面词提取的全过程,主要包括多特征编码、上下文编码、全局语境信息提取、单词序列解码等过程,能够有效地对评论文本进行方面词提取,从而提高该任务的精准度。该方法主要包括三个步骤,具体如下:
[0007]步骤1,构筑方面词提取数据集。首先收集了SemEval 2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,分别用于方面词提取模型的训练和验证。
[0008]步骤2,方面词提取模型训练。首先,使用多特征编码层对句子进行初始编码;然后,将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习;接着,将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中,进行方面词之间语义关联的学习;最后,通过基于条件随机场的序列解码层完成序列解码,得出方面词提取结果。在训练阶段,模型的损失函数会将模型的预测值与真实值作比较并计算损失值,通过反向传播更新模型参数,从而使模型参数变得更优。此外,每经过一个轮次的训练,验证集的数据都会被送入模型中进行验证;
[0009]步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:
[0010]子步骤2

1,使用多特征编码层对句子进行初始编码,具体过程如下:
[0011]定义E
w
代表三种信息整体嵌入的结果,E
T
、E
s
和E
P
分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:
[0012]E
w
=E
T
+E
S
+E
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0013]之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=E
w
,则编码的过程表示为:
[0014]H
i
=Transformer(H
i
‑1),i∈[1,L]ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0015]其中,H
i
代表第i层Transformer编码的结果,L代表Roberta

base编码器Transformer的总层数。
[0016]接着,对每个单词对应的字符进行编码,假设经过填充后的字符序列为为C={c1,c2,...,c
n
},n表示字符的个数。假设Emb
c
为字符的嵌入矩阵,则字符的嵌入过程可以表示为:
[0017]E
c
=Emb
c
·
C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0018]在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:
[0019][0020][0021][0022]其中,代表双向LSTM的前向隐藏状态输出,代表双向LSTM的后向隐藏状态输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作。
[0023]最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
[0024][0025][0026]其中,H
CW
代表融合单词、位置、片段和字符四种特征的向量表示,H
L
代表Roberta

base最后一层Transformer的输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作。
[0027]子步骤2

2,从多特征编码层得到了融合四种不同粒度特征的向量表示,在基于双向长短期记忆网络的上下文编码层,进行句子的上下文编码,过程如下:
[0028]基于长短期记忆网络的上下文编码过程可以表示如下:
[0029][0030][0031][0032][0033]其中,代表双向LSTM前向隐藏层的输出,代表双向LSTM后向隐藏层的输出,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的方面词提取方法,其特征在于,所述方法包括以下步骤:步骤1,构筑方面词提取数据集,步骤2,方面词提取模型训练,步骤3,对数据集进行测试。2.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤1,构筑方面词提取数据集,具体如下,首先收集了SemEval 2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,将其分别用于方面词提取模型的训练和验证。3.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤2具体如下,首先,将待提取方面词的句子送入模型的多特征编码层中,得出句子的初始编码结果;然后,句子的初始编码结果会被送入基于双向LSTM的上下文编码层中,进行句子的上下文编码;接着,基于多头自注意力机制的全局语境信息提取层对句子的全局语境特征进行提取,捕获方面词之间的语义关联;最后,经过基于条件随机场的序列解码层完成解码,得到方面词提取的结果,在训练阶段,模型的损失函数会将模型的预测值与真实值作比较,并计算损失值,通过反向传播更新模型参数,使模型参数变得更优。4.根据权利要求3所述的基于深度学习的方面词提取方法,其特征在于,步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:子步骤2

1,使用多特征编码层对句子进行初始编码,具体过程如下:定义E
w
代表三种信息整体嵌入的结果,E
T
、E
s
和E
P
分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:E
w
=E
T
+E
S
+E
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=E
w
,则编码的过程表示为:H
i
=Transformer(H
i
‑1),i∈[1,L]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,H
i
代表第i层Transformer编码的结果,L代表Roberta

base编码器Transformer的总层数;接着,对每个单词对应的字符进行编码,设经过填充后的字符序列为为C={c1,c2,...,c
n
},n表示字符的个数,Emb
c
为字符的嵌入矩阵,则字符的嵌入过程表示为:E
c
=Emb
c
·
C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:为:为:其中,代表双向LSTM的前向隐藏状态输出,代表双向LSTM的后向隐藏状态输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作;最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
其中,H
CW
代表融合单词、位置、片段和字符四种特征的向量表示,H
L
代表Roberta

base最后一层Transformer的输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作;子步骤2

2,从多特征编码层得到了融合四种不同粒度特征的向量...

【专利技术属性】
技术研发人员:杨鹏张朋辉戈妍妍
申请(专利权)人:南京优慧信安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1