【技术实现步骤摘要】
一种基于深度学习的方面词提取方法
[0001]本专利技术涉及一种基于深度学习的方面词提取方法,该方法可用于社交媒体文本方面词的提取,属于互联网与自然语言处理
技术介绍
[0002]随着互联网的不断发展,越来越多的网民习惯于使用社交媒体(例如微博、Twitter等)表达对新闻事件的观点和态度。各大社交媒体平台逐渐成为现实世界事件发展的传感器,网络舆情在反映民意、折射现实等方面发挥着越来越重要的作用。与此同时,网络上也充斥着各种各样的不良言论,但是网络空间不是法外之地,通过网络舆情分析技术对网络舆论进行监管,有利于实现政府部门了解民意、妥善处理社会舆论事件、营造健康和谐的网络环境。情感分析技术作为舆情分析技术的重要组成部分,情感分析的质量将直接决定舆情分析的质量分析。现有的情感分析技术是文档级情感分析和句子级情感分析,不能满足舆情分析系统对社交媒体内容情感细节的需求,因此需要引入方面级情感分析技术。然而,方面词提取是方面级情感分析的前提,高质量的方面词对方面级情感分析具有重要意义。
[0003]近年来,许多学者对方面词提取技术进行了深入的研究。研究的方法包括两种:基于有监督学习的方法和基于无监督学习的方法。基于有监督学习的方面词提取方法的研究者们将方面词提取视为一个序列标注任务,常见的研究方法有基于图的方法、基于语义分析的方法和基于统计的方法。虽然该方法方法在一定程度上提高了方面词提取的精度,但是该方法严重依赖人工标注的高质量数据,人工标注数据会带来成本问题,而且模型难以迁移到新的领域中。基于无监督学习 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的方面词提取方法,其特征在于,所述方法包括以下步骤:步骤1,构筑方面词提取数据集,步骤2,方面词提取模型训练,步骤3,对数据集进行测试。2.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤1,构筑方面词提取数据集,具体如下,首先收集了SemEval 2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,将其分别用于方面词提取模型的训练和验证。3.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤2具体如下,首先,将待提取方面词的句子送入模型的多特征编码层中,得出句子的初始编码结果;然后,句子的初始编码结果会被送入基于双向LSTM的上下文编码层中,进行句子的上下文编码;接着,基于多头自注意力机制的全局语境信息提取层对句子的全局语境特征进行提取,捕获方面词之间的语义关联;最后,经过基于条件随机场的序列解码层完成解码,得到方面词提取的结果,在训练阶段,模型的损失函数会将模型的预测值与真实值作比较,并计算损失值,通过反向传播更新模型参数,使模型参数变得更优。4.根据权利要求3所述的基于深度学习的方面词提取方法,其特征在于,步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:子步骤2
‑
1,使用多特征编码层对句子进行初始编码,具体过程如下:定义E
w
代表三种信息整体嵌入的结果,E
T
、E
s
和E
P
分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:E
w
=E
T
+E
S
+E
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=E
w
,则编码的过程表示为:H
i
=Transformer(H
i
‑1),i∈[1,L]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,H
i
代表第i层Transformer编码的结果,L代表Roberta
‑
base编码器Transformer的总层数;接着,对每个单词对应的字符进行编码,设经过填充后的字符序列为为C={c1,c2,...,c
n
},n表示字符的个数,Emb
c
为字符的嵌入矩阵,则字符的嵌入过程表示为:E
c
=Emb
c
·
C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:为:为:其中,代表双向LSTM的前向隐藏状态输出,代表双向LSTM的后向隐藏状态输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作;最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
其中,H
CW
代表融合单词、位置、片段和字符四种特征的向量表示,H
L
代表Roberta
‑
base最后一层Transformer的输出,H
C
代表双向LSTM最终的输出,代表向量的连接操作;子步骤2
‑
2,从多特征编码层得到了融合四种不同粒度特征的向量...
【专利技术属性】
技术研发人员:杨鹏,张朋辉,戈妍妍,
申请(专利权)人:南京优慧信安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。