一种基于深度学习的方面词提取方法技术

技术编号：34526517 阅读：35 留言：0更新日期：2022-08-13 21:17

本发明专利技术公开了一种基于深度学习的方面词提取方法，具体如下，构筑方面词提取数据集；将数据集中的句子特征嵌入到语义空间中；使用多特征编码器进行句子特征编码；使用基于双向LSTM的上下文编码层对句子上下文进行编码；使用基于多头自注意力机制的全局语义信息提取层对句子的全局语义信息进行提取，捕获方面词与上下文的之间语义关系；基于条件随机场的的序列解码层对模型学习到的向量进行解码，通过序列标注完成句子中的方面词提取，可用于社交媒体文本的方面词提取。本发明专利技术基于对句子的多特征进行充分地学习，结合多头自注意力机制完成方面词上下文语义信息的捕获，在复杂的场景下仍能表现出良好的效果，具有精准度高、鲁棒性强的特点。性强的特点。性强的特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的方面词提取方法

[0001]本专利技术涉及一种基于深度学习的方面词提取方法，该方法可用于社交媒体文本方面词的提取，属于互联网与自然语言处理

技术介绍

[0002]随着互联网的不断发展，越来越多的网民习惯于使用社交媒体(例如微博、Twitter等)表达对新闻事件的观点和态度。各大社交媒体平台逐渐成为现实世界事件发展的传感器，网络舆情在反映民意、折射现实等方面发挥着越来越重要的作用。与此同时，网络上也充斥着各种各样的不良言论，但是网络空间不是法外之地，通过网络舆情分析技术对网络舆论进行监管，有利于实现政府部门了解民意、妥善处理社会舆论事件、营造健康和谐的网络环境。情感分析技术作为舆情分析技术的重要组成部分，情感分析的质量将直接决定舆情分析的质量分析。现有的情感分析技术是文档级情感分析和句子级情感分析，不能满足舆情分析系统对社交媒体内容情感细节的需求，因此需要引入方面级情感分析技术。然而，方面词提取是方面级情感分析的前提，高质量的方面词对方面级情感分析具有重要意义。
[0003]近年来，许多学者...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的方面词提取方法，其特征在于，所述方法包括以下步骤：步骤1，构筑方面词提取数据集，步骤2，方面词提取模型训练，步骤3，对数据集进行测试。2.根据权利要求1所述的基于深度学习的方面词提取方法，其特征在于，步骤1，构筑方面词提取数据集，具体如下，首先收集了SemEval 2014 Restaurant数据集和Laptop数据集，然后又收集ACL14 Twitter公开数据集，最后将这些数据集按照8:2划分为训练集和验证集，将其分别用于方面词提取模型的训练和验证。3.根据权利要求1所述的基于深度学习的方面词提取方法，其特征在于，步骤2具体如下，首先，将待提取方面词的句子送入模型的多特征编码层中，得出句子的初始编码结果；然后，句子的初始编码结果会被送入基于双向LSTM的上下文编码层中，进行句子的上下文编码；接着，基于多头自注意力机制的全局语境信息提取层对句子的全局语境特征进行提取，捕获方面词之间的语义关联；最后，经过基于条件随机场的序列解码层完成解码，得到方面词提取的结果，在训练阶段，模型的损失函数会将模型的预测值与真实值作比较，并计算损失值，通过反向传播更新模型参数，使模型参数变得更优。4.根据权利要求3所述的基于深度学习的方面词提取方法，其特征在于，步骤2，方面词提取模型训练，该步骤实施过程分为4个子步骤：子步骤2
‑
1，使用多特征编码层对句子进行初始编码，具体过程如下：定义E
w
代表三种信息整体嵌入的结果，E
T
、E
s
和E
P
分别代表词嵌入、片段嵌入和位置嵌入，则Roberta中信息嵌入表示为：E
w
＝E
T
+E
S
+E
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)之后，多层Transformer编码器对嵌入的结果进行编码，定义第一层编码器的输入为H0，则有H0＝E
w
，则编码的过程表示为：H
i
＝Transformer(H
i
‑1),i∈[1,L]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中，H
i
代表第i层Transformer编码的结果，L代表Roberta
‑
base编码器Transformer的总层数；接着，对每个单词对应的字符进行编码，设经过填充后的字符序列为为C＝{c1,c2,...,c
n
}，n表示字符的个数，Emb
c
为字符的嵌入矩阵，则字符的嵌入过程表示为：E
c
＝Emb
c
·
C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)在字符编码阶段使用双向的长短期记忆网络作为字符编码器，编码的过程可以表示为：为：为：其中，代表双向LSTM的前向隐藏状态输出，代表双向LSTM的后向隐藏状态输出，H
C
代表双向LSTM最终的输出，代表向量的连接操作；最后，进行单词、位置、片段和字符四种不同粒度特征的融合，该过程表示为：
其中，H
CW
代表融合单词、位置、片段和字符四种特征的向量表示，H
L
代表Roberta
‑
base最后一层Transformer的输出，H
C
代表双向LSTM最终的输出，代表向量的连接操作；子步骤2
‑
2，从多特征编码层得到了融合四种不同粒度特征的向量...

【专利技术属性】
技术研发人员：杨鹏，张朋辉，戈妍妍，
申请(专利权)人：南京优慧信安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人