基于LDA主题模型与分层神经网络的情感分类方法技术

技术编号：26376460 阅读：23 留言：0更新日期：2020-11-19 23:45

本发明专利技术公开了一种基于LDA主题模型与分层神经网络的情感分类方法，包括：将文档输入LDA主题模型获得文档的文档‑主题分布和主题‑词分布；将文档以标点符号划分为句子，以句子为单位进行分词并将句中的词汇表示为词向量输入到双向循环神经网络中，获取词汇的隐藏状态向量；在词汇层面，使用注意力机制获取词级别的主题特征向量，结合词汇的隐藏状态向量，形成句子的向量表示；在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。本发明专利技术增加了模型的领域适应能力，并充分利用文档的层次结构，分别在词汇和句子两层使用注意力机制，时序信息及显著信息，提高模型情感分类的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于LDA主题模型与分层神经网络的情感分类方法
本专利技术涉及自然语言处理中的情感分析领域，尤其是指一种基于LDA主题模型与分层神经网络的情感分类方法。
技术介绍
随着互联网行业的快速发展，越来越多的人选择通过网络来表述自己的观点与情感，如何从海量数据中高效提取出有价值的信息是一个研究重点，情感分析研究对自然语言处理、管理科学、政治学、经济学和社会科学都有很大的价值。情感分析结合文本数据的主题是一个重要研究课题，文档主题向量本质是表示文档的深层语义，是主题和语义的内在结合，抽取的文档主题向量可以广泛的应用于情感分析任务中，例如社交网络和新媒体的舆情分析，新闻热点的及时获取等。当前的情感分析方法主要包括以下三类：基于语言规则的方法、基于传统机器学习的方法和基于深度神经网络的方法。近年来，随着互联网的发展和数据工程的发展，文本数据的体量急剧增大和语言表示的多元化，使得神经网络技术的优势逐渐明显。相比于基于规则的方法和传统机器学习的方法，深度神经网络由于其模型与函数的复杂性，在面对当今复杂多变的语言模型时，可以捕捉更全面，更深层的文本特征，及对文本有更好的理解能力，故在情感分析领域也可以达到更好的效果，因此使用神经网络的方法成为主流方法。现有的基于深度神经网络的情感分析的研究中，主要的工作是将文本通过神经网络的embedding层训练并表示成向量或矩阵的形式，然后构建合适的深度神经网络模型进行深层特征的抽象，最后在神经网络模型的输出层利用激活函数进行分类概率的计算。这类深度学习的方法仅仅是将文本内容

【技术保护点】
1.基于LDA主题模型与分层神经网络的情感分类方法，其特征在于，包括以下步骤：/nS1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布；/nS2、将文档以标点符号划分为句子，以句子为单位进行分词，并将句中的词汇表示为词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量；/nS3、在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示；/nS4、在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。/n

【技术特征摘要】
1.基于LDA主题模型与分层神经网络的情感分类方法，其特征在于，包括以下步骤：
S1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布；
S2、将文档以标点符号划分为句子，以句子为单位进行分词，并将句中的词汇表示为词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量；
S3、在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示；
S4、在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。

2.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述文档-主题分布和主题-词分布分别为：每篇文档分属K个主题的概率分布和每个主题下V个词汇的概率分布。

3.根据权利要求1或2所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述LDA主题模型的处理过程为：
1)对于每一篇文档d＝1，…，D，采样一个文档-主题分布θd～Dir(α)；
2)对于每一个主题k＝1，…，K，采样一个主题-词汇分布βk～Dir(η)；
3)对于文中的每一个词w＝1，…，V，采样一个主题标签Zdv～Mult(θd)，在主题标签Zdv的主题词汇分布下采样一个单词
其中Mult(.)是多项式分布，Dir(.)是Dirichlet分布，θd是任一文档d的主题分布，α是分布的超参数，是一个K维向量，K代表主题个数；βk是任一主题K的词汇分布，η是分布的超参数，是一...

【专利技术属性】
技术研发人员：刘洪涛，钱启敏，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人