【技术实现步骤摘要】
基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
本专利技术涉及文本信息处理
,具体涉及一种基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统。
技术介绍
随着社交网络的迅速发展,越来越多的用户已经在论坛,博客和其他网站上发布了有关各种产品的文本评论。通过有效的分析和挖掘,文本评论可以帮助公司实时捕获客户需求并指导消费者的购物决策。情感分析作为一种重要的文本挖掘技术,近来得到了广泛的关注。现有的多种情感的识别称为多类别情感分析或多类别情感分类。近年来,已经进行了一些关于多类别情感分析的研究。这些研究主要使用支持向量机(SVM)和随机森林等机器学习方法来识别多类情感。然而,本申请的专利技术人发现,现有的多类别情感分类有一定的局限性。首先,在多类别情感分析中情感的具体含义尚未深入讨论。许多研究只讨论了三类别情感分析,包括积极,消极和中立的情感,或基于从1到5的等级进行的情感强度分析,其中1表示非常消极的情感,而5表示非常积极的情感。其次,多类别情感分析的粒度不足,在 ...
【技术保护点】
1.一种基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,包括:/n获取文本评论,对所述文本评论进行预处理,得到文本评论的子句;/n对文本评论的子句进行多种情感类别标注处理,获取训练集、验证集和测试集;/n基于上下文依赖策略、所述训练集、验证集和测试集和基于CNN-BiLSTM框架的情感分析模型获取多分类情感分析模型,通过所述多分类情感分析模型分析待测文本评论的情感类别,所述多分类情感分析模型的结构包括解析层、嵌入层、卷积层、池化层、双向LSTM层和Softmax层的多分类情感分析模型,所述双向LSTM层用于基于上下文依赖策略学习文本上下文相关性。/n
【技术特征摘要】
1.一种基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,包括:
获取文本评论,对所述文本评论进行预处理,得到文本评论的子句;
对文本评论的子句进行多种情感类别标注处理,获取训练集、验证集和测试集;
基于上下文依赖策略、所述训练集、验证集和测试集和基于CNN-BiLSTM框架的情感分析模型获取多分类情感分析模型,通过所述多分类情感分析模型分析待测文本评论的情感类别,所述多分类情感分析模型的结构包括解析层、嵌入层、卷积层、池化层、双向LSTM层和Softmax层的多分类情感分析模型,所述双向LSTM层用于基于上下文依赖策略学习文本上下文相关性。
2.如权利要求1所述的基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,所述预处理包括:
删除垃圾文本评论;
对文本评论进行分词处理;
对评论文本进行子句切割,将文本评论r分为T个子句clause1,clause2,…,clauset,…,clauseT。
3.如权利要求2所述的基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,所述上下文依赖策略包括:
通过评论文本中的子句之间的情感传递获取评论文本中每个子句的情感类别,表达式如下:
其中,clausek表示第k个子句,tagk表示clausei的情感类别,F2表示子句关系的特征提取函数,表示第i个相邻子句的特征对第k个子句的权重。
4.如权利要求1所述的基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,所述解析层包括:
基于语法解析将文本评论数据切分为子句。
5.如权利要求4所述的基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,所述嵌入层用于将文本评论转化为向量数据,具体为:
使用训练好的词向量模型对每个词进行向量化表示,通过将词向量顺序链接,可以得到每个子句的矩阵其中,表示Mt子句clauset的矩阵,d是词向量的维度,N是子句的最大长度;
词向量模型的训练过程如下:
选择使用Python中的gensim包进行词向量模型训练,通过对大量文本评论语料进行反复迭代训练,从而得到特定领域的词向量模型。
6.如权利要求5所述的基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法,其特征在于,所述卷积层用于从嵌入层生成的每个子句的矩阵中提取n-gram语法特征,n-gram语法特征表示每个子句的情感信息,具体为:
使用三种高度不同、宽度相同、卷积核相同的卷积核从从嵌入层生成的每个子句的矩阵中提取n-gram语法特征,通过矩阵Mt与滤波器Fl(1≤l≤3L)之间的连续卷积运算可以获得n-gram特征图其中,ω∈{2,3,4}表示滤波器Fl的高度,一个特征是通过以下公式从δ个词x...
【专利技术属性】
技术研发人员:张强,方钊,王安宁,赵爽耀,唐孝安,杨善林,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。