【技术实现步骤摘要】
一种基于融合多文本特征的中文文本情感分析方法
[0001]本专利技术涉及自然语言处理
,尤其涉及到一种基于融合多文本特征的中文文本情感分析方法。
技术介绍
[0002]文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。其涉及领域包括自然语言处理、文本挖掘、信息检索、信息抽取和机器学习等。传统双向长短期记忆神经网络(BidirectiLnalLLng ShLrt
‑
Term MemLry,BiLSTM)在文本情感分析上已经取得较好的效果,但对文本自身包含的特征信息学习不够。针对此问题,本文提出融合多文本特征的中文文本情感分析方法。
[0003]综上所述,提供一种可解决传统双向长短期记忆神经网络(BiLSTM)对文本自身包含的特征信息学习不够的问题,且能有效地提高中文文本情感分析的准确率的基于融合多文本特征的中文文本情感分析方法,是本领域技术人员急需解决的问题。
技术实现思路
[0004]本 ...
【技术保护点】
【技术特征摘要】
1.一种基于融合多文本特征的中文文本情感分析方法,其特征在于,包括以下步骤:步骤Step1:获取中文文本信息,并对所述中文文本信息进行预处理,得到所述中文文本信息对应的多个序列;步骤Step2:将所述多个序列输入BiGRU网络提取各序列的文本特征,生成所述多个序列对应的多个文本特征信息;步骤Step3:将所述多个文本特征信息进行融合,并输入到BiLSTM网络中进行学习;步骤Step4:再利用自注意力机制筛选特征,对步骤Step3提取的特征信息分配相应的权重,获取最重要的情感信息;步骤Step5:将经过自注意力机制筛选后的特征向量,输入sigmoid分类器进行分类,得到最终的情感分析结果。2.如权利要求1所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述多个序列包括文本词序列、词性序列、字序列、字词性序列、字
‑
位置序列和字
‑
词性
‑
位置序列。3.如权利要求2所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述提取各序列的文本特征包括:将所述多个序列通过word2vec模型训练得到所述多个序列对应的多个序列矩阵,每个序列中对应的每个元素的元素向量为x
i
,x
i
∈R
n
×
d
,其中n是元素数,d是向量维度,则每个序列的整个序列矩阵Uj表示为:U
j
={x1,x2,
…
,x
n
},j表示序列编号;将Uj输入训练好的BiGRU网络,同时处理正向和反向文本序列,对文本深层次信息进行特征提取,得到对应的特征向量信息A
t
、B
t
、C
t
、D
t
、E
t
、F
t
。4.如权利要求3所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述BiGRU网络由正向GRU、反向GRU和正反向GRU的输出状态连接层组成,若记t时刻正向GRU输出的隐藏状态为则反向GRU输出的隐藏状态为则而BiGRU网络输出的语义表示为h
t
,,其中,w
t
,v
t
是权值矩阵,GRU为GRU函数,U
t
为t时刻的GRU输入,b
t
为偏置向量。5.如权利要求4所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述将所述多个文本特征信息进行融合包括:将所述对应的特征向量信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。