一种基于TCN+LSTM的文本情感分类方法技术

技术编号:28224231 阅读:40 留言:0更新日期:2021-04-28 09:54
本发明专利技术属于文本处理技术领域,具体涉及一种基于TCN+LSTM的文本情感分类方法,包括下列步骤:数据集构建:数据集采用SUBJ与SST

【技术实现步骤摘要】
一种基于TCN+LSTM的文本情感分类方法


[0001]本专利技术属于文本处理
,具体涉及一种基于TCN+LSTM的文本情感分类方法。

技术介绍

[0002]传统方法中多使用朴素贝叶斯、SVM等方法进行文本情感的分类,此类方法只能进行逐词分析,低于上下文关系无法进行有效的分析,导致分类效果较差。现有的深度学习文本分类方法对文本的特征提取方式易丢失上下文信息,且网络参数量大,对于算力要求较高,导致文本分类速度慢。
[0003]现有技术存在的问题或者缺陷:目前传统的文本情感分类技术中容易忽视上下文关系,丢失语序信息,对文本的情感分类准确率低,文本分类处理速度慢,无法满足现实需求。

技术实现思路

[0004]针对上述的技术问题,本专利技术提供了一种计算量少、分类速度快、成本低的基于TCN+LSTM的文本情感分类方法。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种基于TCN+LSTM的文本情感分类方法,包括下列步骤:
[0007]S1、数据集构建:数据集采用SUB本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于TCN+LSTM的文本情感分类方法,其特征在于:包括下列步骤:S1、数据集构建:数据集采用SUBJ与SST

2数据集融合构建;S2、数据补偿:对输入定长数据进行长度补偿,得到长度一致的数据集;S3、数据转码:对文本进行转码操作,得到网络可以直接进行处理的文本向量形式数据,同时在转码过程中提升数据维度,获取更多的数据特征;S4、数据集划分:采用K折交叉验证对数据集进行划分;S5、评价指标:采用Kappa系数进行评价,此方式基于混淆矩阵可对多分类精度进行准确的描述,帮助分析网络性能;S6、分类模型:通过采用TCN与GRU融合的方式构建,对数据上下文特征进行全面快速的分析提取,之后使用CNN+FC对提取到的特征进行有效的降维与分类,得到文本分类结果。2.根据权利要求1所述的一种基于TCN+LSTM的文本情感分类方法,其特征在于:所述S2中数据补偿的方法为:将所有数据扩充为长度为25的数据,补偿方式为给每条数据添加直到数据长度为25。3.根据权利要求1所述的一种基于TCN+LSTM的文本情感分类方法,其特征在于:所述S3中数据转码的方法为:对补偿后的数据进行文本转码和标签转码,所述文本转码通过使用Word2vec进行词向量训练,所述词向量维度采用128,经过训练后,得到数据的128维向量表示;所述标签转码的方法为:将数据标签转换为One

Hot形式,用于网络训练,即对于4类情感0/1/2/3,若该条文本为情感2...

【专利技术属性】
技术研发人员:潘晓光宋晓晨董虎弟陈智娇姚珊珊
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1