当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于深度学习网络的短文本分类方法技术

技术编号:33130126 阅读:46 留言:0更新日期:2022-04-17 00:45
本发明专利技术涉及基于深度学习网络的短文本分类方法,属于自然语言处理技术领域。包括以下步骤:将短文本数据集进行数据清洗,得到质量更高的短文本数据集;将短文本数据集进行处理,得到短文本词汇表、关键词词汇表、标签词汇表;利用CBOW神经网络训练得到文本词向量,再将标签替换短文本中的关键词,训练得到标签词向量;将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算;将新的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。本发明专利技术解决了短文本特征不足而无法准确分类的问题,提高了短文本分类的准确性。提高了短文本分类的准确性。提高了短文本分类的准确性。

【技术实现步骤摘要】
一种基于深度学习网络的短文本分类方法


[0001]本专利技术涉及一种基于深度学习网络的短文本分类方法,属于自然语言处理


技术介绍

[0002]随着网络的快速发展及其在生活中的广泛应用导致了短文本数据的激增。将短文本根据应用场景进行分类,在很多应用程序中具有重要意义。例如邮件系统中的垃圾邮件过滤、外卖系统中的情感分析、社交软件的个性化推荐等等。因此,在人工智能领域下的自然语言处理领域,短文本分类已成为学术界和工业界的一个研究热点。
[0003]与普通文本相比,短文本通常由几个或十几个词语组成,且数据规模庞大,因此短文本具有稀疏性、大规模性、即时性,导致传统的方法难以处理短文本分类。其主要原因在于短文本的字数有限,难以提取足够的特征。因此需要设计一种良好的短文本分类方法,来解决上述问题。
[0004]现有技术中,针对短文本分类问题,主要方法有基于机器学习与基于深度学习两类。基于传统机器学习的方法主要依靠词频、词语共现、共享文档等来定义文档相似度,但短文本由于数据稀疏难以达到预期准确率。基于深度学习的方法,能够从文本中提取较本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习网络的短文本分类方法,其特征在于,包括以下步骤:S1:将短文本数据集进行数据清洗,得到处理后的短文本数据集;原始数据集的格式为S(s,t)|t∈[1,k],其中s代表短文本,t为对应的类别标签,k与文本类别总数相等;S2:将短文本数据集进行整理和切词,得到短文本词汇表、关键词词汇表、标签词汇表;S3:将短文本数据集输入CBOW神经网络训练得到文本词向量,再用文本标签替换短文本中的关键词,训练得到标签词向量;S4:将短文本数据集输入卷积神经网络和长短期记忆神经网络进行特征提取,将提取的特征与标签词向量求和得到查询向量,对查询向量进行注意力机制得分计算,得到卷积网络与长短期记忆网络输出的特征向量;S5:将步骤S4得到的特征向量输入全连接层进行输出后,输入最终的损失函数层进行预测分类。2.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S1中的数据清洗的具体步骤包括:S11:将短文本数据集中的无效数据进行剔除,包括短文本与其类别标签不相符,短文本标签缺失,无效的短文本;S12:将短文本数据集中的重复数据及相似数据进行剔除,得到短文本数据集S

。3.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S2的具体步骤如下:S21:构建短文本词汇表:将数据清洗后的短文本数据集S

进行整理,利用结巴分词进行单词切分,加入短文本词汇表Wt;S22:构建标签词汇表:手动将短文本的所有问句类型文本标签加入标签词汇表Wl;S23:构建关键词词汇表:将能够代表问句类型的一些关键词,加入关键词词汇表Wk。4.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S3的具体步骤如下:S31:将数据清洗后的短文本数据集S

输入CBOW神经网络得到短文本词汇表Wt的词向量表Vt;S32:将数据清洗后的短文本数据集S

按百分之X的比例随机抽取得到子数据集S”,将S”中短文本s的关键词用标签词汇表Wl的文本标签替换,输入CBOW神经网络,训练得到标签词汇表Wl的词向量表Vl。5.根据权利要求1所述的一种基于深度学习网络的短文本分类方法,其特征在于,步骤S4的具体步骤如下:S41:从短文本数据集S

中按顺序逐条取出短文本数据s进行分词,得到ρ'={W1,...,W
n
},其中W
i
为切分后的单词,n为一条短文本s的单词个数;S42:将ρ'中的单词W
i
作为键,在短文本词汇表中进行查询,得到ρ'的词向量表示ρ”={w1,...,w
n
};S43:将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取,分别得到中间特征向量:f
left
,f
right
=σ(W
xo
x
t
+W...

【专利技术属性】
技术研发人员:吴健朱小龙周从华
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1