文本分类方法技术

技术编号：25835525 阅读：53 留言：0更新日期：2020-10-02 14:16

本发明专利技术提供了一种文本分类方法，方法首先对带标签的文本数据进行清洗，分数据集；然后将文本序列映射为文本向量S；并将文本向量S输入到双向LSTM网络中得到与文本向量S维度相同的文本向量S1、S2，由文本向量S、S1、S2计算得到文本向量S

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法
本专利技术涉及一种文本分类方法。
技术介绍
文本分类在信息处理中占据着重要的地位，随着互联网的发展海量的文本数据不断产生，这些文本数据中存在着大量的信息，利用有效的方法对这些信息进行有效的管理和提取对企业和社会信息技术发展有着重大作用。目前，深度学习技术被广泛的应用在文本分类任务上。具体来说，Kim等人将CNN应用在文本分类任务上，利用卷积层获取局部的文本信息。但卷积网络无法很好的利用文本的序列信息。之后人们将RNN以及在RNN基础上改进的LSTM网络应用在文本分类任务上取得了更好的分类效果。但是，由于人类语言存在的歧义性，相同的词在不同的上下文语意中有着不同的含义。传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响。
技术实现思路
本专利技术的目的在于提供一种文本分类方法。为解决上述问题，本专利技术提供一种文本分类方法，包括：步骤S1，对带标签的文本数据进行清洗，对清洗后的带标签的文本数据划分训练数据集和验证集；...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：/n步骤S1，对带标签的文本数据进行清洗，对清洗后的带标签的文本数据划分训练数据集和验证集；/n步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列；/n步骤S3，构建词向量字典；/n步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S；/n步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2；/n步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量S

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：
步骤S1，对带标签的文本数据进行清洗，对清洗后的带标签的文本数据划分训练数据集和验证集；
步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列；
步骤S3，构建词向量字典；
步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S；
步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2；
步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw；
步骤S7，利用改进的CNN网络模型提取文本向量Sw中的文本类别信息，以输出文本类别；
步骤S8，根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数；
步骤S9，重复步骤S2～步骤S8，以批量输入训练数据，使用批量梯度下降算法优化损失函数；
步骤S10，根据改进的CNN网络模型在所述验证集上的表现，选取最优的改进的CNN网络模型作为最终的模型。

2.如权利要求1所述的文本分类方法，其特征在于，对带标签的文本数据进行清洗，包括：
对带标签的文本数据去除多余的符号，保留词语间的空格和预设的必要的标点符号、单词，并将标签用one-hot向量表示。

3.如权利要求1所述的文本分类方法，其特征在于，步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列，包括：
首先按照训练数据集中的文本数据的单词频率为每个单词进行编号，然后取前num个频率最高的单词，将用对应的编号分别替换前num个频率最高的单词得到替换后的数据集，其中，num为正整数；
将替换后的数据集中的文本截取或填充为相同长度，该长度设置为平均长度，计算公式为：

其中，n表示数据集大小、Si表示第i个句子、len(Si)表示句子Si的长度。

【专利技术属性】
技术研发人员：刘云翔，徐齐，原鑫鑫，张国庆，唐泽莘，
申请(专利权)人：上海应用技术大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人