一种文本分类方法技术

技术编号：19480221 阅读：37 留言：0更新日期：2018-11-17 10:33

本发明专利技术提供了一种构建文本分类模型的方法。该方法包括以下步骤：根据文本信息的字、词语和句子的结构特征构建训练样本集，其中，所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O，O的维度与类别数量相同；以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入，以对应的类别向量O为输出，训练深度学习模型，以获得文本分类模型。根据本发明专利技术构建的分类模型进行分类，能够提高文本分类的准确率，尤其适用于短文本分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法
本专利技术涉及深度学习
，尤其涉及一种文本分类方法。
技术介绍
文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。文本分类技术在日常生活中具有广泛的应用，例如，对垃圾短信和邮件的过滤，对新闻的分组查阅等等。随着微博、微信等社交方式的快速发展，短文本成为一种重要的信息形式，短文本通常具有的特点包括：字数少，短文本的长度通常都比较短，一般在200字以内，因此，所包含的有效信息也非常少；更新快，在互联网上出现的短文本形式的信息，大部分都是实时更新的，刷新速度非常快，例如，聊天信息、微博信息、评论信息等，并且文本数量非常庞大；不规范，短文本中可能存在不规范用语，例如“94”代表“就是”，“88”代表“再见”，“童鞋”代表“同学”，又如“伤不起”、“有木有”、“坑爹”等。在现有技术中的文本分类方法中，文本分类准确率不高，尤其对短文本分类的效果不理想，目前，常用的短文本分类方法有：第一、基于关键词匹配的文本分类方法，这是一种比较传统的方法，需要人工配置某些关键词，然后与每个需要分类的文本进行关键词匹配，匹配到不同的关键词之后再根据关键词的性质将文本划分为不同的类别。这种方法需要人工构造关键词的字典，而且对于新出现的词需要不断地更新字典，不能保证分类结果的准确性，人工成本也很高，对于快速更新的大数据量的短文本，这种方式存在很明显的速度慢的问题。第二、基于传统机器学习的文本分类方法，该方法将传统的机器学习，例如，分类模型的朴素贝叶斯、支持向量机(SVM)、K近邻、逻辑回归等方法应用到文本分类中。这种方法操作简单，计算复杂度低，...

【技术保护点】
1.一种构建文本分类模型的方法，包括以下步骤：步骤1：根据文本信息的字、词语和句子的结构特征构建训练样本集，其中，所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O，O的维度与类别数量相同；步骤2：以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入，以对应的类别向量O为输出，训练深度学习模型，以获得文本分类模型。

【技术特征摘要】
1.一种构建文本分类模型的方法，包括以下步骤：步骤1：根据文本信息的字、词语和句子的结构特征构建训练样本集，其中，所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O，O的维度与类别数量相同；步骤2：以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入，以对应的类别向量O为输出，训练深度学习模型，以获得文本分类模型。2.根据权利要求1所述的方法，其中，在步骤1中，根据以下子步骤构造一条文本信息的关于词语的特征矩阵A和关于字的特征矩阵B：步骤21：将该条文本信息进行分词处理并将分词结果按顺序排列训练词语向量转换模型，获得该条文本信息关于词语的高维特征表示；步骤22：将该条文本信息进行分字处理并将分字结果按顺序排列训练字向量转换模型，获得该条文本信息关于字的高维特征表示；步骤23：根据获得的该条文本信息关于词语的高维特征表示和该条文本信息关于字的高维特征表示以及该条文本信息的字、词语和句子的结构特征构造关于词语的特征矩阵A和关于字的特征矩阵B。3.根据权利要求2所述的方法，其中，所述词语向量转换模型为Word2Vec词嵌入模型，所述字向量转换模型为Word2Vec字嵌入模型。4.根据权利要求1所述的方法，其中，所述深度学习模型包括第一层双向循环神经网络、第二层双向循环神经网络和分类器，所述第一层双向循环神经网络用作词序列编码器和字序列编码器，以获得词的向量表示和字的向量表示，进而获得文本信息的句子向量si，所述第二层双向循环神经网络用作句子序列编码器，以获得文句子向量si的高级特征向量，进而获得文本信息的高级特征向量表示v，所述分类器用于对文本信息的高级特征向量表示v进行分类，其中i为文本信息中句子的索引编号。5.根据权利要求4所述的方法，其中，在步骤2中通过以下子步骤获...

【专利技术属性】
技术研发人员：赵莉，姜松浩，张程，赵晓芳，段东圣，杜翠兰，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人