一种文本分类方法技术

技术编号:19480221 阅读:37 留言:0更新日期:2018-11-17 10:33
本发明专利技术提供了一种构建文本分类模型的方法。该方法包括以下步骤:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。根据本发明专利技术构建的分类模型进行分类,能够提高文本分类的准确率,尤其适用于短文本分类。

【技术实现步骤摘要】
一种文本分类方法
本专利技术涉及深度学习
,尤其涉及一种文本分类方法。
技术介绍
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类技术在日常生活中具有广泛的应用,例如,对垃圾短信和邮件的过滤,对新闻的分组查阅等等。随着微博、微信等社交方式的快速发展,短文本成为一种重要的信息形式,短文本通常具有的特点包括:字数少,短文本的长度通常都比较短,一般在200字以内,因此,所包含的有效信息也非常少;更新快,在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,例如,聊天信息、微博信息、评论信息等,并且文本数量非常庞大;不规范,短文本中可能存在不规范用语,例如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,又如“伤不起”、“有木有”、“坑爹”等。在现有技术中的文本分类方法中,文本分类准确率不高,尤其对短文本分类的效果不理想,目前,常用的短文本分类方法有:第一、基于关键词匹配的文本分类方法,这是一种比较传统的方法,需要人工配置某些关键词,然后与每个需要分类的文本进行关键词匹配,匹配到不同的关键词之后再根据关键词的性质将文本划分为不同的类别。这种方法需要人工构造关键词的字典,而且对于新出现的词需要不断地更新字典,不能保证分类结果的准确性,人工成本也很高,对于快速更新的大数据量的短文本,这种方式存在很明显的速度慢的问题。第二、基于传统机器学习的文本分类方法,该方法将传统的机器学习,例如,分类模型的朴素贝叶斯、支持向量机(SVM)、K近邻、逻辑回归等方法应用到文本分类中。这种方法操作简单,计算复杂度低,但有很大的局限性,例如,朴素贝叶斯解决文本分类问题时必须满足位置独立性和条件独立性的假设,但是这两种假设在实际中并不成立,而且,大多数传统的机器学习方法都是针对小规模、单标号且平衡的问题设计的,对于大规模的短文本数据,高维度的特征表示有很大的局限性。此外,基于传统机器学习的文本分类方法在数据预处理上需要花费大量的时间,对文本特征的提取也有很严格的要求,而特征提取的恰当与否对于分类结果会有很大的影响。第三、基于深度学习的文本分类方法,该方法将深度学习,例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等应用到文本分类中,使用神经网络处理文本分类时,不需要将大量时间放到数据的预处理上,将数据输入到神经网络之后,就可以自动抽取到有价值的特征,然后再进行后续的分析处理。尽管这种方法在一定程度上弥补了很多传统机器学习的缺点,但是对于全连接神经网络和卷积神经网络而言,神经网络的数据是文本的高维向量表示,并没有考虑到语序问题,而一段文本文档中的词语的语序往往蕴含了大量的有价值信息,其表述思想与上下文紧密相关。现有的这种基于深度学习的分类方法会导致丢失大量的有价值的信息,进而使分类结果不准确。因此,需要对现有技术进行改进,以提供分类准确度高的文本分类方法,并且使其更适用于短文本分类。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种文本分类方法,能够有效的避免文本信息的丢失,实现高容错的效果,该方法尤其适用于短文本的分类场景。根据本专利技术的第一方面,提供了一种构建文本分类模型的方法。该方法包括以下步骤:步骤1:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;步骤2:以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。在一个实施例中,在步骤1中,根据以下子步骤构造一条文本信息的关于词语的特征矩阵A和关于字的特征矩阵B:步骤21:将该条文本信息进行分词处理并将分词结果按顺序排列训练词语向量转换模型,获得该条文本信息关于词语的高维特征表示;步骤22:将该条文本信息进行分字处理并将分字结果按顺序排列训练字向量转换模型,获得该条文本信息关于字的高维特征表示;步骤23:根据获得的该条文本信息关于词语的高维特征表示和该条文本信息关于字的高维特征表示以及该条文本信息的字、词语和句子的结构特征构造关于词语的特征矩阵A和关于字的特征矩阵B。在一个实施例中,所述词语向量转换模型为Word2Vec词嵌入模型,所述字向量转换模型为Word2Vec字嵌入模型。在一个实施例中,所述深度学习模型包括第一层双向循环神经网络、第二层双向循环神经网络和分类器,所述第一层双向循环神经网络用作词序列编码器和字序列编码器,以获得词的向量表示和字的向量表示,进而获得文本信息的句子向量si,所述第二层双向循环神经网络用作句子序列编码器,以获得文句子向量si的高级特征向量,进而获得文本信息的高级特征向量表示v,所述分类器用于对文本信息的高级特征向量表示v进行分类,其中i为文本信息中句子的索引编号。在一个实施例中,在步骤2中通过以下子步骤获得一条文本信息的高级特征向量表示v:步骤51:将该文本信息的关于词语的特征矩阵A输入到所述第一层双向循环神经网络进行训练,获得基于词向量的句子表示s1i;步骤52:将该条文本信息的关于字的特征矩阵B输入到所述第一层双向循环神经网络进行训练,获得基于字向量的句子表示s2i;步骤53:将s1i和s2i进行拼接,构成句子向量si;步骤54:将句子向量si输入到所述第二层双向循环网络进行训练,获得该条文本信息的高级特征向量表示v。在一个实施例中,对于基于词向量的句子表示s1i包含利用attention机制获得的句子中各个词语的重要性权重,对于基于字向量的句子表示s2i包含利用attention机制获得的句子中各个字的重要性权重。在一个实施例中,在步骤54中,所述该条文本信息的高级特征向量表示v包含利用attention机制获得的该条文本信息中各个句子重要性的权重。在一个实施例中,所述分类器为SoftMax模型、SVM或朴素贝叶斯。在一个实施例中,所述第一层双向循环神经网络和所述第二层双向循环神经网络为双向GRU或双向LSTM。根据本专利技术的第二方面,提供了一种文本的分类方法。该方法包括:步骤101:获取文本信息的关于词的特征向量表示和关于字的特征向量表示;步骤102:将文本信息的关于词的特征向量表示和关于字的特征向量表示输入到根据权利要求1至9中任一项所获得的文本分类模型,以获得该文本信息的类别标注。与现有技术相比,本专利技术的优点在于:1)、对文本信息进行分词处理并训练出词的高维特征向量,以及对文本信息进行分字处理并训练出字的高维特征向量,通过将词的高维特征和字的高维特征都输入到神经网络中进行处理,能够尽可能的保留原始文本信息中有价值的信息,弥补了分词错误导致的原始文本信息中有价值信息的丢失问题,从而提高了分类准确率;2)、对于输入的字向量和词向量,深度学习模型采用了双向循环神经网络,从正序和反序两个方向对输入信息进行特征提取,能够保存文本的上下文语序,避免丢失原始文本的语序信息;3)、在深度学习模型训练过程中,采用双层Attention机制,对于输入的文本信息,首先对每个词和字采用一层的Attention机制,然后再对词和字构成本文档来自技高网
...

【技术保护点】
1.一种构建文本分类模型的方法,包括以下步骤:步骤1:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;步骤2:以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。

【技术特征摘要】
1.一种构建文本分类模型的方法,包括以下步骤:步骤1:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;步骤2:以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。2.根据权利要求1所述的方法,其中,在步骤1中,根据以下子步骤构造一条文本信息的关于词语的特征矩阵A和关于字的特征矩阵B:步骤21:将该条文本信息进行分词处理并将分词结果按顺序排列训练词语向量转换模型,获得该条文本信息关于词语的高维特征表示;步骤22:将该条文本信息进行分字处理并将分字结果按顺序排列训练字向量转换模型,获得该条文本信息关于字的高维特征表示;步骤23:根据获得的该条文本信息关于词语的高维特征表示和该条文本信息关于字的高维特征表示以及该条文本信息的字、词语和句子的结构特征构造关于词语的特征矩阵A和关于字的特征矩阵B。3.根据权利要求2所述的方法,其中,所述词语向量转换模型为Word2Vec词嵌入模型,所述字向量转换模型为Word2Vec字嵌入模型。4.根据权利要求1所述的方法,其中,所述深度学习模型包括第一层双向循环神经网络、第二层双向循环神经网络和分类器,所述第一层双向循环神经网络用作词序列编码器和字序列编码器,以获得词的向量表示和字的向量表示,进而获得文本信息的句子向量si,所述第二层双向循环神经网络用作句子序列编码器,以获得文句子向量si的高级特征向量,进而获得文本信息的高级特征向量表示v,所述分类器用于对文本信息的高级特征向量表示v进行分类,其中i为文本信息中句子的索引编号。5.根据权利要求4所述的方法,其中,在步骤2中通过以下子步骤获...

【专利技术属性】
技术研发人员:赵莉姜松浩张程赵晓芳段东圣杜翠兰
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1