一种基于卷积神经网络与随机森林的短文本分类方法技术

技术编号:16038219 阅读:298 留言:0更新日期:2017-08-19 20:03
本发明专利技术公开了一种基于卷积神经网络与随机森林的短文本分类方法,属于文本分类与深度学习领域。针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题,提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征,然后采用随机森林作为高阶特征分类器,从而提高短文本分类效果。在三个公开实验数据集上的结果表明,与其他算法相比CNN‑RF在多个评价指标上均有明显优势。

【技术实现步骤摘要】
一种基于卷积神经网络与随机森林的短文本分类方法
本专利技术属于文本分类与深度学习领域,涉及一种基于积神经网络与随机森林的短文本分类方法,可用于针对微博,短信息,用户Query等海量短文本数据的分类或者情感分类等任务。且能够为搜索引擎、信息检索等系统服务使用。
技术介绍
随着近年来互联网的飞速发展,各种信息交互平台会产生大量的短文本(ShortText),这些短文本涉及到人们生活的各个领域,逐渐成为人们使用频繁且公认的沟通方式。比如电子商务评论、网页信息检索、智能问答系统等均是海量短文本的产生源。如何从海量短文本中挖掘有效信息,是近年来诸多学者广泛研究的课题。文本分类是一种文本挖掘的有效方法,但由于短文本长度短、词项特征稀疏等特点,致使传统的长文本分类方法变得不再适用。短文本分类技术(ShortTextClassification)在一定程度上可以解决上述短文本应用中面临的挑战,该技术是近年来国内外众多学者的研究热点之一,也是自然语言处理(NLP)领域中一项至关重要的任务。现如今,文本分类方法主要是基于统计学习方法或者机器学习的方法,采用统计或机器学习的方法在经过人工标注的语料库上进行本文档来自技高网...
一种基于卷积神经网络与随机森林的短文本分类方法

【技术保护点】
一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法包括以下步骤:步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图;步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmod变换,得到两个池化层特征图;步骤3:对步骤2的得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图;步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该集合进行Boo...

【技术特征摘要】
1.一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法包括以下步骤:步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图;步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmod变换,得到两个池化层特征图;步骤3:对步骤2的得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图;步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该集合进行Boostrap采样,Bootstrap采样是一种统计学上的抽样方法,对于有m个样本的数据集D,进行m次有放回采样得到新数据集D′,明显D与D′大小相同,而且放回采样使得D′中有重复出现的样本,也有样本没有出现;步骤5:对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART,Gini系数用于特征选择,用该特征将特征空间进行划分,划分之后从特征集合中去除此特征,对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件;此外为防止决策树过拟合现象的发生,本方法采用预剪枝操作;将多个决策树组合起来,共同为样本的类别进行决策,通常采用投票法。2.根据权利要求1所述的一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法的具体实施过程分为以预训练阶段与分类器训练阶段:一:预训练阶段步骤1:得到两组词向量后,对于语料库D,用x表示一篇文本,则代表第文本中第i个词语的词向量,一个长度为n的句子表示成如下形式:这里变为向量拼接操作,n为训练语料中最长的句子的长度;对于长度不足n的文本则用特殊符号<PAD>进行补齐,使用(-0.25,0.25)之间的均匀分布生成的向量表示<PAD>;假设词向量长度为k,则现在每篇文本x均以表示为两个的单通道(Channel)二维矩阵,即为两个输入层;步骤2:分别对两个输入层进行卷积操作,使用的过滤器作用于词向量序列xi:i+h-1={xi,xi+1,…,...

【专利技术属性】
技术研发人员:刘泽锦王洁
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1