【技术实现步骤摘要】
一种基于融合特征的文本分类方法
本专利技术属于深度学习的文本分类领域,尤其涉及一种基于融合特征的文本分类方法。
技术介绍
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(ConvolutionalNeuralNetwork,CNN)已成为目前一种主流的文本分类模型。借助于CNN强大的区分性训练和信息抽取功能,一篇文档输入CNN,经过非线性变换,将最后一个隐层状态的值作为文档的高层次特征表示,这样的文档特征向量可以消除很多影响主题分类的干扰噪声。这种特征向量是一种低维、稠密的连续值向量,它是由CNN通过组合词向量得到,有效地利用了词的语义信息和上下文信息。主题模型通过词与词在文档中的共现情况,利用词语之间的关联性挖掘词语中蕴含的语义信息,并且将文本映射为一个低维的向量,这个低维向量表示文本在潜在主题语义空间的概率分布。概率主题模型解决了TF-IDF向量维度过高的问题,并且通过词的语义信息发现文档潜在的主题信息结构,因而在文本聚类 ...
【技术保护点】
1.一种基于融合特征的文本分类方法,其特征在于:包括以下步骤:/n步骤1,数据集的预处理,对文本进行去停用词、词形归并和词干还原预处理;同时,根据文档频率对词项进行筛选,去除文档频率过低的词;/n步骤2,模型初始化,初始化模型的各种参数;训练词袋模型,将预处理好的文本输入到词袋模型,得出词袋向量;/n步骤3,主题特征提取,输出当前语料库的主题空间即K个主题、每篇文本的主题概率分布、每个主题下主题词的概率分布;/n步骤4,利用gensim的word2vec训练词向量;/n步骤5,卷积语义特征提取,将词向量输入到CNN模型当中去,输出文本卷积语义特征;/n步骤6,特征融合,增加 ...
【技术特征摘要】
1.一种基于融合特征的文本分类方法,其特征在于:包括以下步骤:
步骤1,数据集的预处理,对文本进行去停用词、词形归并和词干还原预处理;同时,根据文档频率对词项进行筛选,去除文档频率过低的词;
步骤2,模型初始化,初始化模型的各种参数;训练词袋模型,将预处理好的文本输入到词袋模型,得出词袋向量;
步骤3,主题特征提取,输出当前语料库的主题空间即K个主题、每篇文本的主题概率分布、每个主题下主题词的概率分布;
步骤4,利用gensim的word2vec训练词向量;
步骤5,卷积语义特征提取,将词向量输入到CNN模型当中去,输出文本卷积语义特征;
步骤6,特征融合,增加文本特征向量对文本分类的区分性;
步骤7,训练模型,将融合的特征输入到KNN模型中去,不断调整参数来使F1最优。
2.根据权利要求1所述的一种基于融合特征的文本分类方法,其特征在于:所述的步骤3,主题特征提取的方法如下:
首先初始化模型的各种参数;
将训练好的词袋向量输入到LDA模型当中去;
其次对于语料库中的所有单词的主题进行随机初始化为
Zm,n=k~Mulitinomial(1/k)
在有新单词加入时,利用如下公式计算主题概率为
Zi:第i个单词的主题;w为某个单词w;wt为代表单词t;D为某个文本;αt为单词t的超参数α;βt为单词t的超参数β;k为代表的是某个主题词k,是一个词语;K为代表整个语料库中的所有主题词k的个数,是数字;V为待训练的语料库中词汇总数;
不断重复该操作,直至模型收敛便可得到每个单词的所属主题,接下来利用下面两个式子计算参数:
是主题词k对应的单词t的词汇概率分布,θm,k是文本m对应的主题词k的主题概率分布;其中,n(wt∈k)表示单词t属于主题k的次数,表示属于主题k的词汇总数,n(Dwt∈k)表示单词所属的文本中的词汇属于主题词k的次数,表示单词t所属的文本中单词的总数;
最后输出当前语料库的主题空间即K个主题、文本m的主题特征向量θm。
3.根据权利要求1所述的一种基于融合特征的文本分类方法,其特征在于:所述的步骤5中,卷积语义特征提取的方法如下:
首先,利用gensim的word2vec训练词向量;
其次,通过卷积层接收大小为m×n的词向量矩阵e,让大小为h×k的卷积核对词向量矩阵e进行卷积,具体卷积公式如下
gi=f(w*em:m+h-1+b)
m为整个语料库中文本的个数;n表示句子最大长度;c表示卷积核,em:m+h+1表示第m个到第m+h-1个窗口的词向量,h为卷积核窗口的值,b表示为偏置项。
4.根据权利要求3所述的一种基于融合特征的文本分类方法,其特征在于:所述的步骤5中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。