The invention discloses a news text classification method, and LDA based on word2vec algorithm includes obtaining corpus word vector by word2vec; the training sample set of text segmentation, remove stop words; get the core words of class training samples by LDA model; category center vector to construct the training sample set; treat text classification after preprocessing, the feature extraction of text words, get the text vector of text to be classified; category center vector to be classified text vector and the training sample set to calculate the similarity, the text to be classified into classification; two KNN classification algorithm to text classification. The invention has the advantages that the feature vector and the center vector of the text to be classified to calculate the similarity between the initial classification, greatly reduces the amount of calculation when the initial classification is not sufficient to define categories, two classification using KNN algorithm in the new sample set equivalent extraction samples, eliminate the impact of uneven sample distribution the classification accuracy caused by.
【技术实现步骤摘要】
基于LDA和word2vec算法的新闻文本分类方法
本专利技术涉及文件分类
,具体而言,涉及一种基于LDA和word2vec算法的新闻文本分类方法。
技术介绍
目前使用最广泛的文本表示方法都基于词袋法,词袋法将文档看成是词的集合,每个词的出现是相互独立的,不考虑词的顺序、语法和语义等信息。它将训练文本集中的特征项组织成向量空间模型,每篇文档表示成与该模型相同维度的向量,向量中每个位置的值即是该位置所代表的词在训练样本集中的权重。该方法存在的主要问题有:(1)向量维度过高:向量的维数与整个训练样本集中保留的特征项数目一样,可达到上万甚至几十万,造成“维度灾难”现象,并且这些文本向量会占用很大的存储空间;(2)数据稀疏:一篇文档向量仅在出现该文档中特征项的位置上有权重值,其余大多数位置上权重值均为0,降低文本分类任务中计算的效率,同时也浪费存储空间;(3)无法较好地表示文档的语义信息:词袋法假设文档中词语之间完全独立,忽略了词语间的语义关系,对于两个语义相近但不存在相同特征词的文档,采用词袋法表示的文本向量所计算的文本相似度为0。KNN算法原理简单,易于实现,具 ...
【技术保护点】
一种基于LDA和word2vec算法的新闻文本分类方法,其特征在于,包括:步骤1,通过word2vec工具获得语料库的词向量:将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量;步骤2,对训练样本集进行文本预处理:将训练样本集中的文本进行分词、去除停用词;步骤3,通过LDA主题模型,获得训练样本集的类别核心词:在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本‑主题和主题‑词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词; ...
【技术特征摘要】
1.一种基于LDA和word2vec算法的新闻文本分类方法,其特征在于,包括:步骤1,通过word2vec工具获得语料库的词向量:将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量;步骤2,对训练样本集进行文本预处理:将训练样本集中的文本进行分词、去除停用词;步骤3,通过LDA主题模型,获得训练样本集的类别核心词:在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词;步骤4,通过类别核心词的词向量ai,构造训练样本集的类别中心向量ci;步骤5,对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量dj;步骤6,对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,并对相似度值降序排序,根据排序对待分类文本进行初次分类,当降序排序中前两个似度值之间的差值小于阈值ε时,进行步骤7;步骤7,采用KNN算法对待分类文本进行二次分类。2.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤4具体包括:步骤401,从步骤1的所有词向量中选出各个类别的核心词的词向量ai;步骤402,将LDA主题模型得到的主题-词的概率值βi作为该词对于该类别的权重,将同一类别下各个加权后的词向量相加求平均值作为该类的类别中心向量ci,表示为公式(1);3.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤5具体包括:步骤501,将待分类文本进行预处理,包括分词、去除停用词;步骤502,采用TF-IDF算法提取文本特征词:根据公式(2)计算TF-IDF提取的文本特征词,将TF-IDF值大于阈值θ的词作为待分类文本的特征词w;式中,m为待分类文本中特征词w出现的次数,M为待分类文本的词语总数,N为训练样本集中总的文本数,n为训练样本集中包含特征词w的文本总数;步骤503,将待分类文本中特征词输入word2vec工具,得到待分类文本中特征词的词向量,将所有特征词的词向量相加求平均值得到待分类文本的文本向量dj。4.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤6具体包括:步...
【专利技术属性】
技术研发人员:赵阔,王峰,谢珍真,孙小雅,
申请(专利权)人:深圳市玛腾科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。