一种融合主题信息和词向量提取文本特征的新闻分类方法技术

技术编号:32258657 阅读:54 留言:0更新日期:2022-02-12 19:18
本发明专利技术涉及一种融合主题信息和词向量提取文本特征的新闻分类方法。本发明专利技术所述的一种融合主题信息和词向量提取文本特征的新闻分类方法包括:使用Word2vec和LDA模型分别在语料库中训练词向量,word2vec经过TF

【技术实现步骤摘要】
一种融合主题信息和词向量提取文本特征的新闻分类方法


[0001]本专利技术涉及文本分类的
,特别是涉及一种融合主题信息和词向量提取文本特征的新闻分类方法。

技术介绍

[0002]文本分类是自然语言处理的基础任务,在互联网时代,文本自动分类的方法应用于互联网领域的各个方面,包括网页分类、新闻题材分类、微博情感分析、用户评论挖掘等。
[0003]文本中的特征稀疏会导致分类效果不好。但现有的文本分类方法,难以解决文本中固有的特征稀疏性以及传统模型上下文依赖关系方面的不足等问题。

技术实现思路

[0004]基于此,本专利技术的目的在于,提供一种融合主题信息和词向量提取文本特征的新闻分类方法,在提取过程中加入了文本的主题信息,将主题信息和文本的词向量进行融合,能够尽可能获得文本主题特征,具有分类准确率高的优点。
[0005]本专利技术是通过如下技术方案实现的:
[0006]一种融合主题信息和词向量提取文本特征的新闻分类方法,包括如下步骤:
[0007]获取语料库V;
[0008]基于Word2本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合主题信息和词向量提取文本特征的新闻分类方法,其特征在于,包括如下步骤:获取语料库V;基于Word2vec模型训练语料库V,得到第一词向量集合D={C(t1),C(t2),...,C(t
n
)};其中,t
n
表示语料库V中第n个词,C(t
n
)为t
n
的词向量表示;基于TF

IDF对所述词向量集合D进行特征权重计算,得到加权后的第二词向量集合D'=D(t)
j
=D(t)*TF

IDF
j
;其中D(t)是词向量集合D词语t的词向量,D(t)
j
是词语t在第j篇文本内加权后的词向量;通过LDA主题生成模型训练所述语料库V,获得LDA主题分布概率,输出主题

词分布矩阵φ和文本

主题分布矩阵θ;将所述第一词向量集合D中的每个词与所述主题

词分布矩阵φ相匹配,得到基于LDA的特征扩展模型D”={w
m1
,(c
11
,c
12
,...c
1r
),...,w
mn
,(c
n1
,c
n2
,...c
nr
)};其中,w
mn
为第m篇的第n个词,c
nr
为词向量,n为词的个数,r为扩展特征的个数;将所述第二词向量集合D'与所述特征扩展模型D”进行拼接,得到词向量与特征扩展模型结合的短文本表示模型D”'
m
={D'
m
;D”m
};其中,“;”表示向量顺序拼接操作,D
m
为训练集第m篇短文本的词向量与LDA结合的向量表示;针对所述短文本表示模型D”'
m
,采用BIGRU神经网络提取深层次的特征向量W;将特征向量W输入到softmax函数,得到文本分类结果。2.根据权利要求1所述的一种融合主题信息和词向量提取文本特征的新闻分类方法,其特征在于,所述将所述第一词向量集合D中的每个词与所述主题

词分布矩阵φ相匹配,得到基于LDA的特征扩展模型D”包括:将第一词向量集合D每个词与LDA模型的主题

词分布矩阵φ相匹配,选择每个词所属的最大概率主题z
max
;将所属的最大概率主题z
max
匹配LDA模型的主题文件,选择前r个词作为该词的扩展特征;计算基于LDA的扩展模型D”={w
m1
,(c
11
,c
12
,...c
1r
),...,w
mn
,(c
n1
,c
n2
,...c
nr
)};其中,w
mn
为第m篇的第n个词,c
nr
为词向量,n为词的个数,r为扩展特征的个数。3.根据权利要求1所述的一种融合主题信息和词向量提取文本特征的新闻分类方法,其特征在于,所述通过LDA主题生成模型训练语料库V,获得LDA主题分布概率,输出主题

词分布矩阵φ和文本

主题分布矩阵θ包括:对于第m篇文本d
m
,根据θ服从参数为α的Dirichlet分布(θ
m
~Dir(α)),确定一个主题分布θ
m
;对于第n个词w
mn
,根据z服从θ的多项分布(z
mn
~Mult(θ
m
)),为词确定一个主题...

【专利技术属性】
技术研发人员:冼广铭王鲁栋李楚彬张鑫
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1