文本分类方法、装置、终端设备和可读存储介质制造方法及图纸

技术编号:27512067 阅读:11 留言:0更新日期:2021-03-02 18:42
本发明专利技术实施例公开了文本分类方法、装置、终端设备和可读存储介质,该方法包括:获取各个基础词对应的基础词向量和各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得各个主题词向量对应的低维主题词向量;确定各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和平均主题词向量拼接;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定文本内容对应第i个类别的概率值。本发明专利技术的技术方案使得各个词向量与类别相关的特征增强,与类别不相关的特征减弱,使得文本分类模型能更快速、更准确的确定文本内容的对应类别。准确的确定文本内容的对应类别。准确的确定文本内容的对应类别。

【技术实现步骤摘要】
文本分类方法、装置、终端设备和可读存储介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本分类方法、装置、终端设备和可读存储介质。

技术介绍

[0002]在大数据时代,网络上的文本数据日益增长,采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。文本分类应用场景有很多、例如敏感信息分类、舆情分类、主题划分等等。但是,目前文本分类的效率完全依赖于文本分类模型的训练,以及用于训练文本分类模型的语料库,并未充分考虑文本中的主题关键词,导致文本分类模型训练时间过程,并且在语料库的构建过程中浪费大量的人力资源。

技术实现思路

[0003]鉴于上述问题,本专利技术提出一种文本分类方法、模型、终端设备和可读存储介质。
[0004]本专利技术的一个实施例提出一种文本分类方法,该方法包括:
[0005]对获取的文本内容进行分词处理;
[0006]根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;
[0007]对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
[0008]对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
[0009]确定所述各个主题词的类别总数和同类主题词的数目;
[0010]计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
[0011]将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
[0012]本专利技术的另一个实施例所述的文本分类方法,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
[0013]将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;
[0014]计算所有预测词向量的平均预测词向量;
[0015]利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
[0016]上述门控循环单元包括以下函数:
[0017]r
t
=σ(W
r
·
[h
t-1
,x
t
])
[0018]z
t
=σ(W
z
·
[h
t-1
,x
t
])
[0019][0020][0021]y
t
=σ(W0·
h
t
)
[0022]r
t
表示所述门控循环单元的重置门,z
t
表示所述门控循环单元的更新门,h
t-1
表示上一时刻隐藏层的保留信息,x
t
表示所述拼接向量;表示候选隐含记忆,h
t
是当前时刻隐藏层的保留信息,σ()表示sigmoid激活函数,用于将r
t
和z
t
结果压缩在0到1之间,tanh()表示tanh激活函数,用于将结果缩放至-1到1之间,Wr、Wz、Wo表示门控循环单元的参数。
[0023]本专利技术实施例所述预设的主题词集合,利用以下方式预先获取:
[0024]在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;
[0025]所述词频-逆向文档频率大于预设阈值的词语作为该类别的主题词,收录至所述主题词集合。
[0026]本专利技术实施例所述词频-逆向文档频率通过以下公式确定:
[0027]f
j
表示所述该类别的文本中第j个词语的词频-逆向文档频率,m
j
表示第j个词语在所述该类别的文本中出现的次数,M表示所述该类别的文本的词汇总数,P表示预定数目的对比文本总数,p
j
表示在所述预定数目的对比文本中包括第j个词语的目标文本数目。
[0028]本专利技术实施例中对主题词向量进行降维处理,包括:
[0029]利用所述主题词向量和所述主题词向量的转置向量确定协方差矩阵;
[0030]确定所述协方差矩阵的特征值和所述特征值对应的特征向量;
[0031]将所述特征向量按照对应的特征值从大到小排列;
[0032]确定排序靠前的预定数目行特征向量,所述预定数目行特征向量作为降维矩阵;
[0033]利用所述降维矩阵对所述主题词向量进行降维。
[0034]本专利技术的再一个实施例提出一种文本分类装置,该装置包括:
[0035]文本分词处理模块,用于对获取的文本内容进行分词处理;
[0036]词语类型区分模块,用于根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;
[0037]词语向量表示模块,用于对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
[0038]词语向量降维模块,用于对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
[0039]主题数目统计模块,用于确定所述各个主题词的类别总数和同类主题词的数目;
[0040]词语向量拼接模块,用于计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
[0041]类别概率计算模块,用于将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
[0042]上述的文本分类装置,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
[0043]将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;计算所有预测词向量的平均预测词向量;利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
[0044]本专利技术实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行本专利技术实施例所述的文本分类方法。
[0045]本专利技术实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行本专利技术实施例所述的文本分类方法。
[0046]本专利技术公开的文本分类方法包括:对获取的文本内容进行分词处理;根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;确定所述各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,该方法包括:对获取的文本内容进行分词处理;根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;确定所述各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。2.根据权利要求1所述的文本分类方法,其特征在于,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;计算所有预测词向量的平均预测词向量;利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。3.根据权利要求2所述的文本分类方法,其特征在于,所述门控循环单元包括以下函数:r
t
=σ(W
r
·
[h
t-1
,x
t
])z
t
=σ(W
z
·
[h
t-1
,x
t
])])y
t
=σ(W0·
h
t
)r
t
表示所述门控循环单元的重置门,z
t
表示所述门控循环单元的更新门,h
t-1
表示上一时刻隐藏层的保留信息,x
t
表示所述拼接向量;表示候选隐含记忆,h
t
是当前时刻隐藏层的保留信息,σ()表示sigmoid激活函数,用于将r
t
和z
t
结果压缩在0到1之间,tanh()表示tanh激活函数,用于将结果缩放至-1到1之间,Wr、Wz、Wo表示门控循环单元的参数。4.根据权利要求1所述的文本分类方法,其特征在于,所述预设的主题词集合,利用以下方式预先获取:在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;所述词频-逆向文档频率大于预设阈值的词语作为该...

【专利技术属性】
技术研发人员:王欣芝廖康宁杨斌
申请(专利权)人:虎博网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1