文本分类方法及装置、存储介质、终端制造方法及图纸

技术编号:34367054 阅读:22 留言:0更新日期:2022-07-31 09:18
一种文本分类方法及装置、存储介质、终端,所述方法包括:获取待分类文本;对所述待分类文本进行分词处理,以得到多个分词结果;根据所述多个分词结果和预设的特征词集合,生成所述待分类文本的编码向量,所述编码向量用于表示所述多个分词结果是否包含各个特征词;根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别。通过本发明专利技术的方案,可以准确地确定文本的类别。准确地确定文本的类别。准确地确定文本的类别。

Text classification method and device, storage medium, terminal

【技术实现步骤摘要】
文本分类方法及装置、存储介质、终端


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本分类方法及装置、存储介质、终端。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理(Nature Language Processing, NLP)技术在各个领域的应用愈加广泛。文本分类是自然语言处理中的一项基础任务,基于文本分类技术,可以自动地确定文本所属的类别,从而可以根据文本所属的类别进行后续的处理。然而现有技术中,文本分类的准确性仍然有待提高。
[0003]经过研究发现,文本分类的关键步骤是文本表示,以使机器能够尽可能地理解文本的内容。现有技术中,通常将文本中的词表示为词向量的形式,并基于词向量确定文本的类别。采用这样的方案时,文本表示的形式较为单一,无法充分地表达文本的语义,另外,相同的词在不同领域(例如,
、应用领域等)中也可能有不同的语义,因此,现有的文本分类的准确性仍然有待提高。
[0004]因此,亟需一种文本分类方法,能够更加准确地确定文本的类别。

技术实现思路

[0005]本专利技术解决的技术问题是提供一种文本分类方法,能够更加准确地确定文本的类别。
[0006]为了解决这一技术问题,本专利技术实施例提供一种文本分类方法,在本实施例的方案中,根据待处理文本的多个分词结果和预设的特征词集合,生成待分类文本的编码向量,然后根据各个分词结果的词向量和编码向量,确定待分类文本的类别。由于编码向量可以用于标识多个分词结果中是否包含各个特征词,因此,编码向量能够以数值化的形式充分、有效且准确地表征待分类文本的信息,将编码向量与词向量相结合,有利于提高文本分类的准确性。
[0007]为解决上述技术问题,本专利技术实施例提供一种文本分类方法,所述方法包括:获取待分类文本;对所述待分类文本进行分词处理,以得到多个分词结果;根据所述多个分词结果和预设的特征词集合,生成所述待分类文本的编码向量,所述编码向量用于表示所述多个分词结果是否包含各个特征词;根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别。
[0008]可选的,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别包括:根据所述各个分词结果的词向量,计算所述待分类文本的第一特征向量;根据所述编码向量,计算所述待分类文本的第二特征向量;对所述第一特征向量和第二特征向量进行融合处理,以得到所述待分类文本的总特征向量;根据所述总特征向量,确定所述待分类文本的类别。
[0009]可选的,对所述待分类文本进行分词处理,以得到多个分词结果包括:对所述待分
类文本进行分词处理,以得到多个初始分词结果;从所述多个初始分词结果中剔除干扰信息,以得到所述多个分词结果;其中,所述干扰信息包括以下一项或多项:数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。
[0010]可选的,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别之前,所述方法还包括:构建分类模型,所述分类模型包括:第一特征提取模块、第二特征提取模块、融合模块和分类模块;获取样本文本和所述样本文本的类别标签;对所述样本文本进行分词处理,以得到所述样本文本的多个分词结果,记为多个样本分词结果;将所述多个样本分词结果输入至所述第一特征提取模块,以得到所述第一特征提取模块输出的所述样本文本的第一特征向量,记为第一样本特征向量;根据所述多个样本分词结果和所述预设的特征词集合,生成所述样本文本的编码向量,记为样本编码向量;将所述样本编码向量输入至所述第二特征提取模块,以得到所述第二特征提取模块输出的第二样本特征向量;将所述第一样本特征向量和第二样本特征向量输入至所述融合模块,以得到所述融合模块输出的融合后的样本特征向量;将所述融合后的样本特征向量输入至所述分类模块,以得到所述分类模块输出的预测类别;根据所述预测类别和所述类别标签,计算预测损失,并根据所述预测损失更新所述分类模型,直至满足预设的训练停止条件。
[0011]可选的,根据所述多个样本分词结果和所述预设的特征词集合,生成所述样本文本的编码向量包括:将所述预设的特征词集合中多个特征词的顺序进行随机打乱,以得到更新后的特征词集合;根据所述多个样本分词结果和所述更新后的特征词集合,生成所述样本编码向量。
[0012]可选的,所述编码向量的维度和所述预设的特征词集合中的特征词一一对应,对于每个特征词,如果所述多个分词结果包含该特征词,则该特征词对应的维度的值为1,否则为0。
[0013]可选的,所述方法还包括:获取用户终端针对所述待分类文本给出的准确度,所述用户终端为请求所述待分类文本的类别的终端;判断所述准确度是否小于预设值,如果是,则将所述待分类文本记为增量文本;当所述增量文本的数量大于或等于预设数量时,更新所述预设的特征词集合。
[0014]可选的,对所述待分类文本进行分词处理之前,所述方法还包括:向发送所述待分类文本的用户终端发送标识,所述标识用于唯一确定所述待分类文本;所述方法还包括:将所述待分类文本的类别存储至缓存区域,当接收到所述用户终端发送的标识时,将所述标识对应的待分类文本的类别发送至所述用户终端,并将所述待分类文本的类别从所述缓存区域移动至永久存储区域。
[0015]与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
[0016]在本专利技术实施例的方案中,根据待处理文本的多个分词结果和预设的特征词集合,生成待分类文本的编码向量,然后根据各个分词结果的词向量和编码向量,确定待分类文本的类别。由于编码向量可以用于标识多个分词结果中是否包含各个特征词,因此,编码向量能够以数值化的形式充分、有效且准确地表征待分类文本的信息,将编码向量与词向量相结合,有利于提高文本分类的准确性。
[0017]进一步地,本专利技术实施例的方案中,从待分类文本的多个初始分词结果中剔除干扰信息,以得到所述多个分词结果;其中,所述干扰信息包括以下一项或多项:数字、预设的
停用词、字数小于等于预设值的分词结果和标点符号。采用这样的方案,可以尽可能地过滤待分类文本中与类别无关的干扰信息,有利于后续更加准确地确定待分类文本的类别。
[0018]进一步地,本专利技术实施例的方案中,将所述预设的特征词集合中多个特征词的顺序进行随机打乱,以得到更新后的特征词集合;根据所述多个样本分词结果和所述更新后的特征词集合,生成所述样本编码向量。采用这样的方案,可以使分类模型不易陷入局部最优,使分类模型更容易达到收敛。
[0019]进一步地,本专利技术实施例的方案中,如果用户终端针对待分类文本给出的准确度小于预设值时,判断该待分类文本为增量文本,当增量文本达到预设数量时,对预设的特征词集合进行更新。采用这样的方案,可以不断优化特征词,使得特征词具有更好的表征效果,有利于进一步提高分类的准确性。
附图说明
[0020]图1是本专利技术实施例中一种文本分类方法的流程示意图;
[0021]图2是本专利技术实施例中一种分类模型的结构示意图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本;对所述待分类文本进行分词处理,以得到多个分词结果;根据所述多个分词结果和预设的特征词集合,生成所述待分类文本的编码向量,所述编码向量用于表示所述多个分词结果是否包含各个特征词;根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别。2.根据权利要求1所述的文本分类方法,其特征在于,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别包括:根据所述各个分词结果的词向量,计算所述待分类文本的第一特征向量;根据所述编码向量,计算所述待分类文本的第二特征向量;对所述第一特征向量和第二特征向量进行融合处理,以得到所述待分类文本的总特征向量;根据所述总特征向量,确定所述待分类文本的类别。3.根据权利要求1所述的文本分类方法,其特征在于,对所述待分类文本进行分词处理,以得到多个分词结果包括:对所述待分类文本进行分词处理,以得到多个初始分词结果;从所述多个初始分词结果中剔除干扰信息,以得到所述多个分词结果;其中,所述干扰信息包括以下一项或多项:数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。4.根据权利要求1所述的文本分类方法,其特征在于,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别之前,所述方法还包括:构建分类模型,所述分类模型包括:第一特征提取模块、第二特征提取模块、融合模块和分类模块;获取样本文本和所述样本文本的类别标签;对所述样本文本进行分词处理,以得到所述样本文本的多个分词结果,记为多个样本分词结果;将所述多个样本分词结果输入至所述第一特征提取模块,以得到所述第一特征提取模块输出的所述样本文本的第一特征向量,记为第一样本特征向量;根据所述多个样本分词结果和所述预设的特征词集合,生成所述样本文本的编码向量,记为样本编码向量;将所述样本编码向量输入至所述第二特征提取模块,以得到所述第二特征提取模块输出的第二样本特征向量;将所述第一样本特征向量和第二样本特征向量输入至所述融合模块,以得到所述融合模块输出的融合后的样本特征向量;将所述融合后的样本特征向量输入至所述分类模块,以得到所述分类模块输出的预测类别;根据所述预测类别和所述类别标签,计算预测损失,并根据所述预测损失...

【专利技术属性】
技术研发人员:于祥雨姚昱材
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1