文本分类方法及装置、存储介质、终端制造方法及图纸

技术编号:34367054 阅读:35 留言:0更新日期:2022-07-31 09:18
一种文本分类方法及装置、存储介质、终端,所述方法包括:获取待分类文本;对所述待分类文本进行分词处理,以得到多个分词结果;根据所述多个分词结果和预设的特征词集合,生成所述待分类文本的编码向量,所述编码向量用于表示所述多个分词结果是否包含各个特征词;根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别。通过本发明专利技术的方案,可以准确地确定文本的类别。准确地确定文本的类别。准确地确定文本的类别。

Text classification method and device, storage medium, terminal

【技术实现步骤摘要】
文本分类方法及装置、存储介质、终端


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本分类方法及装置、存储介质、终端。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理(Nature Language Processing, NLP)技术在各个领域的应用愈加广泛。文本分类是自然语言处理中的一项基础任务,基于文本分类技术,可以自动地确定文本所属的类别,从而可以根据文本所属的类别进行后续的处理。然而现有技术中,文本分类的准确性仍然有待提高。
[0003]经过研究发现,文本分类的关键步骤是文本表示,以使机器能够尽可能地理解文本的内容。现有技术中,通常将文本中的词表示为词向量的形式,并基于词向量确定文本的类别。采用这样的方案时,文本表示的形式较为单一,无法充分地表达文本的语义,另外,相同的词在不同领域(例如,
、应用领域等)中也可能有不同的语义,因此,现有的文本分类的准确性仍然有待提高。
[0004]因此,亟需一种文本分类方法,能够更加准确地确定文本的类别。

技术实现思路

>[0005]本专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本;对所述待分类文本进行分词处理,以得到多个分词结果;根据所述多个分词结果和预设的特征词集合,生成所述待分类文本的编码向量,所述编码向量用于表示所述多个分词结果是否包含各个特征词;根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别。2.根据权利要求1所述的文本分类方法,其特征在于,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别包括:根据所述各个分词结果的词向量,计算所述待分类文本的第一特征向量;根据所述编码向量,计算所述待分类文本的第二特征向量;对所述第一特征向量和第二特征向量进行融合处理,以得到所述待分类文本的总特征向量;根据所述总特征向量,确定所述待分类文本的类别。3.根据权利要求1所述的文本分类方法,其特征在于,对所述待分类文本进行分词处理,以得到多个分词结果包括:对所述待分类文本进行分词处理,以得到多个初始分词结果;从所述多个初始分词结果中剔除干扰信息,以得到所述多个分词结果;其中,所述干扰信息包括以下一项或多项:数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。4.根据权利要求1所述的文本分类方法,其特征在于,根据各个分词结果的词向量和所述编码向量,确定所述待分类文本的类别之前,所述方法还包括:构建分类模型,所述分类模型包括:第一特征提取模块、第二特征提取模块、融合模块和分类模块;获取样本文本和所述样本文本的类别标签;对所述样本文本进行分词处理,以得到所述样本文本的多个分词结果,记为多个样本分词结果;将所述多个样本分词结果输入至所述第一特征提取模块,以得到所述第一特征提取模块输出的所述样本文本的第一特征向量,记为第一样本特征向量;根据所述多个样本分词结果和所述预设的特征词集合,生成所述样本文本的编码向量,记为样本编码向量;将所述样本编码向量输入至所述第二特征提取模块,以得到所述第二特征提取模块输出的第二样本特征向量;将所述第一样本特征向量和第二样本特征向量输入至所述融合模块,以得到所述融合模块输出的融合后的样本特征向量;将所述融合后的样本特征向量输入至所述分类模块,以得到所述分类模块输出的预测类别;根据所述预测类别和所述类别标签,计算预测损失,并根据所述预测损失...

【专利技术属性】
技术研发人员:于祥雨姚昱材
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1