文本分类方法及装置、存储介质、终端制造方法及图纸

技术编号：34367054 阅读：35 留言：0更新日期：2022-07-31 09:18

一种文本分类方法及装置、存储介质、终端，所述方法包括：获取待分类文本；对所述待分类文本进行分词处理，以得到多个分词结果；根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。通过本发明专利技术的方案，可以准确地确定文本的类别。准确地确定文本的类别。准确地确定文本的类别。

Text classification method and device, storage medium, terminal

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法及装置、存储介质、终端

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文本分类方法及装置、存储介质、终端。

技术介绍

[0002]随着人工智能技术的发展，自然语言处理(Nature Language Processing， NLP)技术在各个领域的应用愈加广泛。文本分类是自然语言处理中的一项基础任务，基于文本分类技术，可以自动地确定文本所属的类别，从而可以根据文本所属的类别进行后续的处理。然而现有技术中，文本分类的准确性仍然有待提高。
[0003]经过研究发现，文本分类的关键步骤是文本表示，以使机器能够尽可能地理解文本的内容。现有技术中，通常将文本中的词表示为词向量的形式，并基于词向量确定文本的类别。采用这样的方案时，文本表示的形式较为单一，无法充分地表达文本的语义，另外，相同的词在不同领域(例如，
、应用领域等)中也可能有不同的语义，因此，现有的文本分类的准确性仍然有待提高。
[0004]因此，亟需一种文本分类方法，能够更加准确地确定文本的类别。

技术实现思路

>[0005]本专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：获取待分类文本；对所述待分类文本进行分词处理，以得到多个分词结果；根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。2.根据权利要求1所述的文本分类方法，其特征在于，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别包括：根据所述各个分词结果的词向量，计算所述待分类文本的第一特征向量；根据所述编码向量，计算所述待分类文本的第二特征向量；对所述第一特征向量和第二特征向量进行融合处理，以得到所述待分类文本的总特征向量；根据所述总特征向量，确定所述待分类文本的类别。3.根据权利要求1所述的文本分类方法，其特征在于，对所述待分类文本进行分词处理，以得到多个分词结果包括：对所述待分类文本进行分词处理，以得到多个初始分词结果；从所述多个初始分词结果中剔除干扰信息，以得到所述多个分词结果；其中，所述干扰信息包括以下一项或多项：数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。4.根据权利要求1所述的文本分类方法，其特征在于，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别之前，所述方法还包括：构建分类模型，所述分类模型包括：第一特征提取模块、第二特征提取模块、融合模块和分类模块；获取样本文本和所述样本文本的类别标签；对所述样本文本进行分词处理，以得到所述样本文本的多个分词结果，记为多个样本分词结果；将所述多个样本分词结果输入至所述第一特征提取模块，以得到所述第一特征提取模块输出的所述样本文本的第一特征向量，记为第一样本特征向量；根据所述多个样本分词结果和所述预设的特征词集合，生成所述样本文本的编码向量，记为样本编码向量；将所述样本编码向量输入至所述第二特征提取模块，以得到所述第二特征提取模块输出的第二样本特征向量；将所述第一样本特征向量和第二样本特征向量输入至所述融合模块，以得到所述融合模块输出的融合后的样本特征向量；将所述融合后的样本特征向量输入至所述分类模块，以得到所述分类模块输出的预测类别；根据所述预测类别和所述类别标签，计算预测损失，并根据所述预测损失...

【专利技术属性】
技术研发人员：于祥雨，姚昱材，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人