【技术实现步骤摘要】
文本分类方法和装置、电子设备、计算机可读存储介质
本申请涉及人工智能
,特别涉及一种文本分类方法及装置、电子设备、计算机可读存储介质。
技术介绍
随着网络技术的快速发展,对于电子文本信息进行有效组织和管理,并且快速且全面地从中获取相关信息的要求越来越高。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。文本分类是将自然语句按照一定的分类体系或标准进行自动分类且标记相应类别的技术,文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等阶段。由于文本分类的处理过程繁杂,容易因为一些常见错误导致无法对自然语句进行准确分类。因此,如何提高文本分类的准确度,是相关领域的技术人员不断研究的技术问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
基于上述技术问题,本申请提供了一种文本分类方法及装置、电子设备、计算机可读存储介质。本申请所揭示的技术方案包括: ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n通过对待分类文本进行分词处理,获得所述待分类文本对应的分词集合;/n根据预设的词向量词典对所述分词集合进行向量化处理,获得所述待分类文本对应的词向量集合,所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量;/n通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测,所述标签预测模型是共同根据所述训练集和测试集进行训练得到的,所述测试集用于修正所述训练集中的错误数据;/n获取所述标签预测模型所输出的预测结果,所述预测结果对应于所述待分类文本所对应的文本类别。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
通过对待分类文本进行分词处理,获得所述待分类文本对应的分词集合;
根据预设的词向量词典对所述分词集合进行向量化处理,获得所述待分类文本对应的词向量集合,所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量;
通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测,所述标签预测模型是共同根据所述训练集和测试集进行训练得到的,所述测试集用于修正所述训练集中的错误数据;
获取所述标签预测模型所输出的预测结果,所述预测结果对应于所述待分类文本所对应的文本类别。
2.根据权利要求1所述的方法,其特征在于,在所述通过对待分类文本进行分词处理,获得所述待分类文本的分词集合之前,所述方法还包括:
获取待进行词向量训练的语料分词词库;
对所述语料分词词库中的各分词,分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练,获得所述分词对应的快速文本向量和词嵌入向量;
通过计算分词所对应快速文本向量和词嵌入向量的平均向量,获取所述平均向量为所述分词对应的向量表达;
获取所述语料分词词库中每一分词所对应向量表达形成所述词向量词典。
3.根据权利要求2所述的方法,其特征在于,所述连续跳跃元语法模式下的子字长度参数用于指示将所述分词拆解为1个字或者2个字进行所述词向量训练。
4.根据权利要求1所述的方法,其特征在于,在所述通过对待分类文本进行分词处理,获得所述待分类文本的分词集合之前,所述方法还包括:
按照设定比例,将待进行标签预测模型训练的标注语料划分为训练集和测试集,所述标注语料含有标注的类别标签;
根据所述训练集对待训练的标签预测模型进行初始训练;
对初始训练所得标签预测模型,分别通过所述训练集和测试集进行组合训练,根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正;
根据修正得到的类别标签对所述训练集更新,且通过所述测试集和更新所得训练集迭代执行所述标签预测模型的训练过程,直至所述标签预测模型收敛。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正,包括:
根据所述标签预测模型所输出结果,分别计算所述标签预测模型为所述训练集和测试集进行标签预测的准确率;
在所述训练集和测试集对应的准确率均低于设定的准确率阈值时,筛选所述训练集中预测标签结果与所标注类别标签不一致的训练样本集合;
通过计算所述训练样本集合中预测结果正确且类别标签标注错误的概率,获得所述训练样本集合对应的...
【专利技术属性】
技术研发人员:郑立颖,徐亮,阮晓雯,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。