一种短文本分类方法及装置制造方法及图纸

技术编号:24574582 阅读:60 留言:0更新日期:2020-06-21 00:11
本发明专利技术实施例公开了一种短文本分类方法及装置,方法包括:对目标短文本进行向量化处理,得到向量化目标短文本;提取所述向量化目标短文本的特征,得到向量化目标短文本特征;根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;根据所述目标短文本的语义向量,确定所述目标短文本的类别。本发明专利技术实施例根据所述目标短文本的语义向量,确定所述目标短文本的类别,提高了分类精度,提高了分类准确率;克服了支持向量机模型分类只能进行二分类的问题,本发明专利技术支持多类分类;克服了支持向量机模型对大规模训练样本难以实施的问题;自动化对目标短文本进行分类,减少了工作人员工作量。

A short text classification method and device

【技术实现步骤摘要】
一种短文本分类方法及装置
本专利技术涉及计算机
,具体涉及一种短文本分类方法及装置。
技术介绍
目前,在文本分类领域,支持向量机模型得到了广泛的应用。支持向量机模型分类适用于小样本学习,解决了非线性问题和高维问题,抗干扰能力强,总体表现出色。但是,支持向量机模型分类存在以下问题:第一方面,对缺失数据敏感,对样本的预测依赖于训练所得的分类决策函数,根据决策函数的值判断样本更接近哪个类别,即使在决策函数的值的置信度很低的情况下,依然会给出一个结果;第二方面,在公共安全领域案件分类这一特定场景,案件类别存在层次结构,如果仅采用单一层次的分类器,忽视了案件类别的层次关系,会导致分类的准确率低下;第三方面,支持向量机模型分类是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间,因此,对大规模训练样本难以实施;第四方面,支持向量机模型分类只给出了二分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题,因此,使用支持向量机模型分类解决多分类问本文档来自技高网...

【技术保护点】
1.一种短文本分类方法,其特征在于,包括:/n对目标短文本进行向量化处理,得到向量化目标短文本;/n提取所述向量化目标短文本的特征,得到向量化目标短文本特征;/n根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;/n根据所述目标短文本的语义向量,确定所述目标短文本的类别。/n

【技术特征摘要】
1.一种短文本分类方法,其特征在于,包括:
对目标短文本进行向量化处理,得到向量化目标短文本;
提取所述向量化目标短文本的特征,得到向量化目标短文本特征;
根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;
根据所述目标短文本的语义向量,确定所述目标短文本的类别。


2.根据权利要求1所述的短文本分类方法,其特征在于,所述对目标短文本进行向量化处理,得到向量化目标短文本之前,所述短文本分类方法,还包括:
对所述目标短文本进行预处理,得到预处理后的目标短文本。


3.根据权利要求2所述的短文本分类方法,其特征在于,所述对目标短文本进行向量化处理,得到向量化目标短文本,包括:
根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本。


4.根据权利要求3所述的文本分类方法,其特征在于,所述根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本,包括:
对所述预处理后的目标短文本划分词项,得到各个词项;
根据所述训练好的词向量库,对所述各个词项进行向量化处理,得到所述向量化目标短文本。


5.根据权利要求4所述的短文本分类方法,其特征在于,所述提取所述向量化目标短文本的特征,得到向量化目标短文本特征,包括:
利用卷积神经网络卷积层,提取所述向量化目标短文本的特征;
基于注意力机制,确定所述向量化目标短文本的特征中的关键特征,以...

【专利技术属性】
技术研发人员:刘晓春杨春宇闫继培王竞文
申请(专利权)人:北京海鑫科金高科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1