本发明专利技术实施例公开了一种短文本分类方法及装置,方法包括:对目标短文本进行向量化处理,得到向量化目标短文本;提取所述向量化目标短文本的特征,得到向量化目标短文本特征;根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;根据所述目标短文本的语义向量,确定所述目标短文本的类别。本发明专利技术实施例根据所述目标短文本的语义向量,确定所述目标短文本的类别,提高了分类精度,提高了分类准确率;克服了支持向量机模型分类只能进行二分类的问题,本发明专利技术支持多类分类;克服了支持向量机模型对大规模训练样本难以实施的问题;自动化对目标短文本进行分类,减少了工作人员工作量。
A short text classification method and device
【技术实现步骤摘要】
一种短文本分类方法及装置
本专利技术涉及计算机
,具体涉及一种短文本分类方法及装置。
技术介绍
目前,在文本分类领域,支持向量机模型得到了广泛的应用。支持向量机模型分类适用于小样本学习,解决了非线性问题和高维问题,抗干扰能力强,总体表现出色。但是,支持向量机模型分类存在以下问题:第一方面,对缺失数据敏感,对样本的预测依赖于训练所得的分类决策函数,根据决策函数的值判断样本更接近哪个类别,即使在决策函数的值的置信度很低的情况下,依然会给出一个结果;第二方面,在公共安全领域案件分类这一特定场景,案件类别存在层次结构,如果仅采用单一层次的分类器,忽视了案件类别的层次关系,会导致分类的准确率低下;第三方面,支持向量机模型分类是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间,因此,对大规模训练样本难以实施;第四方面,支持向量机模型分类只给出了二分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题,因此,使用支持向量机模型分类解决多分类问题存在困难。中国专利“CN107798033A一种公安领域案件文本的分类方法”公开了一种公安领域案件文本的分类方法,包括以下步骤:对案件文本进行预处理;建立支持向量机模型对预处理后的案件文本进行分类;建立基于词典的规则匹配案件分类器;根据决策函数值,对支持向量机分类所得结果置信度低的案件,利用所述基于词典的规则匹配案件分类器进行二次分类,以该分类结果为最终结果。上述专利主要是解决支持向量机模型分类中置信度较低时的误判问题,并不能从根本上解决支持向量机模型分类的其他方面问题。
技术实现思路
由于现有方法存在上述问题,本专利技术实施例提出一种短文本分类方法及装置。第一方面,本专利技术实施例提出一种短文本分类方法,包括:对目标短文本进行向量化处理,得到向量化目标短文本;提取所述向量化目标短文本的特征,得到向量化目标短文本特征;根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;根据所述目标短文本的语义向量,确定所述目标短文本的类别。可选地,所述对目标短文本进行向量化处理,得到向量化目标短文本之前,所述短文本分类方法,还包括:对所述目标短文本进行预处理,得到预处理后的目标短文本。可选地,所述对目标短文本进行向量化处理,得到向量化目标短文本,包括:根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本。可选地,所述根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本,包括:对所述预处理后的目标短文本划分词项,得到各个词项;根据所述训练好的词向量库,对所述各个词项进行向量化处理,得到所述向量化目标短文本。可选地,所述提取所述向量化目标短文本的特征,得到向量化目标短文本特征,包括:利用卷积神经网络卷积层,提取所述向量化目标短文本的特征;基于注意力机制,确定所述向量化目标短文本的特征中的关键特征,以作为所述向量化目标短文本特征。可选地,所述根据所述向量化目标短文本特征,确定所述目标短文本的语义向量,包括:针对所述向量化目标短文本特征,利用卷积神经网络的连接层,获取所述目标短文本的语义向量。可选地,所述根据所述目标短文本的语义向量,确定所述目标短文本的类别,包括:计算所述目标短文本的语义向量在每个类别上的输出概率;根据所述输出概率,确定所述目标短文本的类别。第二方面,本专利技术实施例还提出一种短文本分类装置,包括:向量化处理模块、特征提取模块、语义向量确定模块和类别确定模块;所述向量化处理模块,用于对目标短文本进行向量化处理,得到向量化目标短文本;所述特征提取模块,用于提取所述向量化目标短文本的特征,得到向量化目标短文本特征;所述语义向量确定模块,用于根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;所述类别确定模块,用于根据所述目标短文本的语义向量,确定所述目标短文本的类别。可选地,所述短文本分类装置,还包括:预处理模块;所述预处理模块,用于在对目标短文本进行向量化处理,得到向量化目标短文本之前,对所述目标短文本进行预处理,得到预处理后的目标短文本。可选地,所述向量化处理模块,具体用于:根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本。可选地,所述根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本,包括:对所述预处理后的目标短文本划分词项,得到各个词项;根据所述训练好的词向量库,对所述各个词项进行向量化处理,得到所述向量化目标短文本。可选地,所述特征提取模块,具体用于:利用卷积神经网络卷积层,提取所述向量化目标短文本的特征;基于注意力机制,确定所述向量化目标短文本的特征中的关键特征,以作为所述向量化目标短文本特征。可选地,所述语义向量确定模块,具体用于:针对所述向量化目标短文本特征,利用卷积神经网络的连接层,获取所述目标短文本的语义向量。可选地,所述类别确定模块,具体用于:计算所述目标短文本的语义向量在每个类别上的输出概率;根据所述输出概率,确定所述目标短文本的类别。第三方面,本专利技术实施例还提出一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。第四方面,本专利技术实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。由上述技术方案可知,本专利技术实施例通过根据所述目标短文本的语义向量,确定所述目标短文本的类别,提高了分类精度,提高了分类准确率;克服了支持向量机模型分类只能进行二分类的问题,本专利技术支持多类分类;克服了支持向量机模型对大规模训练样本难以实施的问题;自动化对目标短文本进行分类,减少了工作人员工作量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本专利技术一实施例提供的一种短文本分类方法的流程示意图;图2为本专利技术一实施例提供的一种短文本分类装置的结构示意图;图3为本专利技术一实施例提供的电子设备的逻辑框图。具体实施方式下面结合附图,对本专利技术的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而本文档来自技高网...
【技术保护点】
1.一种短文本分类方法,其特征在于,包括:/n对目标短文本进行向量化处理,得到向量化目标短文本;/n提取所述向量化目标短文本的特征,得到向量化目标短文本特征;/n根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;/n根据所述目标短文本的语义向量,确定所述目标短文本的类别。/n
【技术特征摘要】
1.一种短文本分类方法,其特征在于,包括:
对目标短文本进行向量化处理,得到向量化目标短文本;
提取所述向量化目标短文本的特征,得到向量化目标短文本特征;
根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;
根据所述目标短文本的语义向量,确定所述目标短文本的类别。
2.根据权利要求1所述的短文本分类方法,其特征在于,所述对目标短文本进行向量化处理,得到向量化目标短文本之前,所述短文本分类方法,还包括:
对所述目标短文本进行预处理,得到预处理后的目标短文本。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述对目标短文本进行向量化处理,得到向量化目标短文本,包括:
根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本。
4.根据权利要求3所述的文本分类方法,其特征在于,所述根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本,包括:
对所述预处理后的目标短文本划分词项,得到各个词项;
根据所述训练好的词向量库,对所述各个词项进行向量化处理,得到所述向量化目标短文本。
5.根据权利要求4所述的短文本分类方法,其特征在于,所述提取所述向量化目标短文本的特征,得到向量化目标短文本特征,包括:
利用卷积神经网络卷积层,提取所述向量化目标短文本的特征;
基于注意力机制,确定所述向量化目标短文本的特征中的关键特征,以...
【专利技术属性】
技术研发人员:刘晓春,杨春宇,闫继培,王竞文,
申请(专利权)人:北京海鑫科金高科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。