【技术实现步骤摘要】
文本分类方法及装置
本申请实施例涉及数据处理
,尤其是一种文本分类方法及装置。
技术介绍
文本分类问题是自然语言处理领域中一个非常重要的问题,随着统计学习方法的发展,解决大规模文本分类问题主要是采用人工特征工程以及浅层分类模型,整个文本分类问题就拆分成了特征工程和分类器两部分。利用CNN(ConvolutionalNeuralNetworks,卷积神经网络)或者RNN(RecurrentNeuralNetwork,递归神经网络)等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程。现有通过神经网络模型在softmaxs层分类,通过神经网络模型抽取的数字特征,通过softmax层做分类,但是由于CNN的softmax层使用交叉熵损失,对小样本容易过拟合,需要大量训练数据,而数据量比较大,IOU(IntersectionoverUnion,是一种测量在特定数据集中检测相应物体准确度的一个标准)过严的话训练数据时间长且不易收敛,为了降低训练时长加快收敛而调低IOU又会使得模型分类准确率不高。专利技术 ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待处理的目标文本;/n通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;/n根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
获取待处理的目标文本;
通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;
根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。
2.根据权利要求1所述的文本分类方法,其特征在于,获取待处理的目标文本之后,所述方法包括:
提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;
将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。
3.根据权利要求2所述的文本分类方法,其特征在于,所述提取所述目标文本中多个目标特征词的特征词加权值之前,包括:
将所述目标文本进行分词处理得到多个文本词条;
根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。
4.根据权利要求3所述的文本分类方法,其特征在于,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。
5.根据权利要求2所述的文本分类方法,其特征在于,所述提取所述目标文本中多个目标特征词的特征词加权值,包括:
获取目标特征词的词频信息和逆文本频率;
将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括...
【专利技术属性】
技术研发人员:李冉,余辉,李彦,亓超,马宇驰,
申请(专利权)人:三角兽北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。