文本分类方法、装置、设备和介质制造方法及图纸

技术编号:22055301 阅读:21 留言:0更新日期:2019-09-07 15:16
本发明专利技术实施例公开了一种文本分类方法、装置、设备和介质,涉及文本分类领域。该方法包括:若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别;若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败,则根据所述待分类文本的长度确定分类模型;基于确定的分类模型,对所述待分类文本进行分类。本发明专利技术实施例提供的文本分类方法、装置、设备和介质,提高了文本分类准确率。

Text categorization methods, devices, devices and media

【技术实现步骤摘要】
文本分类方法、装置、设备和介质
本专利技术实施例涉及文本分类领域,尤其涉及一种文本分类方法、装置、设备和介质。
技术介绍
在对论坛中的帖子进行展示之前,需要对待展示的帖子进行内容分类,并将分类结果返回给运营方,由运营方根据分类结果对帖子进行不同的操作,比如:删除、打码、警告等。目前对帖子的内容分类方法主有如下两种:第一种是基于策略的方法。该方法具体为:根据分类标准,确定不同种类下的关键字,只要文本命中了该类别下的关键字,就判定该文本属于这个类别。第二种是为策略和机器学习算法相结合的方法,例如关键字+词向量+SVM,在第一种方法的基础上,将没有命中关键字的文本以向量的形式来表示,然后通过预训练的有监督的机器学习算法(如SVM或者LR)进行判别,返回该文本对应的类别。然而,上述方法存在如下缺点:第一种方法最大的缺点是当分词器在切词不准确的情况下,会存在大量误判。第二种方法中传统的机器学习方法无法提取深层次、非线性化的语义结构;另外这种方法的词向量是静态的,无法在训练模型时候,根据分类目标动态变化,从而导致分类准确率低的问题。
技术实现思路
本专利技术实施例提供一种文本分类方法、装置、设备和介本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别;若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败,则根据所述待分类文本的长度确定分类模型;基于确定的分类模型,对所述待分类文本进行分类。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别;若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败,则根据所述待分类文本的长度确定分类模型;基于确定的分类模型,对所述待分类文本进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的长度确定分类模型,包括:若所述待分类文本的长度大于长度阈值,则确定所述分类模型为层数大于层数阈值的分类模型;若所述待分类文本的长度小于或等于长度阈值,则确定所述分类模型为层数小于或等于层数阈值的分类模型。3.根据权利要求2所述的方法,其特征在于,所述层数大于层数阈值的分类模型是BiLSTM模型;所述层数小于或等于层数阈值的分类模型是TextCNN模型。4.根据权利要求2所述的方法,其特征在于,所述长度阈值的确定包括:对获取的文本的长度按照大小进行排序;确定相邻两长度之间的长度差;将最大长度差值关联的文本长度中的任一文本长度作为所述长度阈值。5.根据权利要求1所述的方法,其特征在于,所述若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别之前,所述方法还包括:去除所述待分类文本中的符号;基于待分类文本所属行业的词库,对去除符号后...

【专利技术属性】
技术研发人员:陶超沙韬伟邓金秋
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1