一种文本分类方法及装置制造方法及图纸

技术编号:26171094 阅读:24 留言:0更新日期:2020-10-31 13:41
本申请提供了一种文本分类方法及装置,其中,该方法包括:确定待分类文本属于每个分类标签对应的类别的概率值;若确定的概率值均小于预设值,则根据每个分类标签对应的所述概率值,选取预设数量个分类标签作为候选分类标签;针对每个候选分类标签,基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量,确定所述待分类文本与该候选分类标签的相似度;选取与所述待分类文本的相似度最大的候选分类标签,作为所述待分类文本的目标分类标签。上述技术方案利用文本中的句向量对文本进行分类,而不是只通过文本中词语的词向量对文本进行分类,能完整的确定文本的语义,有效提高文本分类的精确度。

【技术实现步骤摘要】
一种文本分类方法及装置
本申请涉及文本处理
,具体而言,涉及一种文本分类方法及装置。
技术介绍
目前,随着信息技术的高度发展,人工智能得到了广泛的应用,其中,文本分类技术应用尤其广泛,例如垃圾邮件的分类、智能服务或是在诸多场景中的个性化推荐等,都需要应用到文本分类技术。由于文本内容较为复杂和多样等因素的限制,导致无法直接对文本进行分类,此时,需要对文本进行分词处理。现有的文本分类方法需要将文本分成多个词语,通过词语的词向量识别文本中关键词语的语义,根据词语的语义对文本进行分类,这样的方式不能将文本的原有意思完整的反映出来,导致语义分析错误等问题,进而导致文本分类错误,甚至无法对文本进行分类。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本分类方法及装置,能够利用文本中的句向量对文本进行分类,而不是只通过文本中词语的词向量对文本进行分类,能完整的确定文本的语义,有效提高文本分类的精确度。第一方面,本申请提供了一种文本分类方法,包括:确定待分类文本属于每个分类标签对应的类别的概率值;若本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n确定待分类文本属于每个分类标签对应的类别的概率值;/n若确定的概率值均小于预设值,则根据每个分类标签对应的所述概率值,选取预设数量个分类标签作为候选分类标签;/n针对每个候选分类标签,基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量,确定所述待分类文本与该候选分类标签的相似度;/n选取与所述待分类文本的相似度最大的候选分类标签,作为所述待分类文本的目标分类标签。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
确定待分类文本属于每个分类标签对应的类别的概率值;
若确定的概率值均小于预设值,则根据每个分类标签对应的所述概率值,选取预设数量个分类标签作为候选分类标签;
针对每个候选分类标签,基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量,确定所述待分类文本与该候选分类标签的相似度;
选取与所述待分类文本的相似度最大的候选分类标签,作为所述待分类文本的目标分类标签。


2.根据权利要求1所述的文本分类方法,其特征在于,在确定所述待分类文本与候选分类标签的相似度之前,还包括:
获取所述待分类文本中的语句;
针对每个语句,基于该语句在所述待分类文本中的位置、该语句中的词汇和每个词汇在该语句中的位置,生成该语句对应的句向量。


3.根据权利要求1所述的文本分类方法,其特征在于,在确定所述待分类文本与候选分类标签的相似度之前,还包括:
获取所述待分类文本中的语句;
针对每个语句,对该语句进行分词处理得到至少一个词汇,生成每个词汇对应的词向量,并基于该语句中每个词汇对应的词向量,生成该语句对应的句向量。


4.根据权利要求1所述的方法,其特征在于,所述基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量,确定所述待分类文本与该候选分类标签的相似度,包括:
确定所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度;
基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度,确定所述待分类文本与该候选分类标签的相似度。


5.根据权利要求1所述的方法,其特征在于,还包括:
若确定的概率值中至少有一个概率值大于或等于所述预设值,则将最大的概率值对应的分类标签,作为所述待分类文本的目标分类标签。


6.根据权利要求1所述的方法,其特征在于,所述确定待分类文本属于每个分类标签对应的类别的概率值,包括:
利用训练好的分类模型,确定所述待分类文本属于每个分类标签对应的类...

【专利技术属性】
技术研发人员:王伟玮
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1