【技术实现步骤摘要】
一种文本分类方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,特别是涉及一种文本分类方法、装置、电子设备及存储介质。
技术介绍
[0002]文本分类是在一种固定的分类标签体系下,对输入的文本进行类别判定,是自然语言处理问题的重要组成部分。
[0003]相关技术中,在对文本进行分类时,采集大量的训练文本,并标定训练文本的标签,将标定标签后的文本输入待训练的文本分类模型,文本分类模型通过文本分类算法自动提取训练文本的文本特征,并基于文本特征输出训练文本对应的分类标签;然后基于输出的训练文本对应的分类标签与标定的训练文本的标签,计算待训练的文本分类模型的损失函数值,当损失函数值小于预设值时,得到训练后的文本分类模型,并通过训练后的文本分类模型来实现文本分类。
[0004]训练上述文本分类模型需要大量的训练文本,但是,在实际应用中,对于某些分类类别而言,所能采集到的训练文本比较少,从而导致训练后的文本分类模型输出的分类标签的准确度较低。
技术实现思路
[0005]为解决上述技术问 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类文本;提取所述待分类文本的多个关键词;获取多个第一分类标签分别对应的第一分类规则,以及每个第一分类规则对应的第一词表;每个第一分类标签对应的第一分类规则,以及每个第一分类规则对应的第一词表通过预先分析训练文本得到,一个第一分类规则对应的每个第一词表均包括训练文本的关键词时,所述训练文本符合该第一分类规则,所述训练文本的分类标签包括该第一分类规则对应的第一分类标签;当第一目标分类规则对应的每个第一词表均包括目标关键词时,确定所述待分类文本符合所述第一目标分类规则;所述目标关键词为所述多个关键词中的一个或者多个关键词;所述第一目标分类规则为任一分类标签对应的任一第一分类规则;将所述第一目标分类规则对应的第一目标分类标签确定为所述待分类文本的分类标签。2.根据权利要求1所述的方法,其特征在于,还包括:对于多个第一分类规则中的任一第一分类规则,当所述第一分类规则对应多个第一词表时,按照所述多个第一词表所包括的词语的优先级从高到低的顺序,对所述多个第一词表进行排序,得到排序后的多个第一词表;词语的优先级是预先对训练文本分析得到的;按照所述排序后的多个第一词表的先后顺序,依次判断每个第一词表是否包括目标关键词;当所述每个第一词表均包括所述目标关键词时,执行确定所述待分类文本符合所述第一目标分类规则的步骤。3.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本符合所述第一目标分类规则,包括:确定各个目标关键词在所述待分类文本中的位置;基于所述待分类文本中每两个相邻目标关键词的位置,计算所述每两个相邻目标关键词之间的距离;所述每两个相邻目标关键词之间的距离用于表征对应的两个相邻目标关键词之间的语义关联度,距离大小与语义关联度大小成反比;在所述每两个相邻目标关键词之间的距离均小于预设距离时,确定所述待分类文本符合所述第一目标分类规则。4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:获取多个第二分类标签分别对应的第二分类规则,以及每个第二分类规则对应的第二词表;每个第二分类标签对应的第二分类规则,以及每个第二分类规则对应的第二词表通过预先分析目标文本得到,所述目标文本包括训练文本和/或测试文本,一个第二分类规则对应的每个第二词表均包括目标文本的关键词时,所述目标文本符合该第二分类规则,所述目标文本的分类标签不包括该第二分类规则对应的第二分类标签;确定所述待分类文本的分类标签是否包括第二分类标签;当所述待分类文本的分类标签包括第二分类标签,确定所述待分类文本是否符合所述第二分类标签对应的第二分类规则;当所述第二分类规则对应的每个第二词表均包括目标关键词时,确定所述待分类文本
符合所述第二分类规则;将所述待分类文本的分类标签所包括的第二分类标签删除。5.根据权利要求1至3任一项所述的方法,其特征在于,还包括:在所述提取所述待分类...
【专利技术属性】
技术研发人员:简仁贤,刘影,吴文杰,
申请(专利权)人:竹间智能科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。