【技术实现步骤摘要】
文本分类方法、文本分类装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种文本分类方法、文本分类装置、计算机设备及存储介质。
技术介绍
[0002]目前,基于预训练模型的提示学习(Prompt Learning)中的标签词映射进行样本文本分类的方法,通常是基于人工经验生成标签到类别的映射。之后,通过引入三方知识库,即通过考虑当前类别标签所有的近似词,或是通过有监督的统计当前预训练模型的行为规律,来精简输出词表和构造类别下对应的映射。然而,这种方法严重依赖三方知识库,且容易因为样本文本的不足而导致统计的结果存在偏差。因此,如何避免三方知识库引入可能存在的偏差和统计计算的消耗,并提高样本文本分类的准确度,成为了亟待解决的技术问题。
技术实现思路
[0003]本申请实施例的主要目的在于提出了一种文本分类方法、文本分类装置、计算机设备及存储介质,能够避免三方知识库引入可能存在的偏差和统计计算的消耗,提高了样本文本分类的准确度。
[0004]为实现上述目的,本申请实施例的第一方面提出 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类的初始文本和预构建的N个分类模板,并将所述初始文本填充到每个所述分类模板中,得到N个初始分类文本,N为整数,每个所述初始分类文本中所述初始文本对应的初始文本标签为空;根据预训练的相似度匹配模型对预构建的训练样本集和所述初始文本进行文本相似度匹配,得到相似文本和所述相似文本的相似文本标签;将所述相似文本和所述相似文本标签填充到每个所述分类模板中,得到N个相似分类文本;对N个所述分类模板对应的所述初始分类文本和所述相似分类文本进行文本拼接,得到第一拼接文本集,所述第一拼接文本集包括N个第一拼接文本;获取预设的M个分类类别标签,并根据每个所述分类类别标签对所述第一拼接文本中的所述初始文本标签进行类别替换,得到第二拼接文本集,所述第二拼接文本集包括M*N个第二拼接文本,M为整数;将每个所述分类类别标签下的N个所述第二拼接文本输入至预训练的语言表征模型进行分类预测,得到每个所述分类类别标签的预测得分;对M个所述预测得分进行数值比较,以确定所述初始文本对应的文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述对N个所述分类模板对应的所述初始分类文本和所述相似分类文本进行文本拼接,得到第一拼接文本集,包括:分别获取N个所述分类模板对应的所述初始分类文本和所述相似分类文本;对每个所述分类模板下的所述初始分类文本和所述相似分类文本进行文本拼接,得到第一拼接文本;根据多个所述第一拼接文本构建第一拼接文本集。3.根据权利要求1所述的方法,其特征在于,所述将每个所述分类类别标签下的N个所述第二拼接文本输入至预训练的语言表征模型进行分类预测,得到每个所述分类类别标签的预测得分,包括:将每个所述分类类别标签下的N个所述第二拼接文本输入至预训练的语言表征模型进行分类预测,得到每个所述第二拼接文本的token概率得分;根据N个所述token概率得分计算得到每个所述分类类别标签的预测得分。4.根据权利要求3所述的方法,其特征在于,所述语言表征模型包括嵌入表示处理层、掩膜语言模型处理层和预测处理层,所述将每个所述分类类别标签下的N个所述第二拼接文本分别输入至预训练的语言表征模型,得到每个所述第二拼接文本的token概率得分,包括:将每个所述分类类别标签下的N个所述第二拼接文本分别输入至预训练的语言表征模型;通过所述嵌入表示处理层对每个所述第二拼接文本进行嵌入表示处理,得到嵌入表示向量;通过所述掩膜语言模型处理层对所述嵌入表示向量进行掩膜语言模型处理,得到掩膜表示向量;通过所述预测处理层对所述掩膜表示向量进行预测处理,得到每个所述第二拼接文本
的token概率得分。5.根据权利要求3所述的方法,其特征在于,所述根据N个所述token概率得分计算得到每个所述分类类别标签的预测得分,包括:对N个所...
【专利技术属性】
技术研发人员:张镛,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。