【技术实现步骤摘要】
一种文本分类模型训练方法和文本分类方法
[0001]本申请实施例涉及计算机
,尤其涉及一种文本分类模型训练方法和文本分类方法。
技术介绍
[0002]传统的文本分类模型在训练过程中通常使用样本文本及其对应的样本标签进行训练,但由于样本标签的词义是比较丰富的,仅依据样本标签本身对文本分类模型进行训练使得模型在应用阶段进行分类预测时,对于一些未明确包含分类标签信息的文本而言,容易导致分类遗漏,降低了文本分类的准确性。
技术实现思路
[0003]为了解决上述文本分类的准确性低的技术问题,本申请实施例提供一种文本分类模型训练方法和文本分类方法,通过融入样本标签对应的类别描述信息对文本分类模型进行训练来提高文本分类的准确性。
[0004]一方面,本申请实施例提供了一种文本分类模型训练方法,所述方法包括:
[0005]获取样本数据,所述样本数据包括样本文本、所述样本文本对应的样本标签以及所述样本标签对应的类别描述信息;
[0006]将所述样本数据输入预设模型,基于所述预设模型进行下述操作:< ...
【技术保护点】
【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,所述方法包括:获取样本数据,所述样本数据包括样本文本、所述样本文本对应的样本标签以及所述样本标签对应的类别描述信息;将所述样本数据输入预设模型,基于所述预设模型进行下述操作:对所述样本文本进行基于上下文感知的信息提取处理,得到样本文本特征;对所述样本标签对应的类别描述信息进行特征提取,得到样本标签描述特征;将所述样本标签描述特征和所述样本文本特征进行融合,得到样本融合特征;基于所述样本融合特征对所述样本文本进行分类预测,得到预测分类结果;基于所述预测分类结果和所述样本标签所指示的真实分类结果之间的差异,调整所述预设模型的参数,得到文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述样本文本特征包括所述样本文本中的分词对应的第一特征,所述将所述样本标签描述特征和所述样本文本特征进行融合,得到样本融合特征,包括:将第一目标特征和所述样本标签描述特征进行融合,得到第一目标融合特征,所述第一目标特征为任一所述第一特征;在得到至少两个所述第一目标融合特征的情况下,对各所述第一目标融合特征进行聚合处理,得到第二目标融合特征;在得到一个所述第一目标融合特征的情况下,将所述第一目标融合特征作为所述第二目标融合特征;将所述第二目标融合特征和所述样本文本特征进行融合,得到所述样本融合特征。3.根据权利要求2所述的方法,其特征在于,所述将所述第二目标融合特征和所述样本文本特征进行融合,得到所述样本融合特征,包括:将所述第一目标特征和所述第二目标融合特征进行融合,得到与所述第一目标特征对应的第三目标融合特征;在得到至少两个所述第三目标融合特征的情况下,将各所述第三目标融合特征进行融合,得到所述样本融合特征;在得到一个所述第三目标融合特征的情况下,将所述第三目标融合特征作为所述样本融合特征。4.根据权利要求2或3所述的方法,其特征在于,所述样本标签描述特征包括至少两个标签类别中每一所述标签类别对应的样本子描述特征,所述将第一目标特征和所述样本标签描述特征进行融合,得到第一目标融合特征,包括:针对每一所述样本子描述特征,根据所述第一目标特征和所述样本子描述特征的信息距离,确定所述第一目标特征和所述样本子描述特征的相似度;根据各所述样本子描述特征分别对应的相似度对各所述样本子描述特征进行融合,得到所述第一目标融合特征。5.根据权利要求4所述的方法,其特征在于,所述根据各所述样本子描述特征分别对应的相似度对各所述样本子描述特征进行融合,得到所述第一目标融合特征,包括:根据各所述样本子描述特征分别对应的相似度确定各所述样本子描述特征分别对应的权值;基于所述各所述样本子描述特征分别对应的权值对各所述样本子描述特征进行加权求和,得到所述第一目标融合特征。
6.根据权利要求2所述的方法,其特征在于,所述对所述样本文...
【专利技术属性】
技术研发人员:杨韬,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。