一种模型训练的方法、文本分类的方法、装置及存储介质制造方法及图纸

技术编号:24756470 阅读:22 留言:0更新日期:2020-07-04 09:14
本申请公开了一种模型训练的方法,包括:获取待训练文本;获取待训练文本中每个词语所对应的第一深度标签;基于每个词语的词嵌入,通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量;基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入,通过文本分类模型获取类别概率分布向量;根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量,采用目标损失函数对文本分类模型的模型参数进行更新。本申请还公开了一种基于人工智能的文本分类方法。本申请可以独立预测每个词语对应的深度值,而不会受到下游任务类型和数据集的干扰,从而提升模型的鲁棒性。

A model training method, text classification method, device and storage medium

【技术实现步骤摘要】
一种模型训练的方法、文本分类的方法、装置及存储介质
本申请涉及人工智能领域,尤其涉及一种模型训练的方法、文本分类的方法、装置及存储介质。
技术介绍
对说话人意图的识别极大地推进了自然语言理解任务的发展,而基于自然语言理解的文本分类技术引起了人们的广泛关注。文本分类技术可以作为信息检索、信息过滤、搜索引擎、文本数据库以及数字化图书馆等领域的技术基础,有着广泛的应用前景。目前,已提出高效的深度学习模型,例如,万能翻译机(UniversalTransformer)模型,UniversalTransformer模型将循环神经网络(RecurrentNeuralNetwork,RNN)的归纳偏置引入Transformer模型中,不但可以并行处理文本序列中的词语,并利用自注意力机制将上下文与距离较远的词语结合起来,还可以针对每个词语对应的位置增加停止模块,用于控制每个位置的执行深度。然而,在训练上述深度学习模型的过程中,由于停止模块需要跟随下游任务共同训练,而不同的任务可能会涉及到不同的数据集,导致停止模块的训练会受到不同任务类型和不同数据本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n获取待训练文本,其中,所述待训练文本包括至少一个词语,所述每个词语对应于一个词嵌入,且所述待训练文本对应于一个真实分类标签;/n获取所述待训练文本中每个词语所对应的第一深度标签;/n基于所述待训练文本中所述每个词语的词嵌入,通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量,其中,所述深度概率分布向量用于确定第二深度标签,所述第二深度标签表示词语在所述文本分类模型中采用网络层处理的层级数;/n基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入,通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量;/n...

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
获取待训练文本,其中,所述待训练文本包括至少一个词语,所述每个词语对应于一个词嵌入,且所述待训练文本对应于一个真实分类标签;
获取所述待训练文本中每个词语所对应的第一深度标签;
基于所述待训练文本中所述每个词语的词嵌入,通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量,其中,所述深度概率分布向量用于确定第二深度标签,所述第二深度标签表示词语在所述文本分类模型中采用网络层处理的层级数;
基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入,通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量;
根据所述待训练文本所对应的所述真实分类标签、所述类别概率分布向量、所述第一深度标签以及所述深度概率分布向量,采用目标损失函数对所述文本分类模型的模型参数进行更新。


2.根据权利要求1所述的方法,其特征在于,所述获取所述待训练文本中每个词语所对应的第一深度标签之前,所述方法还包括:
建立词语深度值关系,其中,所述词语深度值关系包括词语与深度标签之间的映射关系;
所述获取所述待训练文本中每个词语所对应的第一深度标签,包括:
根据所述词语深度值关系确定所述待训练文本中每个词语所对应的第一深度标签。


3.根据权利要求2所述的方法,其特征在于,所述建立词语深度值关系,包括:
根据文本集合中包含目标词语的文本数量以及所述文本集合的文本总数,确定所述目标词语对应的第一概率,其中,所述文本集合中至少包括至少一个文本,所述目标词语表示词语集合中的任意一个词语,所述词语集合来源于所述文本集合;
根据属于目标分类标签的文本数量以及所述文本集合的文本总数,确定所述目标分类标签对应的第二概率,其中,所述目标分类标签为分类标签集合中的任意一个标签;
根据所述目标分类标签对应的文本中出现所述目标词语的文本数量以及所述文本集合的文本总数,确定第三概率;
根据所述第一概率、所述第二概率以及所述第三概率,确定所述目标词语所对应的互信息值;
根据所述目标词语所对应的互信息值,确定所述目标词语所对应的深度标签;
将所述目标词语以及所述目标词语所对应的深度标签之间的映射关系添加至所述词语深度值关系中;
所述根据所述词语深度值关系确定所述待训练文本中每个词语所对应的第一深度标签,包括:
若所述待训练文本中包含所述目标词语,则根据所述词语深度值关系,确定所述待训练文本中所述目标词语所对应的第一深度标签。


4.根据权利要求3所述的方法,其特征在于,所述根据所述目标词语所对应的互信息值,确定所述目标词语所对应的深度标签,包括:
获取所述词语集合中词语的最大互信息值以及最小互信息值,其中,所述最大互信息值与所述最小互信息值均经过负对数计算;
根据所述最大互信息值以及所述最小互信息值,确定互信息范围;
根据深度值阈值对所述互信息范围进行划分,得到M个深度区间,其中,每个深度区间对应于一个深度标签,所述M为大于或等于1的整数;
对所述目标词语所对应的互信息值进行负对数计算,得到目标互信息值;
根据所述M个深度区间,确定所述目标互信息值所对应的目标深度区间;
根据所述目标深度区间确定所述目标词语所对应的深度标签。


5.根据权利要求1所述的方法,其特征在于,所述获取所述待训练文本中每个词语所对应的第一深度标签,包括:
针对所述待训练文本中的每个词语,通过遮蔽语言模型获取每个网络层所对应的损失值,其中,所述遮蔽语言模型包括M个网络层,每个网络层对应于一个深度标签,所述M为大于或等于1的整数;
针对所述待训练文本中的每个词语,根据所述每个网络层所对应的损失值确定最小损失值;
针对所述待训练文本中的每个词语,将所述损失最小值所对应的深度标签确定为所述第一深度标签。


6.根据权利要求5所述的方法,其特征在于,所述针对所述待训练文本中的每个词语,通过遮蔽语言模型获取每个网络层所对应的损失值之前,所述方法还包括:
获取待训练遮蔽语言模型中每个网络层所对应的权重值;
根据所述每个网络层所对应的损失值以及所述每个网络层所对应的权重值,确定所述每个网络层所对应的目标损失值;
根据所述每个网络层所对应的目标损失值,对所述待训练遮蔽语言模型中所述每个网络层的模型参数进行更新,得到所述遮蔽语言模型。


7.根据权利要求1所述的方法,其特征在于,所述基于所述待训练文本中所述每个词语的词嵌入,通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量,包括:
获取所述待训练文本中所述每个词语所对应的词嵌入,其中,所述词嵌入包括字符级词嵌入以及预训练词嵌入中至少一项;
根据所述待训练文本中所述每个词语所对应的词嵌入,生成句子特征向量;
基于所述句子特征向量,通过所述文本分类模型获取所述待训练文本的隐藏状态向量;
基于所述隐藏状态向量,通过所述文本分类模型中的深度值分类器获取所述待训练文本的深度概率分布矩阵;
根据所述待训练文本的深度概率分布矩阵,获取所述待训练文本中所述每个词语所对应的深度概率分布向量。


8.根据权利要求1所述的方法,其特征在于,所述基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入,通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量,包括:
基于所述每个词语...

【专利技术属性】
技术研发人员:刘宜进孟凡东周杰徐金安
申请(专利权)人:腾讯科技深圳有限公司北京交通大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1