【技术实现步骤摘要】
多标签混合分类模型的构建方法、新闻分类方法及系统
本专利技术涉及计算机
,尤其涉及一种多标签混合分类模型的构建方法、新闻分类方法及系统。
技术介绍
现今直接利用具有标注标签的训练数据训练多标签分类模型,在实际使用时,所述多标签分类模型的输入是待分类数据,输出为所述待分类数据属于各标注标签的概率。但在多分类任务中存在各类别对应的特征不均衡的问题,如,某类别所包含的特征较多,故在进行多标签分类模型的训练时,所述多标签分类模型难以对该类别对应的特征进行捕捉,从而导致所得多标签分类模型分类效果差,针对该类别的召回率及准确率均较低,甚至无法训练获得的满足用户分类需求的多标签分类模型。
技术实现思路
本专利技术针对现有技术中的缺点,提供了一种解决多标签分类任务中各类别对应特征数据不平衡的问题的多标签混合分类模型的构建方法、新闻分类方法及系统。为了解决上述技术问题,本专利技术通过下述技术方案得以解决:一种多标签混合分类模型的构建方法,所述多标签混合分类模型包括一分类模型和至少一个识别模型, ...
【技术保护点】
1.一种多标签混合分类模型的构建方法,其特征在于,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建方法包括以下步骤:/n构建包含困难标签和普通标签的标签库;/n获取具有标注标签的训练文本;/n提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;/n提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。/n
【技术特征摘要】
1.一种多标签混合分类模型的构建方法,其特征在于,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建方法包括以下步骤:
构建包含困难标签和普通标签的标签库;
获取具有标注标签的训练文本;
提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
2.根据权利要求1所述的多标签混合分类模型的构建方法,其特征在于:
基于所述困难标签的类别将所述识别训练样本分别输入至预设的初始识别模型进行标签识别,获得识别标签,所述识别标签用于指示所述识别训练样本属于相应困难标签的预测概率值;
基于预设的第一概率阈值,根据所述识别标签和所述识别训练样本的标注标签计算获得识别损失值;
基于所述识别损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的识别模型。
3.根据权利要求2所述的多标签混合分类模型的构建方法,其特征在于,基于平均损失函数计算获得识别损失值,所述平均损失函数的公式为:
Loss1=-∑yλ(ytrue,ypred)ytrue′logypred;
其中,ytrue为第一真实概率值,ytrue′为第二真实概率值,ypred为预测概率值;
从所述识别训练样本的标注标签中提取所述第一真实概率值;
将所述识别训练样本的标注标签进行标签平滑,获得处理标签,从所述处理标签中提取第二真实概率值;
所述λ(ytrue,ypred)=1-θ(ytrue-m)θ(ypred-m)-θ(1-m-ytrue)θ(1-m-ypred);
其中,m为预设的第一概率阈值,函数Θ(x)用于根据x进行赋值,且当x小于0时赋值为0。
4.根据权利要求1至3任一所述的多标签混合分类模型的构建方法,其特征在于:
将分类训练样本输入至预设的初始分类模型进行分类预测,获得分类标签,所述分类标签用于指示所述分类训练样本属于各普通标签的预测值;
基于预设的第二概率阈值,根据所述分类标签和所述分类训练样本的标注标签计算分类损失值;
基于分类损失值更新所述初始分类模型的模型参数,直至训练结束,得到相应的分类模型。
5.根据权利要求4所述的多标签混合分类模型的构建方法,其特征在于:
基于标注标签将所述分类训练样本所属的普通标签作为其正类别,反之作为负类别;
将分类训练样本的类别属于所述正...
【专利技术属性】
技术研发人员:李明玉,刘鹏翔,
申请(专利权)人:新华智云科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。