一种信息分类方法及装置、信息分类模型训练方法及装置制造方法及图纸

技术编号:29463872 阅读:40 留言:0更新日期:2021-07-27 17:40
本发明专利技术提供了一种信息分类方法和装置、信息分类模型的训练方法和装置。首先对第一模型进行训练。在训练过程中,对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中,第一调整的每次迭代包括该迭代的第二调整,第二调整的每次迭代基于第一模型对第一样本集的处理,第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中,第一样本集包含一个或多个第一样本,第二样本集包含一个或多个第二样本,各第二样本均具有对应的第一原始标签,该第一原始标签用于表征第二样本的类别。然后,调用已训练的第一模型处理待分类样本得到其第一特征,调用第二模型处理第一特征,以得到待分类样本的第一标签。

【技术实现步骤摘要】
一种信息分类方法及装置、信息分类模型训练方法及装置
本专利技术涉及人工智能领域,特别的,涉及一种信息分类方法及装置、一种信息分类模型训练方法及装置、电子设备、以及计算机可读介质。
技术介绍
随着互联网和多媒体技术的发展,人工智能网络需要处理越来越多的信息分类任务。信息分类任务的本质是从媒体信息(比如图片、视频、音频、文字等)中提取相应的特征,并利用该特征对媒体信息进行分类。信息分类通常通过使用能够表征该分类的标签对媒体信息进行标记,以使设备或者用户能够更加方便对该媒体信息进行处理或者利用。图像识别是信息分类的典型应用场景之一。比如,在图像识别任务中,将待识别的图片输入到人工智能网络中,人工智能网络提取图像中的特定特征,并依据该特征识别图片中所展示的内容,然后根据图片中的内容确定图片的标签,如“植物”“动物”“汽车”“建筑”等。信息分类的另一典型应用场景是语音识别。比如,在语音识别任务中,将待识别的语音输入到人工智能网络中,人工智能网络提取音频中的特定特征,并根据该特征识别语音的内容或者语音的来源,然后根据语音的内容或者来源确定语音的标签本文档来自技高网...

【技术保护点】
1.一种信息分类方法,包括:/n对第一模型进行训练,得到已训练的第一模型;/n调用所述已训练的第一模型处理待分类样本,得到待分类样本的第一特征;以及,/n调用第二模型处理所述第一特征,得到待分类样本的第一标签,其中,所述第一标签用于表征待分类样本的类别;/n其中,对第一模型进行训练,包括:对所述第一模型的第一参数进行迭代的第一调整和迭代的第二调整,其中,所述第一调整的每次迭代包括所述迭代的第二调整,所述第二调整的每次迭代基于所述第一模型对第一样本集的处理,所述第一调整的每次迭代基于经所述迭代的第二调整的第一模型对第二样本集的处理;/n其中,所述第一样本集包含一个或多个第一样本,所述第二样本集包...

【技术特征摘要】
1.一种信息分类方法,包括:
对第一模型进行训练,得到已训练的第一模型;
调用所述已训练的第一模型处理待分类样本,得到待分类样本的第一特征;以及,
调用第二模型处理所述第一特征,得到待分类样本的第一标签,其中,所述第一标签用于表征待分类样本的类别;
其中,对第一模型进行训练,包括:对所述第一模型的第一参数进行迭代的第一调整和迭代的第二调整,其中,所述第一调整的每次迭代包括所述迭代的第二调整,所述第二调整的每次迭代基于所述第一模型对第一样本集的处理,所述第一调整的每次迭代基于经所述迭代的第二调整的第一模型对第二样本集的处理;
其中,所述第一样本集包含一个或多个第一样本,所述第二样本集包含一个或多个第二样本,各第二样本均具有对应的第一原始标签,所述第一原始标签用于表征所述第二样本的类别。


2.根据权利要求1所述的信息分类方法,其特征在于,对第一模型进行训练,包括:
将第一样本集输入所述第一模型;
对所述第一模型的第一参数进行所述迭代的第一调整,直到符合第一预设条件,其中,所述第一预设条件为所述第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值;
其中,所述第一调整的每次迭代包括:
对所述第一参数进行所述迭代的第二调整,直到符合第二预设条件,其中,所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值,其中,所述第二调整的每次迭代包括:调整所述第一参数,以及基于各第一样本和当前迭代调整后的所述第一参数计算得到所述第二损失;
将第二样本集输入所述迭代的第二调整后的第一模型,得到各第二样本的第二特征;
将各第二样本的第二特征输入第三模型,得到各第二样本的第一预测标签,其中,所述第一预测标签用于预测所述第二样本的类别;以及,
根据各第二样本的所述第一原始标签与所述第一预测标签的差异得到所述第一损失。


3.根据权利要求2所述的信息分类方法,其特征在于,在对所述第一模型的第一参数进行迭代的第一调整直到符合第一预设条件后,对第一模型进行训练,还包括:
将第三样本集输入所述迭代的第一调整后的第一模型,其中,所述第三样本集包含一个或多个第三样本,各第三样本均具有对应的第二原始标签,所述第二原始标签用于表征所述第三样本的类别;以及,
对所述第一参数进行迭代的第三调整,直到符合第三预设条件,其中,所述第三预设条件为第三损失降至第五阈值或所述第三调整的迭代次数达到第六阈值;
其中,所述第三调整的每次迭代包括:
调整所述第一参数;
基于各第三样本和当前迭代调整后的第一参数根据得到各第三样本的第三特征;
将各第三样本的第三特征输入所述第二模型,得到各第三样本的第二预测标签,其中,所述预测第二标签用于预测所述第三样本的类别;以及,
根据所述第三样本集中各第三样本的所述第二原始标签与所述第二预测标签的差异得到所述第三损失;
其中,所述第三调整的每次迭代中所述第一参数的调整步长小于所述第一调整的每次迭代中所述第一参数的调整步长。


4.根据权利要求2或3所述的信息分类方法,其特征在于,通过预设的第一函数基于各第一样本和当前迭代调整后的所述第一参数计算获得所述第二损失,其中,所述第一函数用于表征所述第一模型从各第一样本中所提取的表示与对应的第一样本之间的关联度。


5.根据权利要求2所述的信息分类方法,其特征在于,所述第一模型包含编码模块和上下文模块,调用所述已训练的第一模型处理待分类样本包括:
调用所述编码模块编码待分类样本,得到所述待分类样本的第一中间特征;
调用所述上下文模块处理所述第一中间特征,得到所述第一特征。


6.根据权利要求5所述的信息分类方法,其特征在于,所述编码模块包含一层卷积层或多层级联的卷积层。


7.根据权利要求5或6所述的信息分类方法,其特征在于,所述上下文模块包含线性映射层和级联的多层上下文层,调用上下文模块处理所述中间特征得到所述第一特征,包括:
调用级联的多层上下文层处理所述第一中间特征,每层上下文层输出对应的第二中间特征;
调用线性映射层对各第二中间特征进行线性映射,得到所述第一特征。


8.根据权利要求7所述的信息分类方法,其特征在于,所述多层上下文层包含循环神经网络层、单向长短时记忆层、双向长短时记忆层、或门控循环单元层中的一种或多种。


9.根据权利要求5、6或8中任一项所述的信息分类方法,其特征在于,各第一样本为向量,基于当前迭代中的所述第一模型和所述第一样本集中的各第一样本计算得到所述第二损失包含:
调用所述编码模块编码各第一样本,得到各第一样本的中间特征向量Z,其中,所述中间特征向量的长度T与对应第一样本的长度M成正比;
调用所述上下文模块处理各第一样本的中间特征向量Z,得到各第一样本的上下文向量C,其中,所述特征向量的长度为T;
对各第一样本的上下文向量中第t个的元素Ct,根据正样本、负样本和预设函数计算Ct与正样本之间的互信息,其中正样本为该第一样本的中间特征向量中第t+k个的元素Zt+k,负样本为从该第一样本的中间特征向量中随机选择的不包含Zt+k的n个元素、或者为从所有第一样本的中间特征向量中随机选择的不包含Zt+k的n个元素,其中t、k、n为正整数,t+k≤T;
基于各第一样本的所述互信息计算所述第二损失,其中,所述第二损失与各第一样本的所述互信息呈负相关。


10.根据权利要求1所述的信息分类方法,其特征在于,所述第一样本的数量大于所述第二样本的数量。


11.根据权利要求3所述的信息分类方法,其特征在于,所述第一样本的数量大于所述第三样本的数量。


12.根据权利要求1所述的信息分类方法,其特征在于,在第一特征空间中,所述待分类样本的特征位置到所述第一样本集的特征位置大于所述待分类样本的特征位置到所述第二样本集的特征位置,或者,所述第一样本集的分布范围大于所述第二样本集的分布范围;
其中,所述第一特征空间为通过第四模型进行特征提取的结果所对应的空间,调用所述第四模型对所述待分类样本进行特征提取获得第四特征,调用所述第四模型对各第一样本进行特征提取获得各第一样本的第五特征,调用所述第四模型对各第二样本进行特征提取获得各第二样本的第六特征;
其中,所述第四特征在所述第一特征空间中位于所述待分类样本的特征位置,基于各第五特征在所述第一特征空间中的位置通过预设方法确定所述第一样本集的特征位置和分布范围,基于各第六特征在所述第一特征空间中的位...

【专利技术属性】
技术研发人员:朱秋实吴明辉方昕刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1