System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机技术,尤其涉及一种信息表示模型的处理方法、信息表示方法及设备。
技术介绍
1、信息表示任务是指将信息映射为数字向量的任务,包括如文本表示、语音表示、图像表示、视频表示等各类型信息的表示任务,可以应用于对应的下游任务。例如,文本表示可以应用于下游各类自然语言处理任务,如文本检索、聚类等。语音表示可以应用于下游的语音数据处理任务,如语音识别、分类、合成、预处理等。图像表示、视频表示可以应用于计算机视觉领域的下游任务,如图像识别、分类、分割,目标检测、视频编辑等。
2、近年来,各类预训练模型在信息表示领域取得了巨大成功。然而,各类预训练模型的较大规模的参数量和高维表示,使得模型推理的计算成本高、推理速度慢,给实际应用带来了重大挑战。
3、为了降低预训练模型的推理成本,提高推理速度,通常会通过模型蒸馏方法,利用性能较优的预训练模型(作为教师模型、参考模型)训练一个参数量较小的信息表示模型(学生模型)。但是传统的模型蒸馏方法通常利用最大似然估计或者对比学习作为损失函数,存在严重的数据噪声和过拟合的问题,相较于参考模型,得到的信息表示模型(学生模型)存在严重的性能和泛化能力下降的问题。
技术实现思路
1、本申请提供一种信息表示模型的处理方法、信息表示方法及设备,用以解决通过模型蒸馏得到的信息表示模型存在严重的性能和泛化能力下降的问题。
2、第一方面,本申请提供一种信息表示模型的处理方法,包括:获取待训练的信息表示模型,以及用于训练的参考模型和
3、第二方面,本申请提供一种信息表示方法,包括:接收端侧设备发送的信息表示请求,所述信息表示请求包含待表示的输入信息,所述输入信息包括文本、语音、图像、视频中至少一种类型的信息;将所述输入信息输入所述信息表示模型进行表征,得到所述输入信息的特征表示,其中所述信息表示模型通过如下方式训练得到:获取用于训练的参考模型和训练集,将训练集中的样本分别输入信息表示模型和参考模型,通过所述信息表示模型将所述样本转换为向量表示,基于所述样本的向量表示进行样本表征,得到所述样本的第一特征表示,并通过所述参考模型对所述样本进行表征,得到所述样本的第二特征表示;根据所述样本的向量表示、第一特征表示和第二特征表示,以最大化所述样本的第一特征表示与第二特征表示间的相关程度,并最小化所述样本的第一特征表示与向量表示间的相关程度作为训练目标,训练所述信息表示模型;向所述端侧设备返回所述输入信息的特征表示。
4、第三方面,本申请提供一种信息表示模型的处理方法,包括:获取用于文本表示的预训练模型、待训练的文本表示模型和第一文本集;将第一文本集中的文本分别输入所述文本表示模型和所述预训练模型,通过所述文本表示模型将所述文本转换为向量表示,基于所述文本的向量表示进行文本表征,得到所述文本的第一特征表示,并通过所述预训练模型对所述文本进行表征,得到所述文本的第二特征表示;根据所述文本的向量表示、第一特征表示和第二特征表示,以最大化所述文本的第一特征表示与第二特征表示间的相关程度,并最小化所述文本的第一特征表示与向量表示间的相关程度作为训练目标,训练所述文本表示模型,得到预训练的文本表示模型。
5、第四方面,本申请提供一种信息表示方法,包括:接收端侧设备发送的文本表示请求,所述文本表示请求包含待表示的输入文本;将所述输入文本输入所述文本表示模型进行表征,得到所述输入文本的特征表示,其中所述文本表示模型通过如下方式训练得到:获取用于文本表示的预训练模型、待训练的文本表示模型和第一文本集;将第一文本集中的文本分别输入所述文本表示模型和所述预训练模型,通过所述文本表示模型将所述文本转换为向量表示,基于所述文本的向量表示进行文本表征,得到所述文本的第一特征表示,并通过所述预训练模型对所述文本进行表征,得到所述文本的第二特征表示;根据所述文本的向量表示、第一特征表示和第二特征表示,以最大化所述文本的第一特征表示与第二特征表示间的相关程度,并最小化所述文本的第一特征表示与向量表示间的相关程度作为训练目标,训练所述文本表示模型;向所述端侧设备返回所述输入文本的特征表示。
6、第五方面,本申请提供一种服务器,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行前述任一方面所述的方法。
7、第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一方面所述的方法。
8、本申请提供的信息表示模型的处理方法、信息表示方法及设备,通过将信息瓶颈理论应用于信息表示模型的蒸馏中,根据信息表示模型输出的第一特征表示与参考模型输出的第二特征表示间的相关程度,以及信息表示模型输出的第一特征表示与表征前的向量表示间的相关程度,来构建训练目标,实现最大化参考模型和信息表示模型输出的特征表示之间的相关程度,同时最小化信息表示模型输出的特征表示和输入数据之间的相关程度,使得信息表示模型能够学习到重要的特征信息,同时避免学习不必要的特征信息,可以降低过拟合的风险,从而提升训练后信息表示模型的表示能力、性能和泛化能力。
本文档来自技高网...【技术保护点】
1.一种信息表示模型的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述样本的向量表示、第一特征表示和第二特征表示,以最大化所述样本的第一特征表示与第二特征表示间的相关程度,并最小化所述样本的第一特征表示与向量表示间的相关程度作为训练目标,训练所述信息表示模型,得到预训练的信息表示模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本的第一特征表示和第二特征表示,计算对比学习损失,包括:
4.根据权利要求2所述的方法,其特征在于,所述计算所述样本的向量表示和第一特征表示间的第一相关性信息,作为所述样本的第一特征表示与向量表示间的互信息的估计值,包括:
5.根据权利要求1所述的方法,其特征在于,得到预训练的信息表示模型之后,还包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述训练样本的向量表示和特征表示,以及所述训练样本的正样本和负样本的特征表示,计算第二损失函数,包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:
9.一种信息表示方法,其特征在于,包括:
10.一种信息表示模型的处理方法,其特征在于,包括:
11.根据权利要求10所述的方法,其特征在于,得到预训练的文本表示模型之后,还包括:
12.一种信息表示方法,其特征在于,包括:
13.一种服务器,其特征在于,包括:
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-12任一项所述的方法。
...【技术特征摘要】
1.一种信息表示模型的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述样本的向量表示、第一特征表示和第二特征表示,以最大化所述样本的第一特征表示与第二特征表示间的相关程度,并最小化所述样本的第一特征表示与向量表示间的相关程度作为训练目标,训练所述信息表示模型,得到预训练的信息表示模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本的第一特征表示和第二特征表示,计算对比学习损失,包括:
4.根据权利要求2所述的方法,其特征在于,所述计算所述样本的向量表示和第一特征表示间的第一相关性信息,作为所述样本的第一特征表示与向量表示间的互信息的估计值,包括:
5.根据权利要求1所述的方法,其特征在于,得到预训练的信息表示模型之后,还包括:
6.根据权利要求5所...
【专利技术属性】
技术研发人员:张延钊,龙定坤,刘楚,陈博理,丁瑞雪,谢朋峻,
申请(专利权)人:杭州阿里云飞天信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。