一种神经网络的训练方法、装置及序列预测方法制造方法及图纸

技术编号:24036789 阅读:12 留言:0更新日期:2020-05-07 02:08
本发明专利技术公开了一种神经网络的训练方法、装置及序列预测方法,属于人工智能技术领域。方法:在将n个样本数据输入至待训练的神经网络后,获取待训练的神经网络输出的n个概率分布列序列,第k个概率分布列序列包括m个概率分布列,第k个概率分布列序列中第g个概率分布列为,第k个样本数据的第g个单元数据的类别的概率分布,n、k、m和g均为整数,1≤k≤n,1≤g≤m;确定第k个概率分布列序列到第k个标定序列的编辑概率,第k个概率分布列序列到第k个标定序列的编辑概率为,通过编辑操作将第k个概率分布列序列生成第k个标定序列的概率;基于n个概率分布列序列中各个概率分布列序列到相应标定序列的编辑概率,对待训练的神经网络进行优化。

A neural network training method, device and sequence prediction method

【技术实现步骤摘要】
一种神经网络的训练方法、装置及序列预测方法
本专利技术涉及人工智能
,特别涉及一种神经网络的训练方法、装置及序列预测方法。
技术介绍
随着神经网络的发展,神经网络已经被广泛应用。输出为序列的神经网络,例如应用在语音识别的神经网络,神经网络的输入为音频片段,神经网络的输出为,用于预测音频对应的转录(例如字符序列)的序列。这种以序列为输入又以序列为输出的神经网络的训练过程,也称序列到序列学习(SequencetoSequenceLearning),通常包括:首先,输入样本数据,例如音频样本X=[x1,x2,...,xt],至待训练的神经网络;其中,假设音频样本X的真实转录为字符序列Y=[y1,y2,...,yu];其次,待训练的神经网络对X进行识别、转换和分类,输出预测的概率分布列序列Y'=[Z1,Z2,...],Z1为第1个概率分布列,Z1为y1’对应的类别的概率分布,y1’为第一个预测字符,Z2为第2个概率分布列,Z2为y2’对应的类别的概率分布,y2’为第二个预测字符,以此类推;然后,计算Y'到Y的偏差;最后,基于Y'到Y的偏差,对待训练的神经网络进行优化。目前,计算Y'到Y的偏差是采用交叉熵(Cross-Entropy)计算。交叉熵的原理包括:将Y'中包括的各个概率分布列Z分别与Y包括的各个元素y逐一比较,计算各个概率分布列Z到各个元素y的偏差,并将计算的偏差求和得到Y'到Y的偏差。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:交叉熵的运算是以各个概率分布列Z与标定序列的各个元素y对齐为前提,一旦输出的概率分布列序列中的概率分布列Z相对于标定序列的元素y发生增多或缺失,即Z的数量发生改变,可能大于标定序列的元素数量u,也可能小于u,这样,将导致在计算Y'到Y的偏差时概率分布列Z与元素y的对应发生错位,比如,假设对应y3的概率分布列缺失,概率分布列Z3对应的实际元素为y4,但交叉熵在比较时,是将Z3中各个概率与y3进行比较,计算的是Z3与y3的偏差,并且,由于Z3与y3的错位,Z3之后的概率分布列与y3之后的元素也相应发生错位,这样计算出的偏差是错误的,基于错误的偏差进行优化,将导致错误的优化,这将严重影响训练效率,还降低了训练出的神经网络的准确性。
技术实现思路
本专利技术实施例提供了一种神经网络的训练方法、装置及序列预测方法,能够提高神经网络的训练效率和提高训练出的神经网络的准确性。所述技术方案如下:一方面,提供了一种神经网络的训练方法,所述方法包括:在将n个样本数据输入至待训练的神经网络后,获取所述待训练的神经网络输出的n个概率分布列序列,所述n个概率分布列序列中第k个概率分布列序列包括m个概率分布列,所述第k个概率分布列序列中第g个所述概率分布列为,所述n个样本数据中第k个样本数据的第g个单元数据的类别的概率分布,n、k、m和g均为整数,1≤k≤n,1≤g≤m;确定所述第k个概率分布列序列到第k个标定序列的编辑概率,所述第k个概率分布列序列到第k个标定序列的编辑概率为,通过编辑操作将所述第k个概率分布列序列生成所述第k个标定序列的概率,所述第k个标定序列为所述第k个样本数据的标定序列;基于所述n个概率分布列序列中各个所述概率分布列序列到相应标定序列的编辑概率,对所述待训练的神经网络进行优化。可选地,所述确定所述第k个概率分布列序列到第k个标定序列的编辑概率,包括:分别计算所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率、所述第k个概率分布列序列到所述第k个标定序列的第s-1个前缀的编辑概率、以及所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的编辑概率,所述第k个概率分布列序列的第j个前缀为,从所述第k个概率分布列序列的第0个概率分布列到所述第k个概率分布列序列的第j个概率分布列构成的分布列序列,所述第k个标定序列的第i个前缀为,从所述第k个标定序列的第0个元素到所述第k个标定序列的第i个元素构成的序列,j和i均为自然数,0≤j≤m-1,0≤i≤s-1;所述第k个概率分布列序列的第0个概率分布列为空单元数据的类别的概率分布列,所述第k个标定序列的的第0个元素为空元素;根据所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率、所述第k个概率分布列序列到所述第k个标定序列的第s-1个前缀的编辑概率、以及所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的编辑概率,计算所述第k个概率分布列序列到所述第k个标定序列的编辑概率。可选地,所述计算所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率,包括:当j=0、且i=0时,所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率等于1;当0<j≤m-1、且i=0时,根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率;当j=0、且0<i≤s-1时,根据所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率;当1≤j≤m-1、且1≤i≤s-1时,根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、以及所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率。可选地,所述根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率,包括:获取所述第k个概率分布列序列中第j个概率分布列发生删除操作的概率,所述第j个概率分布列发生所述删除操作为,删除所述第j个概率分布列;基于所述第k个概率分布列序列中第j个概率分布列发生删除操作的概率、以及所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率。可选地,所述根据所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率,包括:获取所述第k个概率分布列序列中第j个概率分布列发生插入操作的概率,所述第j个概率分布列发生所述插入操作为,在所述第k个概率分布列序列中第j-1个概率分布列与所述第j个概率分布列之间插入概率分布列;获取所述第j个本文档来自技高网
...

【技术保护点】
1.一种神经网络的训练方法,其特征在于,所述方法包括:/n在将n个样本数据输入至待训练的神经网络后,获取所述待训练的神经网络输出的n个概率分布列序列,所述n个概率分布列序列中第k个概率分布列序列包括m个概率分布列,所述第k个概率分布列序列中第g个所述概率分布列为,所述n个样本数据中第k个样本数据的第g个单元数据的类别的概率分布,n、k、m和g均为整数,1≤k≤n,1≤g≤m;/n确定所述第k个概率分布列序列到第k个标定序列的编辑概率,所述第k个概率分布列序列到第k个标定序列的编辑概率为,通过编辑操作将所述第k个概率分布列序列生成所述第k个标定序列的概率,所述第k个标定序列为所述第k个样本数据的标定序列;/n基于所述n个概率分布列序列中各个所述概率分布列序列到相应标定序列的编辑概率,对所述待训练的神经网络进行优化。/n

【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,所述方法包括:
在将n个样本数据输入至待训练的神经网络后,获取所述待训练的神经网络输出的n个概率分布列序列,所述n个概率分布列序列中第k个概率分布列序列包括m个概率分布列,所述第k个概率分布列序列中第g个所述概率分布列为,所述n个样本数据中第k个样本数据的第g个单元数据的类别的概率分布,n、k、m和g均为整数,1≤k≤n,1≤g≤m;
确定所述第k个概率分布列序列到第k个标定序列的编辑概率,所述第k个概率分布列序列到第k个标定序列的编辑概率为,通过编辑操作将所述第k个概率分布列序列生成所述第k个标定序列的概率,所述第k个标定序列为所述第k个样本数据的标定序列;
基于所述n个概率分布列序列中各个所述概率分布列序列到相应标定序列的编辑概率,对所述待训练的神经网络进行优化。


2.根据权利要求1所述的方法,其特征在于,所述确定所述第k个概率分布列序列到第k个标定序列的编辑概率,包括:
分别计算所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率、所述第k个概率分布列序列到所述第k个标定序列的第s-1个前缀的编辑概率、以及所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的编辑概率,所述第k个概率分布列序列的第j个前缀为,从所述第k个概率分布列序列的第0个概率分布列到所述第k个概率分布列序列的第j个概率分布列构成的分布列序列,所述第k个标定序列的第i个前缀为,从所述第k个标定序列的第0个元素到所述第k个标定序列的第i个元素构成的序列,j和i均为自然数,0≤j≤m-1,0≤i≤s-1;所述第k个概率分布列序列的第0个概率分布列为空单元数据的类别的概率分布列,所述第k个标定序列的的第0个元素为空元素;
根据所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率、所述第k个概率分布列序列到所述第k个标定序列的第s-1个前缀的编辑概率、以及所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的编辑概率,计算所述第k个概率分布列序列到所述第k个标定序列的编辑概率。


3.根据权利要求2所述的方法,其特征在于,所述计算所述第k个概率分布列序列的第m-1个前缀到所述第k个标定序列的第s-1个前缀的编辑概率,包括:
当j=0、且i=0时,所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率等于1;
当0<j≤m-1、且i=0时,根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率;
当j=0、且0<i≤s-1时,根据所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率;
当1≤j≤m-1、且1≤i≤s-1时,根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、以及所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率、以及所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的编辑概率,包括:
基于所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i-1个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的保留概率;
基于所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i-1个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的插入概率;
基于所述第k个概率分布列序列的第j-1个前缀到所述第k个标定序列的第i个前缀的编辑概率,计算所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的删除概率;
基于所述第k个概率分布列序列的第j个前缀到所述第k个标定序列的第i个前缀的保留概率、插入概率、以及删除概...

【专利技术属性】
技术研发人员:白帆程战战
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1