一种数据处理方法及其装置制造方法及图纸

技术编号:37470159 阅读:12 留言:0更新日期:2023-05-06 09:49
一种数据处理方法,应用于多模态数据处理,涉及人工智能领域,包括:获取第一特征表示;根据第一特征表示,通过边界预测器,确定目标语音中表达的目标文本中不同文本单元之间的边界信息;边界信息用于将第一特征表示进行划分,得到多个子特征;每个子特征包括目标语音中一个文本单元的语音对应的多帧特征;将多帧特征进行融合,得到每个文本单元的语音对应的目标特征;根据多个目标特征,通过任务网络,执行下游任务。本申请通过把语音的特征按照文本单元的粒度进行划分,进而可以将语音和文本对齐到相同的序列长度,从而减少两个模态之间的表示差异,从而可以提高语音

【技术实现步骤摘要】
一种数据处理方法及其装置


[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及其装置。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]语音和文本是人类用来表达和交流的两种方式。一般来说,人类可以自如地在这两种方式间切换来进行交流而不存在非常明显的障碍,但对于机器来说,语音和文本作为两种非常不一样的模态输入,其处理和理解过程是非常不一样的。语音输入是一种连续的、较长的信号输入,而文本则是离散的、较短的表示输入。涉及到这两种模态间的转换的任务统称为语音

文本跨模态任务,包括语音识别、语音合成、语音翻译、语音转换等任务。
[0004]把语音、文本这两个不同的模态融于一个系统,使其能够高效地处理两种模态的输入的同时,还能结合并应用不同模态学习到的知识。这样的一个系统非常依赖于两种模态之间的对齐,而语音和文本的表示的不一致不利于系统准确地完成跨模态的转换,尤其是对于语音翻译等涉及多个步骤的任务。

技术实现思路

[0005]第一方面,本申请提供了一种数据处理方法,所述方法包括:获取第一特征表示;所述第一特征表示为通过语音编码器处理目标语音得到的;根据所述第一特征表示,通过边界预测器,确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息;所述边界信息用于将所述第一特征表示进行划分,得到多个子特征;每个所述子特征包括所述目标语音中一个文本单元的语音对应的多帧特征;将所述多帧特征进行融合,得到每个所述文本单元的语音对应的目标特征;根据多个所述目标特征,通过任务网络,执行下游任务。通过把语音的特征按照文本单元的粒度进行划分,进而可以将语音和文本对齐到相同的序列长度,从而减少两个模态之间的表示差异,从而可以提高语音

文本的跨模态的下游任务的处理精度。
[0006]在一种可能的实现中,所述边界信息指示所述目标语音中位于目标文本中不同文本单元之间的边界帧。
[0007]在一种可能的实现中,所述边界信息具体为:所述目标语音中每个帧为目标文本中不同文本单元之间的边界帧的第一概率,其中,所述第一概率大于阈值的帧为所述边界帧。
[0008]在一种可能的实现中,所述方法还包括:根据所述第一特征表示,确定所述目标语音中每个帧为非空的第二概率;所述将所述多帧特征进行融合,包括:根据所述多帧特征中
每帧特征对应的第二概率,对所述多帧特征进行加权求和。
[0009]通过上述方式,通过边界预测器对编码过后的语音特征输入进行预测,再根据预测的边界结果对语音特征进行压缩,该压缩后的语音特征表示即拥有与对齐unit序列相似的长度,其应用于下游任务时将有利于与文本空间的对齐。
[0010]在一种可能的实现中,所述边界预测器为基于卷积层和全连接层的分类器。
[0011]在一种可能的实现中,所述方法还包括:根据所述第一特征表示以及所述目标文本的分词结果,通过时序分类(CTC)网络,确定所述目标语音中每个帧对应的概率分布,所述概率分布中的每个概率表示帧对应于词典中一个文本单元的概率;根据所述概率分布,确定所述边界信息对应的真值;所述真值和所述边界信息用于更新所述边界预测器。边界预测器由一个CTC模块进行指导,通过给定对应文本的对齐unit序列来训练。该CTC模块训练后可丢弃。从而相比普通模型,该方案只额外引入了一个轻量级的边界预测器的参数。
[0012]在一种可能的实现中,所述方法还包括:
[0013]获取多个第二特征表示;所述多个第二特征表示为通过文本编码器处理文本数据得到的;不同所述第二特征表示对应于所述文本数据中的不同文本单元;
[0014]根据所述多个第二特征表示,通过所述任务网络,执行下游任务。
[0015]在一种可能的实现中,所述下游任务为语音文本跨模态任务。
[0016]第二方面,本申请提供了一种数据处理装置,所述装置包括:
[0017]获取模块,用于获取第一特征表示;所述第一特征表示为通过语音编码器处理目标语音得到的;
[0018]处理模块,用于根据所述第一特征表示,通过边界预测器,确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息;所述边界信息用于将所述第一特征表示进行划分,得到多个子特征;每个所述子特征包括所述目标语音中一个文本单元的语音对应的多帧特征;
[0019]将所述多帧特征进行融合,得到每个所述文本单元的语音对应的目标特征;
[0020]根据多个所述目标特征,通过任务网络,执行下游任务。
[0021]在一种可能的实现中,所述边界信息指示所述目标语音中位于目标文本中不同文本单元之间的边界帧。
[0022]在一种可能的实现中,所述边界信息具体为:所述目标语音中每个帧为目标文本中不同文本单元之间的边界帧的第一概率,其中,所述第一概率大于阈值的帧为所述边界帧。
[0023]在一种可能的实现中,所述处理模块,还用于:根据所述第一特征表示,确定所述目标语音中每个帧为非空的第二概率;
[0024]所述处理模块,具体用于:
[0025]根据所述多帧特征中每帧特征对应的第二概率,对所述多帧特征进行加权求和。
[0026]在一种可能的实现中,所述边界预测器为基于卷积层和全连接层的分类器。
[0027]在一种可能的实现中,所述处理模块,还用于:
[0028]根据所述第一特征表示以及所述目标文本的分词结果,通过时序分类(CTC)网络,确定所述目标语音中每个帧对应的概率分布,所述概率分布中的每个概率表示帧对应于词典中一个文本单元的概率;
[0029]根据所述概率分布,确定所述边界信息对应的真值;所述真值和所述边界信息用于更新所述边界预测器。
[0030]在一种可能的实现中,所述获取模块,还用于:
[0031]获取多个第二特征表示;所述多个第二特征表示为通过文本编码器处理文本数据得到的;不同所述第二特征表示对应于所述文本数据中的不同文本单元;
[0032]所述处理模块,还用于:
[0033]根据所述多个第二特征表示,通过所述任务网络,执行下游任务。
[0034]在一种可能的实现中,所述下游任务为语音文本跨模态任务。
[0035]第三方面,本申请实施例提供了一种执行装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法。
[0036]第四方面,本申请实施例提供了一种计算机可读存储介质,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一特征表示;所述第一特征表示为通过语音编码器处理目标语音得到的;根据所述第一特征表示,通过边界预测器,确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息;所述边界信息用于将所述第一特征表示进行划分,得到多个子特征;每个所述子特征包括所述目标语音中一个文本单元的语音对应的多帧特征;将所述多帧特征进行融合,得到每个所述文本单元的语音对应的目标特征;根据多个所述目标特征,通过任务网络,执行下游任务。2.根据权利要求1所述的方法,其特征在于,所述边界信息指示所述目标语音中位于目标文本中不同文本单元之间的边界帧。3.根据权利要求2所述的方法,其特征在于,所述边界信息具体为:所述目标语音中每个帧为目标文本中不同文本单元、子单元或者音素单元之间的边界帧的第一概率,其中,所述第一概率大于阈值的帧为所述边界帧。4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:根据所述第一特征表示,确定所述目标语音中每个帧为非空的第二概率;所述将所述多帧特征进行融合,包括:根据所述多帧特征中每帧特征对应的第二概率,对所述多帧特征进行加权求和。5.根据权利要求1至4任一所述的方法,其特征在于,所述边界预测器为基于卷积层和全连接层的分类器。6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:根据所述第一特征表示以及所述目标文本的分词结果,通过时序分类(CTC)网络,确定所述目标语音中每个帧对应的概率分布,所述概率分布中的每个概率表示帧对应于词典中一个文本单元的概率;根据所述概率分布,确定所述边界信息对应的真值;所述真值和所述边界信息用于更新所述边界预测器。7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:获取多个第二特征表示;所述多个第二特征表示为通过文本编码器处理文本数据得到的;不同所述第二特征表示对应于所述文本数据中的不同文本单元;根据所述多个第二特征表示,通过所述任务网络,执行下游任务。8.根据权利要求1至7任一所述的方法,其特征在于,所述下游任务为语音文本跨模态任务。9.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取第一特征表示;所述第一特征表示为通过语音编码器处理目标语音得到的;处理模块,用于根据所述第一特征表示,通过边界预测器,确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息;所述边界信息用于将所述第一特征表示进行划分,得到多个子特征;每个所述子特征...

【专利技术属性】
技术研发人员:曾幸山李良友陈晓
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1