一种数据处理方法及其装置制造方法及图纸

技术编号：37470159 阅读：21 留言：0更新日期：2023-05-06 09:49

一种数据处理方法，应用于多模态数据处理，涉及人工智能领域，包括：获取第一特征表示；根据第一特征表示，通过边界预测器，确定目标语音中表达的目标文本中不同文本单元之间的边界信息；边界信息用于将第一特征表示进行划分，得到多个子特征；每个子特征包括目标语音中一个文本单元的语音对应的多帧特征；将多帧特征进行融合，得到每个文本单元的语音对应的目标特征；根据多个目标特征，通过任务网络，执行下游任务。本申请通过把语音的特征按照文本单元的粒度进行划分，进而可以将语音和文本对齐到相同的序列长度，从而减少两个模态之间的表示差异，从而可以提高语音

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及其装置

[0001]本申请涉及人工智能领域，尤其涉及一种数据处理方法及其装置。

技术介绍

[0002]人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0003]语音和文本是人类用来表达和交流的两种方式。一般来说，人类可以自如地在这两种方式间切换来进行交流而不存在非常明显的障碍，但对于机器来说，语音和文本作为两种非常不一样的模态输入，其处理和理解过程是非常不一样的。语音输入是一种连续的、较长的信号输入，而文本则是离散的、较短的表示输入。涉及到这两种模态间的转换的任务统称为语音
‑
文本跨模态任务，包括语音识别、语音合成、语音翻译...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取第一特征表示；所述第一特征表示为通过语音编码器处理目标语音得到的；根据所述第一特征表示，通过边界预测器，确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息；所述边界信息用于将所述第一特征表示进行划分，得到多个子特征；每个所述子特征包括所述目标语音中一个文本单元的语音对应的多帧特征；将所述多帧特征进行融合，得到每个所述文本单元的语音对应的目标特征；根据多个所述目标特征，通过任务网络，执行下游任务。2.根据权利要求1所述的方法，其特征在于，所述边界信息指示所述目标语音中位于目标文本中不同文本单元之间的边界帧。3.根据权利要求2所述的方法，其特征在于，所述边界信息具体为：所述目标语音中每个帧为目标文本中不同文本单元、子单元或者音素单元之间的边界帧的第一概率，其中，所述第一概率大于阈值的帧为所述边界帧。4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：根据所述第一特征表示，确定所述目标语音中每个帧为非空的第二概率；所述将所述多帧特征进行融合，包括：根据所述多帧特征中每帧特征对应的第二概率，对所述多帧特征进行加权求和。5.根据权利要求1至4任一所述的方法，其特征在于，所述边界预测器为基于卷积层和全连接层的分类器。6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：根据所述第一特征表示以及所述目标文本的分词结果，通过时序分类(CTC)网络，确定所述目标语音中每个帧对应的概率分布，所述概率分布中的每个概率表示帧对应于词典中一个文本单元的概率；根据所述概率分布，确定所述边界信息对应的真值；所述真值和所述边界信息用于更新所述边界预测器。7.根据权利要求1至6任一所述的方法，其特征在于，所述方法还包括：获取多个第二特征表示；所述多个第二特征表示为通过文本编码器处理文本数据得到的；不同所述第二特征表示对应于所述文本数据中的不同文本单元；根据所述多个第二特征表示，通过所述任务网络，执行下游任务。8.根据权利要求1至7任一所述的方法，其特征在于，所述下游任务为语音文本跨模态任务。9.一种数据处理装置，其特征在于，所述装置包括：获取模块，用于获取第一特征表示；所述第一特征表示为通过语音编码器处理目标语音得到的；处理模块，用于根据所述第一特征表示，通过边界预测器，确定所述目标语音中表达的目标文本中不同文本单元之间的边界信息；所述边界信息用于将所述第一特征表示进行划分，得到多个子特征；每个所述子特征...

【专利技术属性】
技术研发人员：曾幸山，李良友，陈晓，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人