【技术实现步骤摘要】
音频处理方法、装置、设备、程序产品及存储介质
[0001]本申请涉及人工智能技术,尤其涉及一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质。
技术介绍
[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
[0003]越来越多的人工智能产品具备语音交互的功能,语音交互可以应用于各种语音评分系统,例如,语言教育应用的语言测试系统,口语考试系统等等,在语音交互功能的使用过程中需要将音素与文本进行对齐,但是相关技术中无法准确将音素与文本进行对齐。
技术实现思路
[0004]本申请实施例提供一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质,能够提高音素的对齐的准确度。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种基于人工智能的音频处
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的音频处理方法,其特征在于,所述方法包括:获取给定文本的至少一个音素,并确定每个所述音素的音素特征;获取对应所述给定文本的音频数据的至少一个音频帧,并确定每个所述音频帧的音频特征;针对每个所述音频帧执行以下处理:对所述音频帧的音频特征以及至少一个所述音素的音素特征进行基于注意力机制的融合处理,得到对应每个所述音频帧的融合特征;基于每个所述音频帧的融合特征,确定每个所述音频帧对应的音素,并基于每个所述音频帧对应的音素,确定每个所述音素在所述音频数据中的起止时刻。2.根据权利要求1所述的方法,其特征在于,所述确定每个所述音素的音素特征是通过调用音素编码器实现的,所述音素编码器包括音素特性表示网络以及音素位置表示网络,所述确定每个所述音素的音素特征,包括:针对每个所述音素执行以下处理:通过所述音素特性表示网络确定所述音素的特性表示特征,其中,所述特性表示特征用于表征所述音素的特性;通过所述音素位置表示网络确定所述音素的位置表示特征,其中,所述位置表示特征用于表征所述音素在对应文本单元中的位置;将所述位置表示特征与所述特性表示特征进行相加处理,得到所述音素的音素特征。3.根据权利要求1所述的方法,其特征在于,所述基于注意力机制的融合处理是通过调用注意力融合网络实现的,所述注意力融合网络包括注意力层以及融合层,所述对所述音频帧的音频特征以及至少一个所述音素的音素特征进行基于注意力机制的融合处理,得到对应每个所述音频帧的融合特征,包括:通过所述注意力层对所述音频帧的音频特征以及至少一个所述音素的音素特征进行注意力处理,得到所述音频帧的注意力结果;通过所述融合层将所述音频帧的注意力结果以及所述音频帧的音频特征进行融合处理,得到对应所述音频帧的融合特征。4.根据权利要求3所述的方法,其特征在于,所述对所述音频帧的音频特征以及至少一个所述音素的音素特征进行注意力处理,得到所述音频帧的注意力结果,包括:针对每个所述音素执行以下处理:基于所述音频帧的音频特征以及所述音素的音素特征,确定对应所述音素的注意力分数;对所述音素的音素特征进行值向量变换处理,得到值向量;将对应所述音素的注意力分数与所述值向量进行相乘处理,得到对应所述音素的注意力结果。5.根据权利要求4所述的方法,其特征在于,所述基于所述音频帧的音频特征以及所述音素的音素特征,确定对应所述音素的注意力分数,包括:对所述音频特征进行查询向量变换处理,得到查询向量;对所述音素特征进行关键向量变换处理,得到关键向量;将所述查询向量以及所述关键向量的转置进行相乘处理,得到相乘结果;将所述相乘结果与所述关键向量的维度的平方根的比值确定为所述注意力特征;
对所述注意力特征进行最大似然处理,得到对应所述音素的注意力分数。6.根据权利要求1所述的方法,其特征在于,所述确定每个所述音频帧对应的音素是通过调用音素分类网络实现的,所述音素分类网络包括至少一个级联的音素全连接层,所述基于每个所述音频帧的融合特征,确定每个所述音频帧对应的音素,包括:针对每个所述音频帧执行以下处理:当所述音素全连接层的数目为一个时,通过所述音素全连接层对所述融合特征进行第一全连接处理,得到所述音频帧属于每个候选音素的第一概率;当所述音素全连接层的数目为多个时,通过N个级联的音素全连接层中的第n音素全连接层,对所述第n音素全连接层的输入进行第一全连接处理,并将所述第n音素全连接层输出的第n音素全连接结果传输到第n+1音素全连接层以继续进行第一全连接处理,得到对应所述第n+1音素全连接层的第n+1音素全连接结果;其中,N为大于或者等于2的整数,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,所述第n音素全连接层的输入为所述融合特征,当n取值为2≤n<N时,所述第n音素全连接层的输入为第n
‑
1音素全连接层输出的第n
‑
1音素全连接结果,当n取值为N
‑
1时,所述第n+1音素全连接结果为所述音频帧属于每个候选音素的第一概率;将最大的所述第一概率的候选音素确定为所述音频帧对应的音素。7.根据权利要求1所述的方法,其特征在于,所述基于每个所述音频帧对应的音素,确定每个所述音素在所述音频数据中的起止时刻,包括:基于每个所述音频帧对应的音素,确定每个所述音素对应的至少一个音频帧;针对每个所述音素执行以下处理:当所述音素对应多个连续的音频帧时,将所述音素对应的连续音频帧的起止时刻确定为所述音素的起止时刻;当所述音素对应一个音频帧时,将所述音素对应的音频帧的时刻确定为所述音素在所述音频数据中的起止时刻。8.根据权利要求1所述的方法,其特征在于,所述基...
【专利技术属性】
技术研发人员:林炳怀,王丽园,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。