【技术实现步骤摘要】
语音音素识别方法、装置、设备及存储介质
[0001]本申请涉及计算机
,尤其涉及人工智能(Artificial Intelligence,AI)中的音素识别领域,提供一种语音音素识别方法、装置、设备及存储介质。
技术介绍
[0002]音素(phone)识别是指识别语音中语音内容所对应的音素序列的过程。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,例如:常见的中文拼音音素体系中,声母和韵母分别可以为一个音素,则一个字可以通过两个音素来进行表征,例如“前”可以表达为“q”和“ian”的组合。
[0003]目前常用的音素识别方案是根据帧级别的音素语音标注数据来训练得到帧级别的音素分类网络,然后该网络能够将输入的音频帧做出音素类别的识别判断,然后根据识别出来的帧级别音素序列,将临近并且相同的音素进行合并,最终生成一个完整的音素序列。
[0004]但是,这种方式在对帧级别的识别结果进行合并时,很容易产生误识别的情况,最终会导致最终识别结果中存在大量的插入错误,比 ...
【技术保护点】
【技术特征摘要】
1.一种语音音素识别方法,其特征在于,所述方法包括:对目标音频包括的各音频帧进行特征编码,获得相应的帧特征序列;对所述帧特征序列进行递归式的特征解码,并基于解码得到的各个音素解码结果,生成所述目标音频的音素识别结果;其中,在每一次特征解码时,执行如下操作:基于各预设音素各自对应的语义特征,获得上一次解码得到的音素解码结果对应的音素语义特征;基于在上一次解码时得到的序列解码状态与所述帧特征序列之间的相关度,对所述帧特征序列进行特征增强处理,获得本次解码对应的上下文特征,所述序列解码状态表征:所述帧特征序列的历史解码信息;基于所述上下文特征和所述音素语义特征,对所述序列解码状态进行更新,并基于更新后的序列解码状态进行音素预测,获得本次解码的音素解码结果。2.如权利要求1所述的方法,其特征在于,所述语音音素识别方法通过已训练的语音音素识别模型来执行,则所述方法还包括:通过多个音素文本样本对词嵌入模型包括的嵌入矩阵进行训练,并在训练完成时,获得已训练的嵌入矩阵;其中,每个音素文本样本为多个单词各自对应的音素组成的句子,所述词嵌入模型用于通过所述嵌入矩阵将音素文本样本映射为唯一对应的词嵌入特征;以所述已训练的嵌入矩阵,对语音音素识别模型中的嵌入矩阵进行赋值,获得目标嵌入矩阵,所述目标嵌入矩阵包括所述各预设音素各自对应的语义特征;基于多个语音样本对赋值后的语音音素识别模型进行训练,并在训练完成时,获得所述已训练的语音音素识别模型;其中,每个语音样本包括:样本音频以及其对应的标注音素序列。3.如权利要求2所述的方法,其特征在于,通过多个音素文本样本对词嵌入模型包括的嵌入矩阵进行训练,包括:通过所述多个音素文本样本对所述词嵌入模型进行迭代训练,直至所述词嵌入模型达成迭代终止条件;其中,在每一次训练时,执行如下操作:分别对本次输入的各个音素文本样本进行掩码处理,以掩盖各个音素文本样本中掩码位置的单词;基于本次使用的嵌入矩阵,分别获得掩码处理后的各个音素文本样本各自对应的词嵌入特征;基于获得的各个词嵌入特征,分别预测各个音素文本样本中掩码位置对应的单词;基于所述各个音素文本样本各自实际掩盖的单词与预测的单词之间的差异度,对所述嵌入矩阵进行参数调整。4.如权利要求2所述的方法,其特征在于,在通过多个音素文本样本对词嵌入模型包括的嵌入矩阵进行训练之前,所述方法还包括:从多种预设类型的文本资源集合中,提取各个文本资源所包含的文本内容,构建基础文本内容集合;从所述基础文本内容集合筛除不符合预设样本条件的文本内容,获得目标文本内容集合;针对所述目标文本内容集合中各条文本内容,通过音素字典进行音素映射处理,以获
得所述多个音素文本样本;其中,所述音素字典中包含每个单词对应的音素。5.如权利要求1~4任一所述的方法,其特征在于,所述基于在上一次解码时得到的序列解码状态与所述帧特征序列之间的相关度,对所述帧特征序列进行特征增强处理,获得本次解码对应的上下文特征,包括:对所述序列解码状态与所述帧特征序列进行互相关处理,获得所述帧特征序列中各个帧特征各自对应的注意力权重;其中,每个注意力权重表征:所述序列解码状态与相应帧特征之间的相关度;基于所述各个帧特征各自对应的注意力权重,对所述帧特征序列进行基于注意力机制的特征加权处理,获得所述上下文特征。6.如权利要求5所述的方法,其特征在于,对所述序列解码状态与所述帧特征序列进行互相关处理,获得所述帧特征序列中各个帧特征各自对应的注意力权重,包括:将所述序列解码状态以及所述各个帧特征分别映射至目标维度空间中;基于映射后的序列解码状态与所述各个帧特征在所述目标维度空间中的空间距离,分别获得所述各个帧特征各自对应的注意力权重;其中,空间距离越大,注意力权重越小。7.如权利要求5所述的方法,其特征在于,对所述序列解码状态与所述帧特征序列进行互相关处理,获得所述帧特征序列中各个帧特征各自对应的注意力权重,包括:从上一次解码时获得的注意力权重中,确定注意力权重大于预设权重阈值的目标音频帧,或者注意力权重最大的目标音频帧;基于所述目标音频帧,对所述帧特征序列进行分割,以从帧特征序列中剔除所述目标音频帧之前的音频帧;对所述序列解码状态与分割后的所述帧特征序列进行互相关处理,获得所述分割后的所述帧特征序列中的各个帧特征各自对...
【专利技术属性】
技术研发人员:冯鑫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。