【技术实现步骤摘要】
语音识别方法、装置及电子设备
[0001]本申请实施例涉及人工智能
,尤其涉及一种语音识别方法、装置、及电子设备。
技术介绍
[0002]语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本的技术,随着语音识别技术的发展,其被应用于诸如会议场景、智能客服场景、在线医疗场景中等多种场景中。
[0003]对于大部分的语音识别任务,其针对的语音中至少包含有一个说话人的声音,更多时候包含有多个说话人的声音。目前的语音识别任务会通过语音识别子任务和说话人日志子任务,这两个子任务进行系统级联实现将语音转换为不同说话人对应的不同文本。其中,这两个子任务通过对应的两个单独的机器学习模型分别实现,并分别进行优化后使用。然而,这种方式因模型间任务信息交互有限,且需要单独进行相应的优化和处理后,还需级联使用,导致语音识别效率低下,且准确度也不够高。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种语音识别方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种语音识别方法,包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。
[0006]根据本申请实施例的第二方面,提供了一种语音识别装置,包括:包括 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。2.根据权利要求1所述的方法,其中,所述对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量,包括:针对所述语音帧数据包含的多帧语音帧中的每一帧语音帧,对该语音帧对应的语音表征向量进行文本激活值预测;根据该语音帧与在该语音帧之前的至少一个语音帧的文本激活值之和,确定当前文本激活值之和是否达到发射阈值;若达到所述发射阈值,则将在所述发射阈值的范围内的文本激活值所对应的语音表征向量生成发射向量。3.根据权利要求1或2所述的方法,其中,所述根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人,包括:根据所述发射向量、所述说话人表征向量、所述语音表征向量和预设的说话人声音特征向量,为所述发射向量确定对应的文本,以及,所述文本中的每个字符对应的说话人。4.根据权利要求3所述的方法,其中,所述根据所述发射向量、所述说话人表征向量、所述语音表征向量和预设的说话人声音特征向量,为所述发射向量确定对应的文本,以及,所述文本中的每个字符对应的说话人,包括:根据所述发射向量、所述说话人表征向量、和所述语音表征向量进行注意力计算,获得所述发射向量中对应于每个字符的向量所对应的声音特征;根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人;根据所述每个字符的向量和所述向量对应的说话人,确定每个字符文本及每个字符文本对应的说话人。5.根据权利要求4所述的方法,其中,在所述根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人之前,所述方法还包括:检测是否需要对所述每个字符的向量所对应的声音特征进行修正,若需要,则进行修正;所述根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人,包括:根据预设的说话人声音特征向量,为修正后的所述每个字符的向量所对应的声音特征确定对应的说话人。6.根据权利要求1或2所述的方法,其中,所述为所述发射向量确定对应的文本,包括:根据所述发射向量和所述语音表征向量,为所述发射向量确定对应的文本。7.根据权利要求6所述的方法,其中,所述根据所述发射向量和所述语音表征向量,为所述发射向量确定对应的文本,包括:
对所述发射向量和所述语音表征向量进行注意力计算;根据注意力计算结果,为所述发射向量确定对应的文本。8.根据权利要求1所述的方法,其中,所述语音识别方法通过语音识别模型执行;所述语音识别模型包括语音识别分支和说话人识别分支,其中,所述语音识别分支包括:语音识别编码器、连续整合发射层、和语音识别解码器;所述说话人识别分支包括:说话人编码器、和说话人解码器;所述语音识别编码器,用于对所述待识别的语音帧数据对应的声学特征进行语音特征提取,获得对应的语音表征向量;所述连续整合发射层,用于对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达...
【专利技术属性】
技术研发人员:杜志浩,张仕良,林宇箫,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。