【技术实现步骤摘要】
【国外来华专利技术】用于长格式音频的语音识别的假设拼接器
技术介绍
[0001]端到端(E2E)自动语音识别(ASR)系统使用单个神经网络(NN)将音频转换为单词序列,因此通常比较早的ASR系统更简单。E2E ASR解决方案通常在产生假设之前摄入较短的音频片段来处理完整的话语。不幸的是,当应用于超过训练数据长度的语音时,针对短话语训练的模型通常表现不佳。这种情况可能发生在长格式语音(例如,持续10分钟或更长时间的语音)的情况下,这种情况在抄录(transcribing)流音频时以及在其他ASR任务中可能会遇到。
技术实现思路
[0002]下面参考下面列出的附图详细描述所公开的示例。提供以下
技术实现思路
以说明本文公开的一些示例。然而,这并不意味着将所有示例限制为任何特定的配置或操作序列。
[0003]一种用于长格式音频的语音识别的假设拼接器提供了优越的性能,诸如更高的准确性和更低的计算成本。所公开的操作示例包括:将音频流分割成多个音频片段;标识多个音频片段中的每个音频片段内的多个说话者;对多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种语音识别的方法,所述方法包括:将音频流分割成多个音频片段;标识所述音频流内的多个说话者;对所述多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成多个短片段假设;将所述短片段假设中的至少一部分合并到第一合并假设集合中;将拼接符号插入所述第一合并假设集合中,所述拼接符号包括窗口改变(WC)符号;以及利用基于网络的假设拼接器将所述第一合并假设集合汇总到第一汇总假设中。2.根据权利要求1所述的方法,其中所述第一合并假设集合特定于所述多个说话者中的第一说话者,其中所述第一汇总假设特定于所述第一说话者,并且其中所述方法还包括:将所述短片段假设中的至少一部分合并到特定于所述多个说话者中的第二说话者的第二合并假设集合中;将拼接符号插入所述第二合并假设中;以及利用所述假设拼接器将所述第二合并假设集合汇总到特定于所述第二说话者的第二汇总假设中。3.根据权利要求1所述的方法,其中所述第一合并假设集合包括多说话者合并假设集合,并且其中所述拼接符号还包括说话者标识。4.根据权利要求1所述的方法,其中所述假设拼接器包括基于对齐的拼接器,其中所述第一合并假设集合包括奇数假设序列和偶数假设序列,并且其中所述方法还包括:将所述奇数假设序列与所述偶数假设序列对齐。5.根据权利要求1所述的方法,其中所述假设拼接器包括不使用奇数假设序列和偶数假设序列的对齐的串行拼接器。6.一种用于语音识别的系统,所述系统包括:处理器;以及存储指令的计算机可读介质,所述指令在由所述处理器执行时操作为:将音频流分割成多个音频片段;标识所述音频流内的多个说话者;对所述多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成多个短片段假设;将所述短片段假设中的至少一部分合并到第一合并假设集合中;将拼接符号插入所述第一合并假设集合中,所述拼接符号包括窗口改变(WC)符号;以及利用基于网络的假设拼接器将所述第一合并假设集合汇总到第一汇总假设中。7.根据权利要求6所述的系统,其中所述第一合并假设集合特定于所述多个说话者中的第一说话者,其中所述第一汇总假设特定于所述第一说话者,并且其中所述指令还操作为:将所述短片段假设中的至少一部分合并到特定于所述多个说话者中的第二说话者的第二合并假设集合中;
将拼接符号...
【专利技术属性】
技术研发人员:神田直之,常烜恺,Y,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。