当前位置: 首页 > 专利查询>刘秀敏专利>正文

声学模型的建模单元的编码方法、声学模型的训练方法技术

技术编号:27774301 阅读:53 留言:0更新日期:2021-03-23 13:05
本申请提供了一种声学模型的建模单元的编码方法、声学模型的训练方法,编码方法包括:对建模单元的经过预处理的语音流信号片段进行增量式扫描,其中,语音流信号片段包括至少一个音频帧,以及增量式扫描包括,根据增量式扫描的当前时间步所对应的扫描范围,对由扫描范围确定的音频帧进行扫描,其中扫描范围包括从增量式扫描的第一个时间步到当前时间步包含的全部音频帧对应的宽度;根据扫描范围在增量式扫描中对语音流信号片段的覆盖程度,计算指示覆盖程度的概率值,概率值用于表示扫描范围覆盖的语音流信号片段与建模单元的特定属性相符合的似然概率;以及将用于指示特定属性的一个或多个编码位的值更新为概率值。

【技术实现步骤摘要】
声学模型的建模单元的编码方法、声学模型的训练方法
本申请的一个或多个实施例通常涉及语音信号处理
,具体涉及语音识别中建模单元的编码方法,以及基于该编码方法训练声学模型的方法、可读存储介质以及相应的系统。
技术介绍
在深度学习技术应用到语音识别中之后,声学模型的性能得到了极大提升。但在目前通行的声学建模技术中,无论是DL-HMM(DeepLearning-HMM)框架下的混合声学模型,还是基于RNN的序列到序列模型,还是基于注意力机制的Encoder-Decoder框架下的序列到序列声学模型,还是基于CTC技术的声学模型,还是基于Transformer的声学模型,在训练任务中,声学模型的输出端,都以表征建模单元在单元集中身份的One-hot(独热码)编码向量作为监督训练数据来训练声学模型。在确定建模单元的类型后,所有可能出现的该类建模单元构成一个容量为N的集合,该集合中任一个建模单元对象都可以用一个只含一位为1其余位均为0的维数是N的One-hot向量表示。在监督训练过程中,One-hot编码向量中具有和输入端语音帧信号相同建模单元本文档来自技高网...

【技术保护点】
1.一种声学模型的建模单元的编码方法,其特征在于,包括:/n对所述建模单元的经过预处理的语音流信号片段进行增量式扫描,其中,所述语音流信号片段包括至少一个音频帧,以及所述增量式扫描包括,根据所述增量式扫描的当前时间步所对应的扫描范围,对由所述扫描范围确定的所述音频帧进行扫描,其中所述扫描范围包括从所述增量式扫描的第一个时间步到所述当前时间步包含的全部所述音频帧对应的宽度;/n根据所述扫描范围在所述增量式扫描中对所述语音流信号片段的覆盖程度,计算指示所述覆盖程度的概率值,所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的特定属性相符合的似然概率;以及/n将用于指示所述特定属性...

【技术特征摘要】
1.一种声学模型的建模单元的编码方法,其特征在于,包括:
对所述建模单元的经过预处理的语音流信号片段进行增量式扫描,其中,所述语音流信号片段包括至少一个音频帧,以及所述增量式扫描包括,根据所述增量式扫描的当前时间步所对应的扫描范围,对由所述扫描范围确定的所述音频帧进行扫描,其中所述扫描范围包括从所述增量式扫描的第一个时间步到所述当前时间步包含的全部所述音频帧对应的宽度;
根据所述扫描范围在所述增量式扫描中对所述语音流信号片段的覆盖程度,计算指示所述覆盖程度的概率值,所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的特定属性相符合的似然概率;以及
将用于指示所述特定属性的一个或多个编码位的值更新为所述概率值。


2.根据权利要求1所述的编码方法,其特征在于,所述增量式扫描还包括:
从所述增量式扫描的所述第一个时间步到最后一个时间步,将所述扫描范围在每个时间步增大一个所述音频帧的宽度。


3.一种声学模型的建模单元的编码方法,其特征在于,包括:
针对所述声学模型的建模对象,选择一种或多种建模单元;
确定与所述建模单元的对应种类相关联的多个预先确定的声学属性,以及所述多个预先确定的声学属性对应的多个编码头,所述编码头用于指示所述声学属性;
对所述建模单元的经过预处理的语音流信号片段进行增量式扫描,以及计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值,其中,所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的至少一个特定属性相符合的似然概率;以及
将所述概率值提供给与所述至少一个特定属性相关联的所述编码头;
其中,所述多个预先确定的声学属性中的每一个声学属性包括一个或多个所述特定属性。


4.根据权利要求3所述的编码方法,其特征在于,针对所述声学模型的建模对象,选择一种或多种建模单元还包括,从音素建模单元和音节建模单元中选择至少一种。


5.一种声学模型的训练方法,其特征在于,包括:
预处理用于所述声学模型训练的训练数据,所述训练数据包括标注数据,所述标注数据包括针对所述声学模型的建模对象所选择的对应种类的建模单元以及所...

【专利技术属性】
技术研发人员:刘秀敏
申请(专利权)人:刘秀敏
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1