【技术实现步骤摘要】
语音识别方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音识别方法及装置。
技术介绍
语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别是一门交叉学科,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术已经或即将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别声学模型自适应是一种提高语音识别准确率的重要技术,在个性化语音识别等领域有着重要应用,它通常是通过自适应数据对原有声学模型进行一定程度的改进来实现性能提升。比较流行的是基于特征矢量的自适应方法,通过将特征矢量(如i-Vector)补偿输入到声学模型来提高语音识别的准确率。在现有技术中,需要使用较多数据才能估计出性能较好的特征矢量,当数据很少时估计出的特征矢量不能带来明显的语音识别性能提升。然而,对于一些语音识别应用场景 ...
【技术保护点】
一种语音识别方法,其特征在于,包括:针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,用于对语音识别模型的自适应调整。
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,用于对语音识别模型的自适应调整。2.如权利要求1所述的方法,其特征在于,在得到聚类训练数据特征矢量之后,还包括:将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型。3.如权利要求1所述的方法,其特征在于,在所述针对训练数据特征矢量进行聚类处理之后、所述得到聚类训练数据特征矢量之前,还包括:对聚到同一类的训练数据特征矢量进行加权平均处理。4.如权利要求1所述的方法,其特征在于,所述利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算,包括:计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。5.如权利要求4所述的方法,其特征在于,在进行插值计算过程中,设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。6.如权利要求1至5任一项所述的方法,其特征在于,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场...
【专利技术属性】
技术研发人员:薛少飞,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。