语音识别的声学模型训练方法、系统、设备及介质技术方案

技术编号:26224623 阅读:31 留言:0更新日期:2020-11-04 10:59
本发明专利技术公开了一种语音识别的声学模型训练方法、系统、设备及介质,获取训练样本,将第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别,以获取多个识别文本,计算每两个识别文本间的相似度值,以确定第一语音片段对应的文本得分,判断文本得分是否大于预设阈值,若是,则将文本得分对应的第一语音片段筛选出来,以作为第三语音片段,基于第三语音片段和第二语音片段训练生成语音识别模型。本发明专利技术解决了人工标注训练数据集费时费力,无法在短时间形成大量训练数据集,造成语音识别的字错率高的缺陷,提高了语音识别模型识别的准确性。

【技术实现步骤摘要】
语音识别的声学模型训练方法、系统、设备及介质
本专利技术涉及语音识别
,尤其涉及一种语音识别的声学模型训练方法、系统、设备及介质。
技术介绍
语言是人类思想重要的载体,语音识别技术是利用机器接收、识别和理解语音信号,并将其转换成相应数字信号的技术。伴随着语音识别技术的不断发展,基于语音识别的应用也越来越广泛,这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。语音识别技术使得语音输入、语音搜索、智能语音客服等产品进入消费电子领域。客服录音电话场景下的语音识别是十分复杂的,由于客服所属地域方言以及个人发音口语化的习惯不同,需要大量的语料以及足够的场景,去训练语音识别声学模型。由于大量的语音标注过程既昂贵又费时,无法在短期内获取到充足的、人工标注完成后的训练数据集合,最终造成语音识别的字错率高。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中由于人工标注费时费力,无法在短时间形成大量训练数据集,造成语音识别的字错率高的缺陷,提供一种语音识别的声学模型训练方法、系统、设备及介质。r>本专利技术是通过本文档来自技高网...

【技术保护点】
1.一种语音识别的声学模型训练方法,其特征在于,包括以下步骤:/n获取训练样本;其中,所述训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段;/n将所述第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别,以获取多个识别文本;/n计算每两个所述识别文本间的相似度值,以确定所述第一语音片段对应的文本得分;/n判断所述文本得分是否大于所述预设阈值,若是,则将所述文本得分对应的所述第一语音片段筛选出来,以作为第三语音片段;其中,所述第三语音片段具有利用所述基准语音识别模型识别后生成的伪标签;/n基于所述第三语音片段和所述第二语音片段训练生成语音识别模型。/n

【技术特征摘要】
1.一种语音识别的声学模型训练方法,其特征在于,包括以下步骤:
获取训练样本;其中,所述训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段;
将所述第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别,以获取多个识别文本;
计算每两个所述识别文本间的相似度值,以确定所述第一语音片段对应的文本得分;
判断所述文本得分是否大于所述预设阈值,若是,则将所述文本得分对应的所述第一语音片段筛选出来,以作为第三语音片段;其中,所述第三语音片段具有利用所述基准语音识别模型识别后生成的伪标签;
基于所述第三语音片段和所述第二语音片段训练生成语音识别模型。


2.如权利要求1所述的声学模型训练方法,其特征在于,所述判断所述文本得分是否大于所述预设阈值之后,还包括:
若否,则将所述文本得分对应的所述第一语音片段进行删除。


3.如权利要求1所述的声学模型训练方法,其特征在于,所述将所述文本得分对应的所述第一语音片段筛选出来,以作为第三语音片段的步骤之后还包括:
获取字错率最低的所述基准语音识别模型对所述第三语音片段识别后生成的待纠正识别文本;
对所述待纠正识别文本进行纠正后,以获取所述第三语音片段对应的伪标签。


4.如权利要求1所述的声学模型训练方法,其特征在于,所述计算每两个所述识别文本间的相似度值,以确定所述第一语音片段对应的文本得分的步骤包括:
利用编辑距离法计算所述识别文本间的相似度;其中,所述编辑距离法包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符中至少一种;
基于所述相似度计算所述第一语音片段对应的文本得分。


5.如权利要求1所述的声学模型训练方法,其特征在于,所述基于所述第三语音片段和所述第二语音片段训练生成语音识别模型,包括:
选择字错率最低的所述基准语音识别模型作为待训练模型;
以所述第三语音片段及其标注的伪标签更新所述待训练模型的训练数据;
基于包括伪标签的所述第三语音片段和所述第二语音片段对所述待训练模型进行重训练,以生成语音识别模型。


6.如权利要求1所述的声学模型训练方法,其特征在于,所述获取训练样本的步骤之后还包括:
利用所述第二语音片段训练多个基准模型,以生成多个具有语音识别能力的所述基准语音识别模型;其中,每个所述基准模型的网络结构不同,每个所述基准语音识别模型对应的字错率不同。


7.一种语音识别的声学模型训练系统,其特征在于,所述声学模型训练系统包括:
第一获取模块,用于获取训练样本;其中,所述训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段;
识别模块,用于将所述第一语音片段分别输入多个预设的不同的基准...

【专利技术属性】
技术研发人员:李明江文斌李健
申请(专利权)人:上海携旅信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1