【技术实现步骤摘要】
语音识别装置、方法、电子设备和计算机可读存储介质
本申请涉及信息
,具体而言,涉及一种语音识别装置、方法、电子设备和计算机可读存储介质。
技术介绍
随着汽车电子技术的持续快速发展,乘坐出租车出行和预约乘坐私家车出行等出行方式得到了长足发展,在人们日常生活出行中起到了不可替代的作用,为广大人民的日常生活、交通出行带来了极大方便。目前,在出行服务平台的保护系统中,一般通过语音识别模型识别司机与乘客之间的通话录音,以便于确定乘客或司机是否存在乘车风险问题,有效帮助司机或乘客规避风险,那么,在识别通话录音时,一般通过声学模型、词典和语言模型的结合对通话录音进行识别,最终得到识别文本。但是,通过多个模型的结合对通话录音进行识别时一般针对的是标准普通话,当通话录音中的内容不是标准普通话(如粤语)时,得到的识别文本的准确度较低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种语音识别装置、方法、电子设备和计算机可读存储介质,提高了对具有地域化语言风格的语音内容进行识别时的识别准确度。第一方 ...
【技术保护点】
1.一种语音识别装置,其特征在于,该装置包括:/n获取模块,用于获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容;/n特征提取模块,用于对所述获取模块获取的所述具有地域化语言风格的语音内容进行特征提取,得到所述语音内容对应的具有地域化语言风格的声学特征向量;/n转化模块,用于将所述特征提取模块得到的所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中,将所述语音内容转化为文本信息。/n
【技术特征摘要】
1.一种语音识别装置,其特征在于,该装置包括:
获取模块,用于获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容;
特征提取模块,用于对所述获取模块获取的所述具有地域化语言风格的语音内容进行特征提取,得到所述语音内容对应的具有地域化语言风格的声学特征向量;
转化模块,用于将所述特征提取模块得到的所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中,将所述语音内容转化为文本信息。
2.如权利要求1所述的语音识别装置,其特征在于,所述转化模块具体用于:
将所述文本信息中的第i个文字对应的特征向量和所述具有地域化语言风格的声学特征向量输入到目标语音识别模型中,得到第i+1个文字,其中,i为大于或等于0的正整数,第i+1个文字为在第i个文字之后的一个文字。
3.如权利要求1所述的语音识别装置,其特征在于,所述转化模块具体用于:
将所述具有地域化语言风格的声学特征向量输入到所述目标语音识别模型的编码器中进行上下文关系特征提取,得到所述语音内容对应的特征提取向量;
将所述文本信息中的第i个文字对应的特征向量和所述特征提取向量输入到目标语音识别模型的解码器中,得到第i+1个文字。
4.如权利要求1所述的语音识别装置,其特征在于,该装置还包括:训练模块,所述训练模块用于:
构建训练样本库,所述训练样本库中包括具有地域化语言风格的样本语音内容和人工标注的真实文本信息;
将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中,得到所述样本语音内容对应的第j+1个预测文字,其中,j为大于或等于0的正整数,第j+1个预测文字为在第j个预测文字之后的一个预测文字;
根据所述样本语音内容对应的所有预测文字和所述真实文本信息,对所述初始目标语音识别模型进行调整,得到调整后的目标语音识别模型。
5.如权利要求4所述的语音识别装置,其特征在于,所述训练模块具体用于:
将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量输入到所述初始目标语音识别模型的初始编码器中进行上下文关系特征提取,得到所述样本语音内容对应的样本特征提取向量;
将所述样本语音内容对应的样本特征提取向量和对应的真实文本信息中的第j个文字对应的特征向量输入到所述初始目标语音识别模型的初始解码器中,得到所述样本语音内容对应的第j+1个预测文字。<...
【专利技术属性】
技术研发人员:罗讷,赵帅江,赵茜,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。