语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39328399 阅读:7 留言:0更新日期:2023-11-12 16:05
本申请公开了一种语音识别方法、装置、电子设备以及存储介质。本申请的实施例涉及人工智能的机器学习以及云技术等技术领域,本发明专利技术实施例可应用于云技术、人工智能、智慧出行、辅助驾驶等各种场景。该方法包括:获取待识别语音;将待识别语音输入语音识别模型,得到语音识别模型预测的文本信息;语音识别模型通过正样本对以及负样本对,对初始模型进行对比学习获得;输出文本信息。在本申请中,正语音样本可以根据正文本样本的合成分词语音获得,正语音样本与正文本样本对齐性较好,减少了正样本对的获取难度,可以获取到大量的正样本对,从而提高了训练样本的数据量,使得语音识别模型预测的文本信息的准确率较高。测的文本信息的准确率较高。测的文本信息的准确率较高。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质


[0001]本申请涉及互联网信息处理
,更具体地,涉及一种语音识别方法、装置、电子设备以及计算机可读取存储介质。

技术介绍

[0002]语音识别技术(Automat ic Speech Recogn it ion)是一种将人的语音转换为文本的技术。常见的语音识别技术的应用可以包括语音交互和语音输入等。
[0003]随着长短视频、直播音视频等新兴互联网媒介的百花齐放,各类创作模式层出不穷,创作门槛日趋平民化,导致各类长短音视频、直播流中声学场景更加复杂多变,多语种以及多方言问题日益突出。因此,围绕各类长短音视频的语音识别和内容理解任务一直以来都备受工业界关注,如何对各类视频内容中的语音信息进行准确转写和内容理解,成为了字幕内容创作、兴趣内容推荐、数字媒介归档过程中不可避免的问题。
[0004]目前,可以通过语音以及语音对应的文本,对神经网络模型进行训练,得到语音识别模型。当获取到待识别语音时,通过语音识别模型对待识别语音进行识别,得到语音识别模型输出的识别结果,识别结果可以是指待识别语音对应的文本。
[0005]但是,获取训练样本时,难以获取到足够多的对齐性较好的语音以及文本作为训练样本,从而使得语音识别模型的训练过程不充分,导致语音识别模型的识别效果较差,语音识别模型预测的待识别语音对应的文本的准确性较低。

技术实现思路

[0006]有鉴于此,本申请实施例提出了一种语音识别方法、装置、电子设备以及计算机可读取存储介质。
[0007]第一方面,本申请实施例提供了一种语音识别方法,方法包括:获取待识别语音;将待识别语音输入语音识别模型,得到语音识别模型预测的文本信息;语音识别模型通过正样本对以及负样本对,对初始模型进行对比学习获得,正样本对包括正语音样本以及与正语音样本的内容匹配的正文本样本,负样本对包括负语音样本以及与负语音样本的内容不匹配的负文本样本,正语音样本根据合成分词语音获得,合成分词语音根据正文本样本对应的正样本分词生成;输出文本信息。
[0008]第二方面,本申请实施例提供了一种语音识别装置,装置包括:获取模块,用于获取待识别语音;识别模块,用于将待识别语音输入语音识别模型,得到语音识别模型预测的文本信息;语音识别模型通过正样本对以及负样本对,对初始模型进行对比学习获得,正样本对包括正语音样本以及与正语音样本的内容匹配的正文本样本,负样本对包括负语音样本以及与负语音样本的内容不匹配的负文本样本,正语音样本根据合成分词语音获得,合成分词语音根据正文本样本对应的正样本分词生成;输出模块,用于输出文本信息。
[0009]可选地,装置还包括样本获取模块,用于对正文本样本进行切分,得到多个正样本分词;生成对应每个正样本分词的合成分词语音;对多个正样本分词对应的合成分词语音
进行拼接,得到正语音样本。
[0010]可选地,样本获取模块,还用于获取对应正文本样本中每个正样本分词的合成分词语音;对多个正样本分词对应的合成分词语音进行拼接,得到中间语音样本;对中间语音样本进行调整,得到调整后的语音样本,调整包括音色调整、音调调整以及话语人身份调整中的至少一者;获取并汇总调整后的语音样本以及中间语音样本,得到正语音样本。
[0011]可选地,装置还包括训练模块,用于获取正样本对以及负样本对;通过初始模型,确定对应正语音样本的正语音特征、对应正文本样本的正文本特征、对应负语音样本的负语音特征以及对应负文本样本的负文本特征;根据正语音特征、正文本特征、负语音特征以及负文本特征,对初始模型进行对比学习,得到语音识别模型。
[0012]可选地,训练模块,还用于通过初始模型中的语音编码器对正语音样本进行特征提取,得到正语音特征。
[0013]可选地,训练模块,还用于通过初始模型中的文本编码器对正文本样本进行特征提取,得到正文本特征。
[0014]可选地,训练模块,还用于根据正语音特征以及正文本特征,确定表征正语音样本以及正文本样本之间的匹配程度的第一匹配度;根据负语音特征以及负文本特征,确定表征负语音样本以及负文本样本之间的匹配程度的第二匹配度;根据第一匹配度以及第二匹配度,确定第一损失值;根据正语音特征、正文本特征、负语音特征以及负文本特征,确定第二损失值,第二损失值用于表征正样本对以及负样本对之间的差异程度;根据第一损失值以及第二损失值,对初始模型进行训练,得到语音识别模型。
[0015]可选地,训练模块,还用于根据正语音特征以及正文本特征,确定正条件概率,正条件概率是指在以正语音样本为输入的条件下,通过初始模型得到输出为正文本样本的概率;根据正条件概率,确定第一匹配度。
[0016]可选地,训练模块,还用于确定正语音特征以及正文本特征的相似度,作为第一相似度;确定负语音特征以及负文本特征的相似度,作为第二相似度;根据第一相似度以及第二相似度,确定第二损失值。
[0017]可选地,训练模块,还用于计算正语音特征以及正文本特征的余弦相似度,作为第一相似度。
[0018]可选地,训练模块,还用于对第一相似度以及第二相似度进行拼接,得到拼接后的相似度;根据拼接后的相似度,计算交叉熵损失值,作为第二损失值。
[0019]可选地,训练模块,还用于计算第一损失值以及第二损失值的和,作为最终损失值;通过最终损失值对初始模型进行训练,得到语音识别模型。
[0020]第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
[0021]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
[0022]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的方法。
[0023]本申请实施例提供的一种语音识别方法、装置、电子设备以及计算机可读取存储介质,本申请中,正语音样本可以根据正文本样本的合成分词语音获得,正语音样本与正文本样本对齐性较好,减少了正样本对的获取难度,可以获取到大量的正样本对,从而提高了训练样本的数据量,使得根据正样本对初始模型的训练过程充分,得到的语音识别模型的识别效果较好,提高了语音识别模型预测的文本信息的准确率;同时,通过正样本对以及负样本对对初始模型进行对比学习,进一步提高了训练获得的语音识别模型的识别效果,达到了提高了语音识别模型预测的文本信息的准确率的效果。
附图说明
[0024]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别语音;将所述待识别语音输入语音识别模型,得到所述语音识别模型预测的文本信息;所述语音识别模型通过正样本对以及负样本对,对初始模型进行对比学习获得,所述正样本对包括正语音样本以及与所述正语音样本的内容匹配的正文本样本,所述负样本对包括负语音样本以及与所述负语音样本的内容不匹配的负文本样本,所述正语音样本根据合成分词语音获得,所述合成分词语音根据所述正文本样本对应的正样本分词生成;输出所述文本信息。2.根据权利要求1所述的方法,其特征在于,所述正语音样本的获取过程包括:对所述正文本样本进行切分,得到所述多个正样本分词;生成对应每个所述正样本分词的合成分词语音;对所述多个正样本分词对应的合成分词语音进行拼接,得到正语音样本。3.根据权利要求1所述的方法,其特征在于,所述正语音样本的获取过程包括:获取对应所述正文本样本中每个正样本分词的合成分词语音;对所述多个正样本分词对应的合成分词语音进行拼接,得到中间语音样本;对所述中间语音样本进行调整,得到调整后的语音样本,所述调整包括音色调整、音调调整以及话语人身份调整中的至少一者;获取并汇总所述调整后的语音样本以及所述中间语音样本,得到所述正语音样本。4.根据权利要求1所述的方法,其特征在于,所述语音识别模型的获取方法包括:获取所述正样本对以及所述负样本对;通过所述初始模型,确定对应所述正语音样本的正语音特征、对应所述正文本样本的正文本特征、对应所述负语音样本的负语音特征以及对应所述负文本样本的负文本特征;根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征,对所述初始模型进行对比学习,得到语音识别模型。5.根据权利要求4所述的方法,其特征在于,所述正语音特征的获取方法包括:通过所述初始模型中的语音编码器对所述正语音样本进行特征提取,得到正语音特征。6.根据权利要求4所述的方法,其特征在于,所述正文本特征的获取方法包括:通过所述初始模型中的文本编码器对所述正文本样本进行特征提取,得到正文本特征。7.根据权利要求4所述的方法,其特征在于,所述根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征,对所述初始模型进行对比学习,得到语音识别模型,包括:根据所述正语音特征以及所述正文本特征,确定表征所述正语音样本以及所述正文本样本之间的匹配程度的第一匹配度;根据所述负语音特征以及所述负文本特征,确定表征所述负语音样本以及所述负文本样本之间的匹配程度的第二匹配度;根据所述第一匹配度以及所述第二匹配度,确定第一损失值;所述根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征,确
定第二损失值,所述第二损失值用于表征所述正样本对以及所述负样本对之间的差异程度;根据所述第一损失值以及所述第二损...

【专利技术属性】
技术研发人员:刘烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1