语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39328399 阅读：7 留言：0更新日期：2023-11-12 16:05

本申请公开了一种语音识别方法、装置、电子设备以及存储介质。本申请的实施例涉及人工智能的机器学习以及云技术等技术领域，本发明专利技术实施例可应用于云技术、人工智能、智慧出行、辅助驾驶等各种场景。该方法包括：获取待识别语音；将待识别语音输入语音识别模型，得到语音识别模型预测的文本信息；语音识别模型通过正样本对以及负样本对，对初始模型进行对比学习获得；输出文本信息。在本申请中，正语音样本可以根据正文本样本的合成分词语音获得，正语音样本与正文本样本对齐性较好，减少了正样本对的获取难度，可以获取到大量的正样本对，从而提高了训练样本的数据量，使得语音识别模型预测的文本信息的准确率较高。测的文本信息的准确率较高。测的文本信息的准确率较高。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质

[0001]本申请涉及互联网信息处理
，更具体地，涉及一种语音识别方法、装置、电子设备以及计算机可读取存储介质。

技术介绍

[0002]语音识别技术(Automat ic Speech Recogn it ion)是一种将人的语音转换为文本的技术。常见的语音识别技术的应用可以包括语音交互和语音输入等。
[0003]随着长短视频、直播音视频等新兴互联网媒介的百花齐放，各类创作模式层出不穷，创作门槛日趋平民化，导致各类长短音视频、直播流中声学场景更加复杂多变，多语种以及多方言问题日益突出。因此，围绕各类长短音视频的语音识别和内容理解任务一直以来都备受工业界关注，如何对各类视频内容中的语音信息进行准确转写和内容理解，成为了字幕内容创作、兴趣内容推荐、数字媒介归档过程中不可避免的问题。
[0004]目前，可以通过语音以及语音对应的文本，对神经网络模型进行训练，得到语音识别模型。当获取到待识别语音时，通过语音识别模型对待识别语音进行识别，得到语音识别模型输出的识别结果，识别结果可以是指待识别语音对应的文本。
[0005]但是，获取训练样本时，难以获取到足够多的对齐性较好的语音以及文本作为训练样本，从而使得语音识别模型的训练过程不充分，导致语音识别模型的识别效果较差，语音识别模型预测的待识别语音对应的文本的准确性较低。

技术实现思路

[0006]有鉴于此，本申请实施例提出了一种语音识别方法、装置、电子设备以及计算机可读取存储介质。
[0...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音；将所述待识别语音输入语音识别模型，得到所述语音识别模型预测的文本信息；所述语音识别模型通过正样本对以及负样本对，对初始模型进行对比学习获得，所述正样本对包括正语音样本以及与所述正语音样本的内容匹配的正文本样本，所述负样本对包括负语音样本以及与所述负语音样本的内容不匹配的负文本样本，所述正语音样本根据合成分词语音获得，所述合成分词语音根据所述正文本样本对应的正样本分词生成；输出所述文本信息。2.根据权利要求1所述的方法，其特征在于，所述正语音样本的获取过程包括：对所述正文本样本进行切分，得到所述多个正样本分词；生成对应每个所述正样本分词的合成分词语音；对所述多个正样本分词对应的合成分词语音进行拼接，得到正语音样本。3.根据权利要求1所述的方法，其特征在于，所述正语音样本的获取过程包括：获取对应所述正文本样本中每个正样本分词的合成分词语音；对所述多个正样本分词对应的合成分词语音进行拼接，得到中间语音样本；对所述中间语音样本进行调整，得到调整后的语音样本，所述调整包括音色调整、音调调整以及话语人身份调整中的至少一者；获取并汇总所述调整后的语音样本以及所述中间语音样本，得到所述正语音样本。4.根据权利要求1所述的方法，其特征在于，所述语音识别模型的获取方法包括：获取所述正样本对以及所述负样本对；通过所述初始模型，确定对应所述正语音样本的正语音特征、对应所述正文本样本的正文本特征、对应所述负语音样本的负语音特征以及对应所述负文本样本的负文本特征；根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征，对所述初始模型进行对比学习，得到语音识别模型。5.根据权利要求4所述的方法，其特征在于，所述正语音特征的获取方法包括：通过所述初始模型中的语音编码器对所述正语音样本进行特征提取，得到正语音特征。6.根据权利要求4所述的方法，其特征在于，所述正文本特征的获取方法包括：通过所述初始模型中的文本编码器对所述正文本样本进行特征提取，得到正文本特征。7.根据权利要求4所述的方法，其特征在于，所述根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征，对所述初始模型进行对比学习，得到语音识别模型，包括：根据所述正语音特征以及所述正文本特征，确定表征所述正语音样本以及所述正文本样本之间的匹配程度的第一匹配度；根据所述负语音特征以及所述负文本特征，确定表征所述负语音样本以及所述负文本样本之间的匹配程度的第二匹配度；根据所述第一匹配度以及所述第二匹配度，确定第一损失值；所述根据所述正语音特征、所述正文本特征、所述负语音特征以及所述负文本特征，确
定第二损失值，所述第二损失值用于表征所述正样本对以及所述负样本对之间的差异程度；根据所述第一损失值以及所述第二损...

【专利技术属性】
技术研发人员：刘烨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人