语料获取方法、装置、电子设备和存储介质制造方法及图纸

技术编号：33344729 阅读：18 留言：0更新日期：2022-05-08 09:37

本申请实施例公开了一种语料获取方法、装置、电子设备及存储介质。本申请实施例通过获取源用户的源语音数据，提取源语音数据的语音特征，得到第一语音特征，获取待匹配视频片段，根据待匹配视频片段获取待匹配语音数据，提取待匹配语音数据的语音特征，得到第二语音特征，基于第一语音特征和第二语音特征进行语音特征的相似度匹配，若根据匹配结果确定待匹配语音数据满足预设条件，则确定待匹配语音数据为源用户的语料数据。以此，通过源语音数据的语音特征从获取的待匹配视频片段确定满足预设条件的待匹配语音数据，从而可以大量、快速获取源用户的语料数据。获取源用户的语料数据。获取源用户的语料数据。

全部详细技术资料下载

【技术实现步骤摘要】
语料获取方法、装置、电子设备和存储介质

[0001]本申请涉及语音处理
，更具体地，涉及一种语料获取方法、装置、电子设备和存储介质。

技术介绍

[0002]如今，个性化语音交互在日常生活中越来越常见，在语音交互场景中需求越来越高。个性化语音交互需要预先收集不同用户的语料数据，但现有的技术中获取语料数据的方法通常是通过专门录音、购买等方式获得所需场景的语料数据，从而导致获取到的语料数据的数量少，且获取语料数据的效率低下。

技术实现思路

[0003]鉴于上述问题，本申请提出了一种语料获取方法、装置、电子设备及存储介质，可以有效提高获取语料数据的效率，同时节约人力成本。
[0004]第一方面，本申请实施例提供了一种语料获取方法，该方法包括：通过获取源用户的源语音数据，提取源语音数据的语音特征，得到第一语音特征，获取待匹配视频片段，根据待匹配视频片段获取待匹配语音数据，提取待匹配语音数据的语音特征，得到第二语音特征，基于第一语音特征和第二语音特征进行语音特征的相似度匹配，若根据匹配结果确定待匹配语音数据满足预设条件，则确定待匹配语音数据为源用户的语料数据。
[0005]第二方面，本申请实施例提供了一种语料获取装置，该装置包括源语音获取模块、第一语音特征获取模块、待匹配视频片段获取模块、待匹配语音获取模块、第二语音特征获取模块、相似度匹配模块和存储模块，具体地：
[0006]源语音获取模块，用于获取源用户的源语音数据；
[0007]第一语音特征获取模块，用于提取源语音数据的...

【技术保护点】

【技术特征摘要】
1.一种语料获取方法，其特征在于，所述方法包括：获取源用户的源语音数据；提取所述源语音数据的语音特征，得到第一语音特征；获取待匹配视频片段；根据所述待匹配视频片段获取待匹配语音数据；提取所述待匹配语音数据的语音特征，得到第二语音特征；基于所述第一语音特征和所述第二语音特征进行语音特征的相似度匹配；若根据匹配结果确定所述待匹配语音数据满足预设条件，则确定所述待匹配语音数据为所述源用户的语料数据。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音特征和所述第二语音特征进行语音特征的相似度匹配，包括：确定所述第一语音特征和所述第二语音特征的相似度匹配值。3.根据权利要求2所述的方法，其特征在于，所述根据匹配结果确定所述待匹配语音数据满足所述预设条件，包括：所述相似度匹配值大于预设匹配阈值，则确定所述待匹配语音数据满足预设条件。4.根据权利要求1所述的方法，其特征在于，所述获取源用户的源语音数据之后，还包括：若响应于搜索选择操作，则判断所述源语音数据是否满足第一预设搜索条件；所述提取所述源语音数据的语音特征，得到第一语音特征，包括：若所述源语音数据满足所述第一预设搜索条件，则提取所述源语音数据的语音特征，得到第一语音特征。5.根据权利要求4所述的方法，其特征在于，所述提取所述源语音数据的语音特征，得到第一语音特征，还包括：若所述源语音数据不满足所述第一预设搜索条件，则对所述源语音数据进行修正处理；提取修正处理后的所述源语音数据的语音特征，得到第一语音特征。6.根据权利要求5所述的方法，其特征在于，所述对所述源语音数据进行修正处理，包括：对所述源语音数据进行噪音修正处理得到第一语音数据，以去除所述源语音数据中的噪音数据；判断所述第一语音数据是否满足第二预设搜索条件；若所述第一语音数据不满足所述第二预设搜索条件，则舍弃所述源语音数据；若所述第一语音数据满足所述第二预设搜索条件，则对所述第一语音数据进行背景音修正处理得到第二语音数据，以去除所述第一语音数据中的背景音数据；所述提取修正处理后的所述源语音数据的语音特征，得到第一语音特征，包...

【专利技术属性】
技术研发人员：崔洋洋，余俊澎，
申请(专利权)人：游密科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人