语料获取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33344729 阅读:18 留言:0更新日期:2022-05-08 09:37
本申请实施例公开了一种语料获取方法、装置、电子设备及存储介质。本申请实施例通过获取源用户的源语音数据,提取源语音数据的语音特征,得到第一语音特征,获取待匹配视频片段,根据待匹配视频片段获取待匹配语音数据,提取待匹配语音数据的语音特征,得到第二语音特征,基于第一语音特征和第二语音特征进行语音特征的相似度匹配,若根据匹配结果确定待匹配语音数据满足预设条件,则确定待匹配语音数据为源用户的语料数据。以此,通过源语音数据的语音特征从获取的待匹配视频片段确定满足预设条件的待匹配语音数据,从而可以大量、快速获取源用户的语料数据。获取源用户的语料数据。获取源用户的语料数据。

【技术实现步骤摘要】
语料获取方法、装置、电子设备和存储介质


[0001]本申请涉及语音处理
,更具体地,涉及一种语料获取方法、装置、电子设备和存储介质。

技术介绍

[0002]如今,个性化语音交互在日常生活中越来越常见,在语音交互场景中需求越来越高。个性化语音交互需要预先收集不同用户的语料数据,但现有的技术中获取语料数据的方法通常是通过专门录音、购买等方式获得所需场景的语料数据,从而导致获取到的语料数据的数量少,且获取语料数据的效率低下。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种语料获取方法、装置、电子设备及存储介质,可以有效提高获取语料数据的效率,同时节约人力成本。
[0004]第一方面,本申请实施例提供了一种语料获取方法,该方法包括:通过获取源用户的源语音数据,提取源语音数据的语音特征,得到第一语音特征,获取待匹配视频片段,根据待匹配视频片段获取待匹配语音数据,提取待匹配语音数据的语音特征,得到第二语音特征,基于第一语音特征和第二语音特征进行语音特征的相似度匹配,若根据匹配结果确定待匹配语音数据满足预设条件,则确定待匹配语音数据为源用户的语料数据。
[0005]第二方面,本申请实施例提供了一种语料获取装置,该装置包括源语音获取模块、第一语音特征获取模块、待匹配视频片段获取模块、待匹配语音获取模块、第二语音特征获取模块、相似度匹配模块和存储模块,具体地:
[0006]源语音获取模块,用于获取源用户的源语音数据;
[0007]第一语音特征获取模块,用于提取源语音数据的语音特征,得到第一语音特征;
[0008]待匹配视频片段获取模块,用于获取待匹配视频片段;
[0009]待匹配语音获取模块,用于根据待匹配视频片段获取待匹配语音数据;
[0010]第二语音特征获取模块,用于提取待匹配语音数据的语音特征,得到第二语音特征;
[0011]相似度匹配模块,用于基于第一语音特征和第二语音特征进行语音特征的相似度匹配;
[0012]存储模块,用于若根据匹配结果确定待匹配语音数据满足预设条件,则确定待匹配语音数据为源用户的语料数据。
[0013]第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器、存储器以及一个或多个应用程序。其中,一个或多个应用程序被存储在存储器中并被配置由一个或多个处理器执行,一个或多个程序配置用于执行上述语料获取方法。
[0014]第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述语料获取方法。
[0015]本申请提供的技术方案中,本申请实施例通过获取源用户的源语音数据,提取源语音数据的语音特征,得到第一语音特征,获取待匹配视频片段,根据待匹配视频片段获取待匹配语音数据,提取待匹配语音数据的语音特征,得到第二语音特征,基于第一语音特征和第二语音特征进行语音特征的相似度匹配,若根据匹配结果确定待匹配语音数据满足预设条件,则确定待匹配语音数据为源用户的语料数据。以此,通过源语音数据的语音特征从获取的待匹配视频片段确定满足预设条件的待匹配语音数据,从而可以大量、快速获取源用户的语料数据。
附图说明
[0016]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的语料获取方法的一种流程示意图。
[0018]图2是本申请实施例提供的语料获取方法的另一种流程示意图。
[0019]图3是本申请实施例提供的语料获取装置的结构示意图。
[0020]图4是本申请实施例提供的电子设备的结构示意图。
[0021]图5是本申请实施例提供的计算机可读取存储介质的结构示意图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]语音转换是指将源说话人的语音转换成目标说话人的音色,而不改变源说话人内容的技术。例如,通过语音转换技术将张三的声音变成王五的声音,但不改变张三说话的具体内容。
[0024]现如今,语音转换在日常生活中越来越常见,同时随着人机语音交互应用的发展,个性化语音生成已经成为语音交互场景中重要的需求。例如:与朋友进行语音通话、游戏中与其他人语音连麦等情况下,可以通过语音转换技术生成个性化语音,改变自己的音色,从而实现个性化语音交互,增加通话过程中的趣味性。而在语音转换技术中的一个重要的方面便是如何生成个性化音色的语音,即如何为用户提供生成语音音色的个性化定制服务。
[0025]但在对现有技术进行大量研究和实践后,本申请的专利技术人发现,生成个性化音色的语音需要预先收集不同用户的语料数据,但现有的技术中获取语料数据的方法通常是通过专门录音、购买等方式获得所需场景的语料数据,从而导致获取到的语料数据的数量少,且获取语料数据的效率低下。
[0026]为解决上述问题,本申请实施例提供了一种语料数据获取方法,通过获取源用户的源语音数据,提取源语音数据的语音特征,得到第一语音特征,获取待匹配视频片段,根据待匹配视频片段获取待匹配语音数据,提取待匹配语音数据的语音特征,得到第二语音
特征,基于第一语音特征和第二语音特征进行语音特征的相似度匹配,若根据匹配结果确定待匹配语音数据满足预设条件,则确定待匹配语音数据为源用户的语料数据。以此,通过源语音数据的语音特征从获取的待匹配视频片段确定满足预设条件的待匹配语音数据,从而可以大量、快速获取源用户的语料数据。
[0027]下面将通过具体实施例来进行详细介绍。
[0028]在本实施例中,将从语料获取装置的角度进行描述,该语料获取装置具体可以集成在笔记本电脑、台式电脑、平板电脑、智能手机、智能电视等具备储存单元并安装有微处理器而具有运算能力的终端设备中,该终端设备可以用于获取与源用户的语音特征匹配的语料数据。
[0029]请参阅图1,图1是本申请实施例提供的语料获取方法的流程示意图。该语料获取方法包括步骤110至步骤170。
[0030]在步骤110中,获取源用户的源语音数据。
[0031]在本申请的实施例中,终端设备可以获取源用户的源语音数据,源语音数据为源用户对应的语音数据。不同用户对应的语音数据的语音特征不同,例如说话的方式、音色、语调等。根据用户的语音数据可以确定该用户对应的语音特征,进而根据收集到符合该用户语音特征的语料数据进行语音转换等。本申请的实施例通过获取源用户的源语音数据,以根据源语音数据快速、大量获取源用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料获取方法,其特征在于,所述方法包括:获取源用户的源语音数据;提取所述源语音数据的语音特征,得到第一语音特征;获取待匹配视频片段;根据所述待匹配视频片段获取待匹配语音数据;提取所述待匹配语音数据的语音特征,得到第二语音特征;基于所述第一语音特征和所述第二语音特征进行语音特征的相似度匹配;若根据匹配结果确定所述待匹配语音数据满足预设条件,则确定所述待匹配语音数据为所述源用户的语料数据。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音特征和所述第二语音特征进行语音特征的相似度匹配,包括:确定所述第一语音特征和所述第二语音特征的相似度匹配值。3.根据权利要求2所述的方法,其特征在于,所述根据匹配结果确定所述待匹配语音数据满足所述预设条件,包括:所述相似度匹配值大于预设匹配阈值,则确定所述待匹配语音数据满足预设条件。4.根据权利要求1所述的方法,其特征在于,所述获取源用户的源语音数据之后,还包括:若响应于搜索选择操作,则判断所述源语音数据是否满足第一预设搜索条件;所述提取所述源语音数据的语音特征,得到第一语音特征,包括:若所述源语音数据满足所述第一预设搜索条件,则提取所述源语音数据的语音特征,得到第一语音特征。5.根据权利要求4所述的方法,其特征在于,所述提取所述源语音数据的语音特征,得到第一语音特征,还包括:若所述源语音数据不满足所述第一预设搜索条件,则对所述源语音数据进行修正处理;提取修正处理后的所述源语音数据的语音特征,得到第一语音特征。6.根据权利要求5所述的方法,其特征在于,所述对所述源语音数据进行修正处理,包括:对所述源语音数据进行噪音修正处理得到第一语音数据,以去除所述源语音数据中的噪音数据;判断所述第一语音数据是否满足第二预设搜索条件;若所述第一语音数据不满足所述第二预设搜索条件,则舍弃所述源语音数据;若所述第一语音数据满足所述第二预设搜索条件,则对所述第一语音数据进行背景音修正处理得到第二语音数据,以去除所述第一语音数据中的背景音数据;所述提取修正处理后的所述源语音数据的语音特征,得到第一语音特征,包...

【专利技术属性】
技术研发人员:崔洋洋余俊澎
申请(专利权)人:游密科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1