获取目标声音的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26261167 阅读:37 留言:0更新日期:2020-11-06 17:57
本发明专利技术涉及获取目标声音的方法、装置、电子设备及存储介质,其中,获取目标声音的方法包括如下步骤:获取音视频;基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。本发明专利技术实施例的获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

【技术实现步骤摘要】
获取目标声音的方法、装置、电子设备及存储介质
本专利技术涉及计算机
,具体涉及一种获取目标声音的方法、装置和电子设备以及计算机存储介质。
技术介绍
目前机器发出人声的技术已经非常成熟,由于声音合成的效果很好,已经达到无法区分是真人说话还是机器说话,所以诞生了定制声音的需求,比如汽车导航时,发出的导航的声音的是自己亲人的声音,但是目前每完成一个目标人的声音合成模型,需要目标人在安静的环境中录音至少1000句,大约要说2-3小时,录音需求门槛较高,限制了定制声音的市场化推广。
技术实现思路
为解决上述技术问题,本专利技术的一个目的在于提供一种获取目标声音的方法,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。本专利技术的另一个目的在于提供一种实现上述获取目标声音的方法的获取目标声音的装置。为达到上述目的,本专利技术采用如下技术方案:根据本专利技术第一方面实施例的获取目标声音的方法,包括:获取音视频;基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。优选地,所述音视频为录制完成的音视频,所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;识别所述音视频中的视频流中的所有人脸特征;根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。优选地,所述对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据,具体包括:对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流;对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征;根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。优选地,所述对所述音视频中的音频流进行声音分离处理之后还包括:对所述音频流进行降噪处理。优选地,所述音视频为实时录制的音视频,所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:识别获取的音视频段中的视频流中的所有人脸特征;判断获取的所述音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征;判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音;当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人的人脸特征相对应;当说话人为多人且该音视频段中的音频流中的声音为多人声音时,对该音视频段中的音频流进行分离处理得到包括多个单人声音的音频流,根据已获取的声音数据与人脸特征的对应关系,将能够与说话人的人脸特征相关联的该音视频段中的音频流中的声音数据与人脸特征相对应;基于获取的各个音视频段获取目标人的人脸特征以及对应于目标人的声音数据。优选地,所述对该音视频段中的视频流进行识别获取说话人的人脸特征,具体包括:对该音视频段中的视频流进行识别获取说话人的人脸特征以及说话人所在的位置,并通过声源定位对说话人所在的位置进行确认。根据本专利技术第二方面实施例的获取目标声音的装置,包括:第一获取模块,用于获取音视频;第二获取模块,用于基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。优选地,所述音视频为录制完成的音视频,所述第二获取模块具体用于,对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;识别所述音视频中的视频流中的所有人脸特征;根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。根据本专利技术第三方面实施例的用于获取目标声音的电子设备,包括:一个或多个处理器;一个或多个存储器,其中存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器执行时进行如下处理:获取音视频;基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。根据本专利技术第四方面实施例的计算机存储介质,其中存储了计算机可读代码,所述计算机可读代码当由一个或多个处理器执行时进行如下处理:获取音视频;基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。本专利技术的有益效果在于:通过获取音视频,然后基于获取的音视频获取目标人的人脸特征以及对应于目标人的声音数据,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术实施例的获取目标声音的一种应用场景示意图;图2为本专利技术实施例的获取目标声音的方法的流程图;图3为本专利技术实施例的获取目标声音的装置的结构示意图;图4为本专利技术实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例仅用于说明本专利技术,但不用来限制本专利技术的范围。可以理解的是,如本文所使用的,术语“模块””可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件,或者可以作为这些硬件组件的一部分。可以理解的是,在本专利技术各实施例中,处理器可以是微处理器、数字信号处理器、微控制器等,和/或其任何组合。根据另一个方面,所述处理器可以是单核处理器,多核处理器等,和/或其任何组合。如图1所示,根据本专利技术实施例的本申请技术方案的一种应用场景示意图,在汽车11导航时,用户希望发出的导航的声音的是自己亲人的声音,然而目前每完成一个目标人的声音合成模型,需要目标人在安静的环境中录音至少1000句,大约要说2-3小时,录音需求门槛较高,本专利技术的获取目标声音时,首先获取音视频,然后基于音视频获取目标人的人脸特征以及对应于目标人的声音数据,较为简单可行,且能够较为便利的获取目标声音。如图2所示,根据本专利技术实施例的获取目标声音的方法,包括如下步骤:步骤S1,获取音视频。步骤S2,基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。优选地,所述音视频为录制完成的音视频,所述步骤S2具体包括:步骤S21,对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据。优选地,步骤S21具体包括:步骤S211,对所述音视频中的音频流进行声本文档来自技高网...

【技术保护点】
1.一种获取目标声音的方法,其特征在于,包括:/n获取音视频;/n基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。/n

【技术特征摘要】
1.一种获取目标声音的方法,其特征在于,包括:
获取音视频;
基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。


2.根据权利要求1所述的获取目标声音的方法,其特征在于,
所述音视频为录制完成的音视频,
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:
对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;
识别所述音视频中的视频流中的所有人脸特征;
根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。


3.根据权利要求2所述的获取目标声音的方法,其特征在于,
所述对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据,具体包括:
对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流;
对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征;
根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。


4.根据权利要求3所述的获取目标声音的方法,其特征在于,所述对所述音视频中的音频流进行声音分离处理之后还包括:
对所述音频流进行降噪处理。


5.根据权利要求1所述的获取目标声音的方法,其特征在于,
所述音视频为实时录制的音视频,
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:
识别获取的音视频段中的视频流中的所有人脸特征;
判断获取的所述音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征;
判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音;
当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人...

【专利技术属性】
技术研发人员:蔡勇
申请(专利权)人:斑马网络技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1