获取目标声音的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26261167 阅读：37 留言：0更新日期：2020-11-06 17:57

本发明专利技术涉及获取目标声音的方法、装置、电子设备及存储介质，其中，获取目标声音的方法包括如下步骤：获取音视频；基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。本发明专利技术实施例的获取目标声音的方法，较为简单可行，能够较为便利的获取目标声音，进一步的利于定制声音的市场化推广。

全部详细技术资料下载

【技术实现步骤摘要】
获取目标声音的方法、装置、电子设备及存储介质
本专利技术涉及计算机
，具体涉及一种获取目标声音的方法、装置和电子设备以及计算机存储介质。
技术介绍
目前机器发出人声的技术已经非常成熟，由于声音合成的效果很好，已经达到无法区分是真人说话还是机器说话，所以诞生了定制声音的需求，比如汽车导航时，发出的导航的声音的是自己亲人的声音，但是目前每完成一个目标人的声音合成模型，需要目标人在安静的环境中录音至少1000句，大约要说2-3小时，录音需求门槛较高，限制了定制声音的市场化推广。
技术实现思路
为解决上述技术问题，本专利技术的一个目的在于提供一种获取目标声音的方法，该获取目标声音的方法，较为简单可行，能够较为便利的获取目标声音，进一步的利于定制声音的市场化推广。本专利技术的另一个目的在于提供一种实现上述获取目标声音的方法的获取目标声音的装置。为达到上述目的，本专利技术采用如下技术方案：根据本专利技术第一方面实施例的获取目标声音的方法，包括：获取音视频；基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。优选地，所述音视频为录制完成的音视频，所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据，具体包括：对所述音视频中的音频流进行聚类处理，获得各个声纹特征对应的声音数据；识别所述音视频中的视频流中的所有人脸特征；根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系，进而获取目标人的人...

【技术保护点】
1.一种获取目标声音的方法，其特征在于，包括：/n获取音视频；/n基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。/n

【技术特征摘要】
1.一种获取目标声音的方法，其特征在于，包括：
获取音视频；
基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

2.根据权利要求1所述的获取目标声音的方法，其特征在于，
所述音视频为录制完成的音视频，
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据，具体包括：
对所述音视频中的音频流进行聚类处理，获得各个声纹特征对应的声音数据；
识别所述音视频中的视频流中的所有人脸特征；
根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系，进而获取目标人的人脸特征以及对应于目标人的声音数据。

3.根据权利要求2所述的获取目标声音的方法，其特征在于，
所述对所述音视频中的音频流进行聚类处理，获得各个声纹特征对应的声音数据，具体包括：
对所述音视频中的音频流进行声音分离处理，得到包括多个单人声音的音频流；
对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征；
根据各个音频流段的声纹特征对所述音频流进行聚类处理，获得各个声纹特征对应的声音数据。

4.根据权利要求3所述的获取目标声音的方法，其特征在于，所述对所述音视频中的音频流进行声音分离处理之后还包括：
对所述音频流进行降噪处理。

5.根据权利要求1所述的获取目标声音的方法，其特征在于，
所述音视频为实时录制的音视频，
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据，具体包括：
识别获取的音视频段中的视频流中的所有人脸特征；
判断获取的所述音视频段中的音频流中是否有声音，当该音视频段中的音频流中有声音时，对该音视频段中的视频流进行识别获取说话人的人脸特征；
判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音；
当说话人为单人且该音视频段中的音频流中的声音为单人声音时，将该音视频段中的音频流中的声音数据与获取的说话人...

【专利技术属性】
技术研发人员：蔡勇，
申请(专利权)人：斑马网络技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人