音乐分离方法、装置及计算机可读存储介质制造方法及图纸

技术编号:21303938 阅读:30 留言:0更新日期:2019-06-12 09:08
本发明专利技术涉及语音语义技术领域,公开了一种音乐分离方法,该方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据,并基于所述训练数据,训练得到分离乐器声音模型。之后,该方法获取输入的待分离的混合音视频,利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本发明专利技术还提出一种音乐分离装置以及一种计算机可读存储介质。本发明专利技术能为音乐家调整视频、音频提供、便利,分离准确且人力资源消耗少。

Music Separation Method, Device and Computer Readable Storage Media

The invention relates to the field of speech semantics technology, and discloses a music separation method, which includes: acquiring initial sample data, which includes initial sample data of a variety of musical instruments, and the initial sample data of one instrument includes the initial sample sound of the instrument and the initial sample picture of the instrument; selecting different samples from the initial sample data. The initial sample data of the instruments are mixed to generate mixed audio data as training data. Based on the training data, the sound model of the separated instruments is trained. Then, the method acquires the input mixed audio and video to be separated, and separates the sound of the same instrument and the corresponding image of the sound of the same instrument from the mixed audio and video to be separated by using the sound model of the separated instrument after training. The invention also provides a music separation device and a computer readable storage medium. The invention can provide convenience for musicians to adjust video and audio, accurate separation and low consumption of human resources.

【技术实现步骤摘要】
音乐分离方法、装置及计算机可读存储介质
本专利技术涉及语音语义
,尤其涉及一种音乐分离方法、装置及计算机可读存储介质。
技术介绍
在人们的日常生活中,每天都会产生丰富的视觉和听觉资源。人类的视觉和听觉系统能及时有效的辨别不同的事物,识别看到的物件,并从复杂的环境中辨别定位物件发出的声音。例如,在观看一段乐器演奏的视频时,音乐家通常可以准确的辨别出不同乐器发出的声音。但如音乐家想要调节视频中乐器的音量,就必须将不同乐器的声音从音频中分离出来。深度学习技术被认为能够有效的学习出复杂事物之间的深层连接关系。然而,普通的基于深度学习的图像识别或声音分离的方法,通常需要很多如给图片或音频分类,标注等的人工监督。通常这类人工监督不仅需要耗费很多人力和时间,还需要扎实的专业知识支持。
技术实现思路
本专利技术提供一种音乐分离方法、装置及计算机可读存储介质,其主要目的在于实现了利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利,帮助音乐家准确的定位视频中的声源,能让音乐家轻松的做到乐器声音的提取,便于后期的学习和创作,具有分离准确且人力资源消耗少的优点。为实现上述目的,本专利技术还提供一种音乐分离方法,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。可选地,所述获取初始样本数据包括:采集每种乐器演奏的音视频数据;利用图像提取算法,从该种乐器演奏的音视频数据中获取该种乐器的视频数据及该种乐器的音频数据;从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面;从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。可选地,从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据包括:从所述初始样本数据中随机选取不同种的乐器的初始样本数据进行混合,生成混合音频数据作为训练数据。可选地,所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。为了实现上述目的,本专利技术还提供一种音乐分离装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的音乐分离程序,所述音乐分离程序被所述处理器执行时实现如下步骤:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。可选地,所述处理器具体用于:采集每种该种乐器演奏的音视频数据;利用图像提取算法,从该种乐器演奏的音视频数据中获取该种乐器的视频数据及该种乐器的音频数据;从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面;从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。可选地,所述处理器具体用于:从所述初始样本数据中选取多组数据,并将所述多种数据作为所述训练数据;其中每组数据包括一种或者多种乐器的初始样本数据。可选地,所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有音乐分离程序,所述音乐分离程序可被一个或者多个处理器执行,以实现如上所述的音乐分离方法的步骤。本专利技术获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面,生成混合音频数据,得到训练数据,并基于所述训练数据,训练得到分离乐器声音模型。获取输入的待分离的混合音视频,利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本专利技术利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利,帮助音乐家准确的定位视频中的声源,能让音乐家轻松的做到乐器声音的提取,便于后期的学习和创作,具有分离准确且人力资源消耗少的优点。附图说明图1为本专利技术一实施例提供的音乐分离方法的流程示意图;图2为本专利技术一实施例提供的音乐分离装置的内部结构示意图;图3为本专利技术一实施例提供的音乐分离装置中音乐分离程序的模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种音乐分离方法。参照图1所示,为本专利技术一实施例提供的音乐分离方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,音乐分离方法包括:S10、获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面。可选地,所述获取初始样本数据包括:采集该种乐器演奏的音视频数据;利用图像提取算法,从该种乐器演奏的音视频数据中获取该种乐器的视频数据及该种乐器的音频数据;从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面;从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。其中该种乐器的初始样本声音没有杂音,以便于后续训练过程中减少杂音对训练模型的影响。例如,在钢琴演奏现场,采集钢琴演奏的音视频数据,并按照上述方案得到钢琴的初始样本数据。S11、从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据。可选地,从所述初始样本数据中随机选取不同种的乐器的初始样本数据进行混合,生成混合音频数据作为训练数据。在一个或者多个实施例中,多种乐器的初始样本数据都是随机挑选的。这样可以训练数据多种化及复杂化,便于后续训练参数的训练。S12、并基于所述训练数据,训练得到分离乐器声音模型。可选地,所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。所述图像处理深度网络模型用于将视频画面进行区域划分及视觉特征提取,从而得到至少一个视觉区域,其中每个视觉区域对应一组视觉特征。所述声音处理深度网络模型用于将音频转换为频谱图,然后将频谱图分离为至少一个音轨。所述音频合成深度网络模型用于结合视觉区域和音轨,利用音频掩蔽方法确定每个视觉区域掩蔽后的频谱图,最后将频谱图转化为音频输出。在训练所述分离乐器声音模型时,所本文档来自技高网...

【技术保护点】
1.一种音乐分离方法,其特征在于,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。

【技术特征摘要】
1.一种音乐分离方法,其特征在于,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。2.如权利要求1所述的音乐分离方法,其特征在于,所述获取初始样本数据包括:采集每种乐器演奏的音视频数据;利用图像提取算法,从一种乐器演奏的音视频数据中获取该种乐器的视频数据及音频数据;从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面;从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。3.如权利要求1所述的音乐分离方法,其特征在于,所述从所述初始样本数据中选取多种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据包括:从所述初始样本数据中随机选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据。4.如权利要求1或3所述的音乐分离方法,其特征在于,所述分离乐器声音模型的训练过程包括:获取第一预设数量的训练数据;将所述第一预设数量的训练数据依次输入所述分离乐器声音模型,利用预设的训练算法训练所述分离乐器声音模型,并利用第二预设数量的训练数据校验训练后的分离乐器声音模型。5.如权利要求1-4任一项所述的音乐分离方法,其特征在于,所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合...

【专利技术属性】
技术研发人员:朱清影程宁王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1