The invention relates to the field of speech semantics technology, and discloses a music separation method, which includes: acquiring initial sample data, which includes initial sample data of a variety of musical instruments, and the initial sample data of one instrument includes the initial sample sound of the instrument and the initial sample picture of the instrument; selecting different samples from the initial sample data. The initial sample data of the instruments are mixed to generate mixed audio data as training data. Based on the training data, the sound model of the separated instruments is trained. Then, the method acquires the input mixed audio and video to be separated, and separates the sound of the same instrument and the corresponding image of the sound of the same instrument from the mixed audio and video to be separated by using the sound model of the separated instrument after training. The invention also provides a music separation device and a computer readable storage medium. The invention can provide convenience for musicians to adjust video and audio, accurate separation and low consumption of human resources.
【技术实现步骤摘要】
音乐分离方法、装置及计算机可读存储介质
本专利技术涉及语音语义
,尤其涉及一种音乐分离方法、装置及计算机可读存储介质。
技术介绍
在人们的日常生活中,每天都会产生丰富的视觉和听觉资源。人类的视觉和听觉系统能及时有效的辨别不同的事物,识别看到的物件,并从复杂的环境中辨别定位物件发出的声音。例如,在观看一段乐器演奏的视频时,音乐家通常可以准确的辨别出不同乐器发出的声音。但如音乐家想要调节视频中乐器的音量,就必须将不同乐器的声音从音频中分离出来。深度学习技术被认为能够有效的学习出复杂事物之间的深层连接关系。然而,普通的基于深度学习的图像识别或声音分离的方法,通常需要很多如给图片或音频分类,标注等的人工监督。通常这类人工监督不仅需要耗费很多人力和时间,还需要扎实的专业知识支持。
技术实现思路
本专利技术提供一种音乐分离方法、装置及计算机可读存储介质,其主要目的在于实现了利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利,帮助音乐家准确的定位视频中的声源,能让音乐家轻松的做到乐器声音的提取,便于后期的学习和创作,具有分离准确且人力资源消耗少的优点。为实现上述目的,本专利技术还提供一种音乐分离方法,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声 ...
【技术保护点】
1.一种音乐分离方法,其特征在于,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。
【技术特征摘要】
1.一种音乐分离方法,其特征在于,所述方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据;基于所述训练数据,训练得到分离乐器声音模型;获取输入的待分离的混合音视频;利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。2.如权利要求1所述的音乐分离方法,其特征在于,所述获取初始样本数据包括:采集每种乐器演奏的音视频数据;利用图像提取算法,从一种乐器演奏的音视频数据中获取该种乐器的视频数据及音频数据;从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面;从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。3.如权利要求1所述的音乐分离方法,其特征在于,所述从所述初始样本数据中选取多种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据包括:从所述初始样本数据中随机选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据。4.如权利要求1或3所述的音乐分离方法,其特征在于,所述分离乐器声音模型的训练过程包括:获取第一预设数量的训练数据;将所述第一预设数量的训练数据依次输入所述分离乐器声音模型,利用预设的训练算法训练所述分离乐器声音模型,并利用第二预设数量的训练数据校验训练后的分离乐器声音模型。5.如权利要求1-4任一项所述的音乐分离方法,其特征在于,所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合...
【专利技术属性】
技术研发人员:朱清影,程宁,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。