一种多媒体文件生成方法及其设备技术

技术编号：14532760 阅读：106 留言：0更新日期：2017-02-02 15:33

本发明专利技术实施例公开一种多媒体文件生成方法及其设备，其中方法包括如下步骤：获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；根据所述目标清唱频谱特征生成所述目标清唱音频数据；提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。采用本发明专利技术，可以自动生成音频简谱文件，保证音频简谱文件的准确性，提升音频简谱文件的制作效率。

Method and apparatus for generating multimedia file

The embodiment of the invention discloses a multimedia file generation method and device thereof, wherein the method comprises the following steps: raw audio data acquisition target audio identifier corresponding to the original target and obtain the target spectral characteristics of the original audio data extraction model; pre training based on audio, and the original spectral characteristics of the target object is calculated a cappella the spectral characteristics of the target audio data of the target audio - Identification of the corresponding target; according to the spectrum characteristics of the target to generate a cappella cappella audio data; extracting pitch information of the target audio data acquisition a cappella, the fundamental information corresponding to the note value, and the value of the Notes file generated by the target audio system according to the corresponding audio identification. By adopting the invention, the audio numbered musical notation files can be automatically generated, the accuracy of the audio numbered musical notation files can be guaranteed, and the production efficiency of the audio numbered musical notation files can be improved.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种多媒体文件生成方法及其设备。
技术介绍
目前，集合群聊、视频直播、K歌、应用游戏、在线影视等功能为一体的综合型的娱乐用户端已被广泛应用于个人电脑、手机等用户终端。在实际应用中，用户可以通过娱乐用户端进行歌曲演唱，并由服务器端对演唱歌曲进行评价打分等，实现了歌曲演唱的互动功能。现有技术中，服务器端可以预先存储有演唱歌曲的音频简谱文件，音频简谱文件中描述有关于演唱歌曲对应的原唱歌手在演绎该歌曲的音高走势等，服务器端可以根据音频简谱文件对用户的演唱歌曲进行打分，同时音频简谱文件还可以用于提供可视化音符参考曲线以及对用户的演唱歌曲进行修音等。然而现有的音频简谱文件均是采用人工方式进行制作，容易导致音频简谱文件存在错误的情况发生，影响了音频简谱文件的准确性，同时需要耗费较多的人力资源以及时间资源，降低了音频简谱文件的制作效率。
技术实现思路
本专利技术实施例提供一种多媒体文件生成方法及其设备，可以自动生成音频简谱文件，保证音频简谱文件的准确性，提升音频简谱文件的制作效率。本专利技术实施例第一方面提供了一种多媒体文件生成方法，可包括：获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；根据所述目标清唱频谱特征生成所述目标清唱音频数据；提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。本专利技术实施例第二方面提供...

【技术保护点】
一种多媒体文件生成方法，其特征在于，包括：获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；根据所述目标清唱频谱特征生成所述目标清唱音频数据；提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。

【技术特征摘要】
1.一种多媒体文件生成方法，其特征在于，包括：获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；根据所述目标清唱频谱特征生成所述目标清唱音频数据；提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。2.根据权利要求1所述的方法，其特征在于，所述获取目标音频标识对应的目标原始音频数据之前，还包括：在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征；创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数。3.根据权利要求2所述的方法，其特征在于，所述获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征，包括：获取目标音频标识对应的目标原始音频数据，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据；获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱；根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征。4.根据权利要求3所述的方法，其特征在于，所述基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征，包括：采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。5.根据权利要求4所述的方法，其特征在于，所述根据所述目标清唱频谱特征生成所述目标清唱音频数据，包括：根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱；将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据。6.根据权利要求5所述的方法，其特征在于，所述提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件，包括：采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段；提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点；对所述至少一个基频点中各基频点的基频值进行调整，并将调整后的所述各基频点的基频值转换为所述各基频点的音符值；将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，获取所述至少一个音符点中各音符点的简谱信息，所述简谱信息包括起始时间、持续时间和音符值；对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件。7.根据权利要求6所述的方法，其特征在于，所述对所述至少一个基频点中各基频点的基频值进行调整，包括：对所述至少一个基频点中的奇异基频点的基频值进行置零处理；对所述各基频段进行中值滤波处理；在所述各基频段中，将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值。8.根据权利要求6所述的方法，其特征在于，所述对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件，包括：对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱参考文件；当在所述各音符点中存在第一音符点的音符值满足预设调整条件时，按照预设调整规则在所述音频简谱文件中删除所述第一音符点的简谱信息，以生成所述目标音频标识对应的音频简谱文件。9.根据权利要求8所述的方法，其特征在于，所述预设调整条件包括：所述第一音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值大于或等于第一预设差值；和，所述第一音符点的音符值与所述第一音符点的上一个音符点的音符值的差的绝对值大于或等于第二预设差值；和，所述第一音符点的上一个音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值小于或等于第三预设差值。10.根据权利要求8所述的方法，其特征在于，所述预设调整规则包括：若所述第一音符点的起始时间为所述第一音符点的上一个音符点的起始时间和持续时间之和，则将所述第一音符点和所述上一个音符点进行合并，并删除所述第一音符点的简谱信息；若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和，且所述第一音符点的下一个音符点的起始时间为述第一音符点的起始时间和持续时间之和，则将所述第一音符点和所述下一个音符点进行合并，并删除所述第一音符点的简谱信息；若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和，且所述第一音符点的下一个音符点的起始时间不为述第一音符点的起始时间和持续时间之和，则删除所述第一音符点...

【专利技术属性】
技术研发人员：赵伟峰，
申请(专利权)人：腾讯音乐娱乐深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人