对音视频进行处理的方法和装置制造方法及图纸

技术编号：20730254 阅读：38 留言：0更新日期：2019-03-30 19:37

本申请公开了一种对音视频进行处理的方法和装置，属于数据处理领域。所述方法包括：获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。采用本申请，可以提高合成的效率。

全部详细技术资料下载

【技术实现步骤摘要】
对音视频进行处理的方法和装置
本申请涉及数据处理领域，特别涉及一种对音视频进行处理的方法和装置。
技术介绍
一首歌曲可以有多种不同版本的音频，如原唱版本、翻唱版本、现场演唱版本等，有时涉及到音频与视频合成的使用场景，如用户可以将自己翻唱某歌曲的音频整合到原唱的MV视频中，或者用户将原唱版本的音频整合到自己录制的翻唱视频中。在合成时，需要将音频与视频对齐，否则合成后的视频会出现音频与视频中的字幕不对应、或者音频与视频中的人的口型不对应等情况，导致合成的视频效果很差。在实现本申请的过程中，专利技术人发现现有技术至少存在以下问题：目前，音频与视频对齐合成的方法一般是人工合成，即用户可以将待合成音频分成多段，然后在视频对应的音频(可称为基准音频数据)中找到与每段待合成音频大致相似的一个音频段数据，使用待合成音频替换待替换音频。但人工合成的方式用户需要进行大量操作，合成的速度较慢，使得合成的效率较低。
技术实现思路
为了解决现有技术的问题，本申请实施例提供了一种对音视频进行处理的方法和装置。所述技术方案如下：第一方面，提供了一种对音视频进行处理的方法，所述方法包括：获取待合成视...

【技术保护点】
1.一种对音视频进行处理的方法，其特征在于，所述方法包括：获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。

【技术特征摘要】
1.一种对音视频进行处理的方法，其特征在于，所述方法包括：获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。2.根据权利要求1所述的方法，其特征在于，所述获取所述基准音频数据中包含的多个第一子数据，包括：获取所述基准音频数据的特征数据；在所述基准音频数据的特征数据中，每隔预设时间步长选取预设时长的第一子数据，得到多个第一子数据；所述获取待合成音频数据中包含的多个第二子数据，包括：获取所述待合成音频数据的特征数据；在所述待合成音频数据的特征数据中，每隔所述预设时间步长选取所述预设时长的第二子数据，得到多个第二子数据。3.根据权利要求1所述的方法，其特征在于，所述分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合，包括：分别确定每个第一子数据与每个第二子数据之间的余弦距离，得到第一特征距离矩阵；分别确定每个第一子数据与每个第二子数据之间的闵氏距离，得到第二特征距离矩阵；将所述第一特征距离矩阵与所述第二特征距离矩阵进行矩阵点乘运算，得到综合特征距离矩阵，作为相似度集合，其中，所述综合特征距离矩阵中的每个元素分别对应每个第一子数据与每个第二子数据之间的相似度。4.根据权利要求1所述的方法，其特征在于，所述基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据，包括：基于所述相似度集合，分别确定与每个第一子数据相匹配的第二子数据，得到第一子数据与第二子数据的对应关系；根据所述第一子数据与第二子数据的对应关系，确定所述第一子数据的时间点与第二子数据的时间点的对应关系，其中，所述第一子数据的时间点为所述第一子数据在所述基准音频数据中对应的音频段数据的中心时间点，所述第二子数据的时间点为所述第二子数据在所述待合成音频数据中对应的音频段数据的中心时间点；根据所述第一子数据的时间点与第二子数据的时间点的对应关系，对所述待合成音频数据进行调整，得到调整后的待合成音频数据。5.根据权利要求3所述的方法，其特征在于，所述基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据，包括：在所述综合特征距离矩阵中，确定第一矩阵元素与第二矩阵元素之间的综合特征距离总和最小的最优路径，其中，所述第一矩阵元素是时间最先的第一子数据和第二子数据对应的矩阵元素，所述第二矩阵元素是时间最后的第一子数据和第二子数据对应的矩阵元素；确定所述最优路径在所述综合特征距离矩阵中对应的折线，其中，所述折线由至少一个线段组成；对于所述折线中的每个线段，确定所述线段的两个端点处的矩阵元素对应的两个第一子数据，确定所述两个第一子数据在基准音频数据中对应的第一音频段数据的第一起始时间点和第一终止时间点，确定所述线段的两个端点处的矩阵元素对应的两个第二子数据，确定所述两个第二子数据在待合成音频数据中对应的第二音频段数据的第二起始时间点和第二终止时间点，根据所述第一起始时间点、所述第一终止时间点、所述第二起始时间点和所述第二终止时间点，调整所述第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与所述第一起始时间点、第一终止时间点相同；将所述折线中所有线段对应的调整后的第二音频段数据，按照时间顺序进行排列组合，得到调整后的待合成音频数据。6.根据权利要求5所述的方法，其特征在于，所述根据所述第一起始时间点、所述第一终止时间点、所述第二起始时间点和所述第二终止时间点，调整所述第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与所述第一起始时间点、第一终止时间点相同，包括：如果所述第一起始时间点与所述第一终止时间点的差值为0，且所述第二起始时间点和所述第二终止时间点的差值不为0，则删除所述第二音频段数据；如果所述第一起始时间点与所述第一终止时间点的差值不为0，且所述第二起始时间点和所述第二终止时间点的差值为0，则在预设补充音频中截取时长为所述第一起始时间点与所述第一终止时间点的差值的补充音频，将其确定为新增第二音频段数据，且将所述新增第二音频段数据的起始时间点和终止时间点分别设定为所述第一起始时间点与所述第一终止时间点；如果所述第一起始时间点与所述第一终止时间点的差值不为0，所述第二起始时间点和所述第二终止时间点的差值不为0，且所述第一起始时间点与所述第一终止时间点的差值等于第二起始时间点和所述第二终止时间点的差值，则将所述第二音频段数据的起始时间点和终止时间点分别修改为所述第一起始时间点与所述第一终止时间点；如果所述第一起始时间点与所述第一终止时间点的差值不为0，所述第二起始时间点和所述第二终止时间点的差值不为0，且所述第一起始时间点与所述第一终止时间点的差值不等于所述第二起始时间点和所述第二终止时间点的差值，则将所述第二音频段数据进行缩放处理，使得缩放后的第二音频段数据的时长等于所述第一音频段数据的时长，将缩放后的第二音频段数据的起始时间点和终止时间点分别设定为所述第一起始时间点与所述...

【专利技术属性】
技术研发人员：黄安麒，李深远，董治，吕孟叶，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人