一种字幕定位方法、电子设备及介质技术

技术编号：32359357 阅读：16 留言：0更新日期：2022-02-20 03:24

本申请公开了一种字幕定位方法、电子设备及介质，将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置；其中，音频指纹库中记录了歌曲和歌曲指纹信息的对应关系。根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定出视频文件中每句歌词对应的视频片段。从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片，只需对待分析帧图片进行字幕定位，依赖于待分析帧图片中的字幕信息可以快速确定出每个视频片段中其余帧图片的字幕信息，在保证字幕定位准确性的同时，极大的降低了字幕定位所花费的时间。降低了字幕定位所花费的时间。降低了字幕定位所花费的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕定位方法、电子设备及介质

[0001]本申请涉及视频处理
，特别涉及一种字幕定位方法、电子设备及计算机可读存储介质。

技术介绍

[0002]随着移动互联网的普及，用户在手机上浏览信息的时间要远大于其他媒介。而手机更适合竖版视频浏览，但是现有的音乐短片(Music Video，MV)大多数为横版，这就需要我们裁剪出竖版视频。裁剪过程要避免将视频中的歌词字幕截断的问题，因此需要对原有歌词字幕进行消除，而歌词字幕的定位是字幕消除的前提条件。
[0003]目前视频中的歌词字幕定位方案大多将视频转化为图片序列，再逐帧进行歌词字幕的检测。歌词字幕的检测技术主要包括基于传统边缘检测的方法和基于深度学习的方法。
[0004]传统边缘检测的方法高度依赖经验参数的设计，在大规模数据上检测准确率不高。基于深度学习的方法，如果采用逐帧检测的方式，将耗费较长的时间，比如，一个4分钟，每秒的帧数为25的视频包括6000帧图片，即使采用最快的深度学习模型也需要10分钟。为了减少运算时间，在将视频拆分成带时序的图片之后，可以对这些图片聚类后再抽样进行字幕检测。但是如果被抽取的图片中没有字幕，就会导致该片段字幕漏检，并且对于字幕颜色与背景颜色接近的情况也会导致漏检。此外深度学习模型会产生较多的误检测，如将背景文字、广告文字、衣服上的文字等误检为歌词字幕。
[0005]可见，如何在保证字幕定位准确性的同时，降低字幕定位所花费的时间，是本领域技术人员需要解决的问题。

技术实现思路

[0006]有鉴于此...

【技术保护点】

【技术特征摘要】
1.一种字幕定位方法，其特征在于，包括：将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置；其中，所述音频指纹库中记录了歌曲和歌曲指纹信息的对应关系；根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段；从每个所述视频片段中筛选出预设数量的帧图片作为待分析帧图片；确定所述待分析帧图片中的字幕信息，并基于所述待分析帧图片中的字幕信息确定出每个所述视频片段中其余帧图片的字幕信息。2.根据权利要求1所述的字幕定位方法，其特征在于，所述将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置包括：从视频文件中提取歌曲音频信号，并将所述歌曲音频信号转换为语音频谱图；基于所述语音频谱图中各个峰值点，确定出所述歌曲音频信号的音频指纹；将所述音频指纹与所述音频指纹库中各歌曲指纹信息进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置。3.根据权利要求1所述的字幕定位方法，其特征在于，所述根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段包括：依据所述歌曲音频信号在所述目标歌曲的时间位置，从所述目标歌曲中截取出与所述歌曲音频信号匹配的歌曲片段；根据所述歌曲片段的歌词分布时间，确定出所述歌曲片段中每句歌词对应的时间范围；基于所述歌曲片段中每句歌词对应的时间范围以及所述视频文件的帧率，确定出所述视频文件中每句歌词对应的视频片段。4.根据权利要求1所述的字幕定位方法，其特征在于，所述字幕信息包括位置信息和文字类别；所述确定所述待分析帧图片中的字幕信息包括：利用文字检测网络模型，识别所述待分析帧图片中文字内容所对应的位置信息；根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别。5.根据权利要求4所述的字幕定位方法，其特征在于，所述根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别包括：若所述待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则将目标文字的文字内容判定为背景类文字；和/或若所述待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且所述目标文字的文字端点位置偏移率小于预设变化率阈值，则将目标文字的文字内容判定为标志类...

【专利技术属性】
技术研发人员：张悦，黄均昕，曾裕斌，董治，姜涛，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人