基于字精度的歌词时间提取方法及计算机可读存储介质技术

技术编号:37218943 阅读:26 留言:0更新日期:2023-04-20 23:05
本发明专利技术公开了一种基于字精度的歌词时间提取方法及计算机可读存储介质,读取音乐视频中的各视频帧;判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置;根据各视频帧的颜色变化位置,确定各句歌词的演唱起始帧和演唱结束帧;分别对各句歌词的演唱起始帧进行文本识别,并确定各句歌词中每个字的左右边界;根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界,确定各句歌词中各字的起始视频帧和结束视频帧;根据帧率以及各字的起始视频帧和结束视频帧的帧号,确定各字的起始时间和结束时间。本发明专利技术可准确地获取歌词中每个字的起止时间。可准确地获取歌词中每个字的起止时间。可准确地获取歌词中每个字的起止时间。

【技术实现步骤摘要】
基于字精度的歌词时间提取方法及计算机可读存储介质


[0001]本专利技术涉及视频图像处理
,尤其涉及一种基于字精度的歌词时间提取方法及计算机可读存储介质。

技术介绍

[0002]现有歌曲的歌词文本以及时间信息的提取技术通常是利用歌曲的音频数据,通过语音识别模型等技术从音频中识别歌词,并提取到歌词的时间信息。虽然这类方法目前已经比较成熟,但是极易受到同音字、近音字、拖长音、歌曲速度和伴奏音乐等因素影响,识别出错误的歌词以及错误的歌词起止时间。

技术实现思路

[0003]本专利技术所要解决的技术问题是:提供一种基于字精度的歌词时间提取方法及计算机可读存储介质,可准确地获取歌词中每个字的起止时间。
[0004]为了解决上述技术问题,本专利技术采用的技术方案为:一种基于字精度的歌词时间提取方法,包括:
[0005]读取音乐视频中的各视频帧;
[0006]通过文本检测算法获取各视频帧中的文本图像;
[0007]根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置;
[0008]根据各视频帧的颜色变化位置,确定各句歌词的演唱起始帧和演唱结束帧;
[0009]通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别,得到各句歌词的文本信息,并确定各句歌词中每个字的左右边界;
[0010]根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界,确定各句歌词中各字的起始视频帧和结束视频帧;
[0011]根据所述音乐视频的帧率以及各字的起始视频帧和结束视频帧的帧号,确定各字的起始时间和结束时间。
[0012]本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法的步骤。
[0013]本专利技术的有益效果在于:通过光学字符识别技术来提取歌词文本信息,不会受到歌曲伴奏以及歌曲速度快慢的影响,也不会由于同音字、近音字等因素影响所导致的识别错误的问题,还能准确地捕捉到时长较长的歌词的停止时间。本专利技术可准确地获取歌词中每个字的起止时间。
附图说明
[0014]图1为本专利技术实施例的一种基于字精度的歌词时间提取方法的流程图;
[0015]图2为本专利技术实施例一的方法流程图。
具体实施方式
[0016]为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图详予说明。
[0017]请参阅图1,一种基于字精度的歌词时间提取方法,包括:
[0018]读取音乐视频中的各视频帧;
[0019]通过文本检测算法获取各视频帧中的文本图像;
[0020]根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置;
[0021]根据各视频帧的颜色变化位置,确定各句歌词的演唱起始帧和演唱结束帧;
[0022]通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别,得到各句歌词的文本信息,并确定各句歌词中每个字的左右边界;
[0023]根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界,确定各句歌词中各字的起始视频帧和结束视频帧;
[0024]根据所述音乐视频的帧率以及各字的起始视频帧和结束视频帧的帧号,确定各字的起始时间和结束时间。
[0025]从上述描述可知,本专利技术的有益效果在于:可准确地获取歌词中每个字的起止时间,不会受到歌曲伴奏以及歌曲速度快慢的影响,也不会由于同音字、近音字等因素影响所导致的识别错误的问题,还能准确地捕捉到时长较长的歌词的停止时间。
[0026]进一步地,所述通过文本检测算法获取各视频帧中的文本图像;根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置,包括:
[0027]遍历所述音乐视频中的各视频帧,依序获取一视频帧作为当前视频帧;
[0028]通过文本检测算法对当前视频帧进行检测,得到当前视频帧中的文本边界框,并截取所述文本边界框中的图像,得到当前视频帧对应的文本图像;
[0029]对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理,并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景,得到当前视频帧及其上一视频帧对应的灰度文本图像;
[0030]将当前视频帧及其上一视频帧对应的灰度文本图像相减,得到帧间差值图;
[0031]通过垂直投影方法,将所述帧间差值图转化为横向差值分布数组,所述横向差值分布数组中的第i个数值为所述帧间差值图的第i列像素值之和,i∈[1,N],N为所述帧间差值图的长度;
[0032]根据所述横向差值分布数组中的各数值,计算平均值和标准差,并获取所述各数值中的最大值;
[0033]根据所述标准差以及当前视频帧对应的文本图像的高度,计算第一判断变量;
[0034]根据所述最大值和平均值,计算第二判断变量;
[0035]若所述第一判断变量大于预设的第一阈值且所述第二判断变量大于预设的第二阈值,则判定当前视频帧对应的文本图像存在颜色变化;
[0036]根据所述横向差值分布数组中的各数值以及所述平均值,计算各数值对应的第三判断变量;
[0037]若所述横向差值分布数组中的第i个数值对应的第三判断变量大于预设的第三阈值,则将当前视频帧对应的文本图像中的第i列像素点作为颜色变化位置。
[0038]由上述描述可知,由于当文本图像出现颜色变化时,横向差值分布数组的数据分布特征表现为单峰凸起,二极化分布,即一部分连续的数值远高于数组中的其他数值,基于该特点,计算与横向差值分布数组相关的两个判断变量,作为是否出现颜色变化的判断依据,并同样基于该特点,计算各数值对应的第三判断变量,作为是否为颜色变化位置的判断依据。
[0039]进一步地,所述第一判断变量的计算公式为K1=x
std
/H,所述第一阈值为1;所述第二判断变量的计算公式为K2=(x
max

x
mean
)/x
max
,所述第二阈值为0.94;
[0040]其中,K1和K2分别为第一判断变量和第二判断变量,x
std
为所述标准差,H为当前视频帧对应的文本图像的高度,x
max
为所述最大值,x
mean
为所述平均值。
[0041]进一步地,所述第三判断变量的计算公式为K3=(x
i

x
mean
)/x
i
,所述第三阈值为0.8;
[0042]其中,K3为第三判断变量,x
mean
为所述平均值,x
i
表示所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于字精度的歌词时间提取方法,其特征在于,包括:读取音乐视频中的各视频帧;通过文本检测算法获取各视频帧中的文本图像;根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置;根据各视频帧的颜色变化位置,确定各句歌词的演唱起始帧和演唱结束帧;通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别,得到各句歌词的文本信息,并确定各句歌词中每个字的左右边界;根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界,确定各句歌词中各字的起始视频帧和结束视频帧;根据所述音乐视频的帧率以及各字的起始视频帧和结束视频帧的帧号,确定各字的起始时间和结束时间。2.根据权利要求1所述的基于字精度的歌词时间提取方法,其特征在于,所述通过文本检测算法获取各视频帧中的文本图像;根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置,包括:遍历所述音乐视频中的各视频帧,依序获取一视频帧作为当前视频帧;通过文本检测算法对当前视频帧进行检测,得到当前视频帧中的文本边界框,并截取所述文本边界框中的图像,得到当前视频帧对应的文本图像;对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理,并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景,得到当前视频帧及其上一视频帧对应的灰度文本图像;将当前视频帧及其上一视频帧对应的灰度文本图像相减,得到帧间差值图;通过垂直投影方法,将所述帧间差值图转化为横向差值分布数组,所述横向差值分布数组中的第i个数值为所述帧间差值图的第i列像素值之和,i∈[1,N],N为所述帧间差值图的长度;根据所述横向差值分布数组中的各数值,计算平均值和标准差,并获取所述各数值中的最大值;根据所述标准差以及当前视频帧对应的文本图像的高度,计算第一判断变量;根据所述最大值和平均值,计算第二判断变量;若所述第一判断变量大于预设的第一阈值且所述第二判断变量大于预设的第二阈值,则判定当前视频帧对应的文本图像存在颜色变化;根据所述横向差值分布数组中的各数值以及所述平均值,计算各数值对应的第三判断变量;若所述横向差值分布数组中的第i个数值对应的第三判断变量大于预设的第三阈值,则将当前视频帧对应的文本图像中的第i列像素点作为颜色变化位置。3.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述第一判断变量的计算公式为K1=x
std
/H,所述第一阈值为1;所述第二判断变量的计算公式为K2=(x
max

x
mean
)/x
max
,所述第二阈值为0.94;
其中,K1和K2分别为第一判断变量和第二判断变量,x
std
为所述标准差,H为当前视频帧对应的文本图像的高度,x
max
为所述最大值,x
mean
为所述平均值。4.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述第三判断变量的计算公式为K3=(x
i

x
mean
)/x
i
,所述第三阈值为0.8;其中,K3为第三判断变量,x
mean
为所述平均值,x
i
表示所述横向差值分布数组中第i个数值。5.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述通过文本检测算法对当前视频帧进行检测,得到当前视频帧中的文本边界框,具体为:通过文本检测算法对当前视频帧的下半部分进行检测,得到当前视频帧中的文本边界框。6.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理,并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景,得到当前视频帧及其上一视频帧对应的灰度文本图像,具体为:对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理,得到当前视频帧及其上一视频帧对应的框内灰度图像;根据预设的二值化阈值,对当前视频帧及其上一视频帧对应的框内灰度图像进行二值化处理,得到当前视频帧及其上一视频帧对应的框内二值化图像;通过连通域分析函数,获取当前视频帧及其上一视频帧对应的框内二值化图像中的连通域,并将面积小于预设面积阈值的连通域中的像素点的像素值置为0;将当前视频帧及其上一视频帧对应的框内二值化图像进行相加,并对相加后的图像进行二值化处理,生成当前视频帧对应的掩码;将当前视频帧对应的掩码分别与当前视频帧及其上一视频帧对应的框内灰度图像相乘,得到当前视频帧及其上一视频帧对应的灰度文本图像。7.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述根据所述横向差值分布数组中的各数值以及所述平均值,计算各数值对应的第三判断变量,具体为:根据当前视频帧的上一视频帧对应的文本图像的颜色变化位置,确定当前视频帧对应的文本图像的颜色变化位置的候选范围,并在所述横向差值分布数组中获取所述颜色变化位置的候选范围对应的连续子数组;根据所述对应的连续子数组中的各数值以及所述平均值,计算所述对应的连续子数组中的各数值对应的第三判断变量。8.根据权利要求7所述的基于字精度的歌词时间提取方法,其特征在于,所述根据当前视频帧的上一视频帧对应的文本...

【专利技术属性】
技术研发人员:黄仁杰陈勇王子亮马雪怀
申请(专利权)人:福建星网视易信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1