基于字精度的歌词时间提取方法及计算机可读存储介质技术

技术编号：37218943 阅读：26 留言：0更新日期：2023-04-20 23:05

本发明专利技术公开了一种基于字精度的歌词时间提取方法及计算机可读存储介质，读取音乐视频中的各视频帧；判断各视频帧对应的文本图像是否存在颜色变化，并当存在颜色变化时，获取颜色变化位置；根据各视频帧的颜色变化位置，确定各句歌词的演唱起始帧和演唱结束帧；分别对各句歌词的演唱起始帧进行文本识别，并确定各句歌词中每个字的左右边界；根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界，确定各句歌词中各字的起始视频帧和结束视频帧；根据帧率以及各字的起始视频帧和结束视频帧的帧号，确定各字的起始时间和结束时间。本发明专利技术可准确地获取歌词中每个字的起止时间。可准确地获取歌词中每个字的起止时间。可准确地获取歌词中每个字的起止时间。

全部详细技术资料下载

【技术实现步骤摘要】
基于字精度的歌词时间提取方法及计算机可读存储介质

[0001]本专利技术涉及视频图像处理
，尤其涉及一种基于字精度的歌词时间提取方法及计算机可读存储介质。

技术介绍

[0002]现有歌曲的歌词文本以及时间信息的提取技术通常是利用歌曲的音频数据，通过语音识别模型等技术从音频中识别歌词，并提取到歌词的时间信息。虽然这类方法目前已经比较成熟，但是极易受到同音字、近音字、拖长音、歌曲速度和伴奏音乐等因素影响，识别出错误的歌词以及错误的歌词起止时间。

技术实现思路

[0003]本专利技术所要解决的技术问题是：提供一种基于字精度的歌词时间提取方法及计算机可读存储介质，可准确地获取歌词中每个字的起止时间。
[0004]为了解决上述技术问题，本专利技术采用的技术方案为：一种基于字精度的歌词时间提取方法，包括：
[0005]读取音乐视频中的各视频帧；
[0006]通过文本检测算法获取各视频帧中的文本图像；
[0007]根据各视频帧及其上一视频帧对应的文本图像，判断各视频帧对应的文本图像是否存在颜色变化，并当存在颜色变化时，获取颜色变化位置；
[0008]根据各视频帧的颜色变化位置，确定各句歌词的演唱起始帧和演唱结束帧；
[0009]通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别，得到各句歌词的文本信息，并确定各句歌词中每个字的左右边界；
[0010]根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界，确定各句...

【技术保护点】

【技术特征摘要】
1.一种基于字精度的歌词时间提取方法，其特征在于，包括：读取音乐视频中的各视频帧；通过文本检测算法获取各视频帧中的文本图像；根据各视频帧及其上一视频帧对应的文本图像，判断各视频帧对应的文本图像是否存在颜色变化，并当存在颜色变化时，获取颜色变化位置；根据各视频帧的颜色变化位置，确定各句歌词的演唱起始帧和演唱结束帧；通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别，得到各句歌词的文本信息，并确定各句歌词中每个字的左右边界；根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界，确定各句歌词中各字的起始视频帧和结束视频帧；根据所述音乐视频的帧率以及各字的起始视频帧和结束视频帧的帧号，确定各字的起始时间和结束时间。2.根据权利要求1所述的基于字精度的歌词时间提取方法，其特征在于，所述通过文本检测算法获取各视频帧中的文本图像；根据各视频帧及其上一视频帧对应的文本图像，判断各视频帧对应的文本图像是否存在颜色变化，并当存在颜色变化时，获取颜色变化位置，包括：遍历所述音乐视频中的各视频帧，依序获取一视频帧作为当前视频帧；通过文本检测算法对当前视频帧进行检测，得到当前视频帧中的文本边界框，并截取所述文本边界框中的图像，得到当前视频帧对应的文本图像；对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理，并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景，得到当前视频帧及其上一视频帧对应的灰度文本图像；将当前视频帧及其上一视频帧对应的灰度文本图像相减，得到帧间差值图；通过垂直投影方法，将所述帧间差值图转化为横向差值分布数组，所述横向差值分布数组中的第i个数值为所述帧间差值图的第i列像素值之和，i∈[1，N]，N为所述帧间差值图的长度；根据所述横向差值分布数组中的各数值，计算平均值和标准差，并获取所述各数值中的最大值；根据所述标准差以及当前视频帧对应的文本图像的高度，计算第一判断变量；根据所述最大值和平均值，计算第二判断变量；若所述第一判断变量大于预设的第一阈值且所述第二判断变量大于预设的第二阈值，则判定当前视频帧对应的文本图像存在颜色变化；根据所述横向差值分布数组中的各数值以及所述平均值，计算各数值对应的第三判断变量；若所述横向差值分布数组中的第i个数值对应的第三判断变量大于预设的第三阈值，则将当前视频帧对应的文本图像中的第i列像素点作为颜色变化位置。3.根据权利要求2所述的基于字精度的歌词时间提取方法，其特征在于，所述第一判断变量的计算公式为K1＝x
std
/H，所述第一阈值为1；所述第二判断变量的计算公式为K2＝(x
max
‑
x
mean
)/x
max
，所述第二阈值为0.94；
其中，K1和K2分别为第一判断变量和第二判断变量，x
std
为所述标准差，H为当前视频帧对应的文本图像的高度，x
max
为所述最大值，x
mean
为所述平均值。4.根据权利要求2所述的基于字精度的歌词时间提取方法，其特征在于，所述第三判断变量的计算公式为K3＝(x
i
‑
x
mean
)/x
i
，所述第三阈值为0.8；其中，K3为第三判断变量，x
mean
为所述平均值，x
i
表示所述横向差值分布数组中第i个数值。5.根据权利要求2所述的基于字精度的歌词时间提取方法，其特征在于，所述通过文本检测算法对当前视频帧进行检测，得到当前视频帧中的文本边界框，具体为：通过文本检测算法对当前视频帧的下半部分进行检测，得到当前视频帧中的文本边界框。6.根据权利要求2所述的基于字精度的歌词时间提取方法，其特征在于，所述对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理，并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景，得到当前视频帧及其上一视频帧对应的灰度文本图像，具体为：对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理，得到当前视频帧及其上一视频帧对应的框内灰度图像；根据预设的二值化阈值，对当前视频帧及其上一视频帧对应的框内灰度图像进行二值化处理，得到当前视频帧及其上一视频帧对应的框内二值化图像；通过连通域分析函数，获取当前视频帧及其上一视频帧对应的框内二值化图像中的连通域，并将面积小于预设面积阈值的连通域中的像素点的像素值置为0；将当前视频帧及其上一视频帧对应的框内二值化图像进行相加，并对相加后的图像进行二值化处理，生成当前视频帧对应的掩码；将当前视频帧对应的掩码分别与当前视频帧及其上一视频帧对应的框内灰度图像相乘，得到当前视频帧及其上一视频帧对应的灰度文本图像。7.根据权利要求2所述的基于字精度的歌词时间提取方法，其特征在于，所述根据所述横向差值分布数组中的各数值以及所述平均值，计算各数值对应的第三判断变量，具体为：根据当前视频帧的上一视频帧对应的文本图像的颜色变化位置，确定当前视频帧对应的文本图像的颜色变化位置的候选范围，并在所述横向差值分布数组中获取所述颜色变化位置的候选范围对应的连续子数组；根据所述对应的连续子数组中的各数值以及所述平均值，计算所述对应的连续子数组中的各数值对应的第三判断变量。8.根据权利要求7所述的基于字精度的歌词时间提取方法，其特征在于，所述根据当前视频帧的上一视频帧对应的文本...

【专利技术属性】
技术研发人员：黄仁杰，陈勇，王子亮，马雪怀，
申请(专利权)人：福建星网视易信息系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人