一种视频处理方法、计算机设备及存储介质技术

技术编号:35940607 阅读:17 留言:0更新日期:2022-12-14 10:29
本申请公开了一种视频处理方法、计算机设备及存储介质,该方法包括:响应于对第一视频数据的视角转换事件,获取第一视频数据的音频数据,对音频数据进行处理,确定音频数据的目标文本信息;对第一视频数据进行文本识别,得到文本识别信息;若目标文本信息与文本识别信息的相似度小于设定阈值,则基于目标文本信息、第二视频数据确定目标视频数据,第二视频数据是对第一视频数据进行视觉转换后得到的;输出目标视频数据。通过该方法,可以为没有字幕的视频添加字幕,丰富视频内容。丰富视频内容。丰富视频内容。

【技术实现步骤摘要】
一种视频处理方法、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种视频处理方法、一种计算机设备及一种计算机可读存储介质。

技术介绍

[0002]随着信息技术的飞速发展,各类视频踊跃而出,相较于非移动终端,移动终端显得更受欢迎,人们喜欢用移动终端听歌看视频,因此,相较于横版视频,人们更喜欢可以单手操作并且可以观看的竖版视频。
[0003]针对音乐视频而言,在进行横版、竖版之间的切换时,如何使得显示的内容更丰富在是当下的研究热点之一。

技术实现思路

[0004]本申请实施例提供了一种视频处理方法、计算机设备及存储介质,可以在对视频数据进行视角转换的过程中,丰富视频内容。
[0005]第一方面,本申请实施例公开了一种视频处理方法,该方法包括:
[0006]响应于对第一视频数据的视角转换事件,获取所述第一视频数据的音频数据;
[0007]对所述音频数据进行处理,得到所述音频数据的目标文本信息;
[0008]对所述第一视频数据进行文本识别,得到文本识别信息;
[0009]根据所述目标文本信息和所述文本识别结果进行条件检测;
[0010]若所述目标文本信息与所述文本识别信息的相似度小于设定阈值,则基于所述目标文本信息、第二视频数据确定目标视频数据,所述第二视频数据是对所述第一视频数据进行视觉转换后得到的;
[0011]输出所述目标视频数据。
[0012]第二方面,本申请实施例公开了一种视频处理装置,该装置包括:
>[0013]获取单元,用于响应于对第一视频数据的视角转换事件,获取所述第一视频数据的音频数据;
[0014]处理单元,用于对所述音频数据进行处理,得到所述音频数据的目标文本信息;对所述第一视频数据进行文本识别,得到文本识别信息;
[0015]确定单元,用于若所述目标文本信息与所述文本识别信息的相似度小于设定阈值,则基于所述目标文本信息、第二视频数据确定目标视频数据,所述第二视频数据是对所述第一视频数据进行视觉转换后得到的;
[0016]输出单元,用于输出所述目标视频数据。
[0017]第三方面,本申请实施例公开了一种计算机设备,该计算机设备包括处理器,适于实现一条或多条计算机程序;以及,计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行以上述的视频处理方法。
[0018]第四方面,本申请实施公开了一种计算机可读存储介质,该计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行上述的视频处理方法。
[0019]第五方面,本申请实施例公开了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的视频处理方法。
[0020]本申请实施例中,计算机设备响应于对第一视频数据的视角转换事件,获取第一视频数据的音频数据,对音频数据进行处理,得到音频数据的目标文本信息;然后对第一视频数据进行文本识别,得到文本识别信息;若目标文本信息与文本识别信息的相似度小于设定阈值,则基于目标文本信息、第二视频数据确定目标视频数据,第二视频数据是对第一视频数据进行视觉转换后得到的;最后输出目标视频数据。通过本申请实施例,利用设定阈值确定是否需要对视频添加字幕,提高处理效率。因此,可以在视频进行视觉转换的情况下,为没有字幕的视频添加字幕,以此来丰富视频内容。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请实施例公开的一种视频处理系统的网络架构图;
[0023]图2a示出了本申请实施例公开的一种横版视频;
[0024]图2b示出了本申请实施例公开的一种竖版视频;
[0025]图2c示出了本申请实施例公开的一种竖版视频;
[0026]图3是本申请实施例公开的一种视频处理方法的流程示意图;
[0027]图4a示出了本申请实施例公开的一种文本检测网络的网络架构图;
[0028]图4b示出了本申请实施例公开的一种文本识别网络的网络架构图;
[0029]图5a示出了第一种文本信息显示方式;
[0030]图5b示出了第二种文本信息显示方式;
[0031]图5c示出了第三种文本信息显示方式;
[0032]图5d示出了第四种文本信息显示方式;
[0033]图5e示出了第五种文本信息显示方式;
[0034]图5f示出了第六种文本信息显示方式;
[0035]图5g示出了第七种文本信息显示方式;
[0036]图5h示出了第八种文本信息显示方式;
[0037]图6是本申请实施例公开的另一种视频处理方法的流程示意图;
[0038]图7是本申请实施例公开的一种视渲染模块的结构示意图;
[0039]图8是本申请实施例公开的一种视频处理装置的结构示意图;
[0040]图9是本申请实施例公开的一种计算机设备的结构示意图。
具体实施方式
[0041]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0042]为了使得视频视角转化后的画面更丰富,本申请实施例提出了一种视频处理方法,可以在对视频视角进行转换的过程中,为没有字幕的音乐视频添加字幕,字幕可以是歌词以及歌曲信息等。本申请实施例提供的视频处理方法可以基于AI(Artificial Intelligence,人工智能)技术实现。AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科,其涉及的领域较为广泛;而本申请实施例提供的视频处理方法主要涉及AI技术中的机器学习(Machine Learning,ML)技术。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0043]在可行的实施例中,本申请实施例提供的视频处理方法还可以基于云技术(Cloudtechnology)和/或区块链技术实现。具体可以涉及云技术中的云存储(Cloudstorage)、云数据库(CloudDatabase)、大数据(Bigdata)中的一种或者多种。例如,从云数据库中获取执行该视本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,所述方法包括:响应于对第一视频数据的视角转换事件,获取所述第一视频数据的音频数据;对所述音频数据进行处理,得到所述音频数据的目标文本信息;对所述第一视频数据进行文本识别,得到文本识别信息;若所述目标文本信息与所述文本识别信息的相似度小于设定阈值,则基于所述目标文本信息、第二视频数据确定目标视频数据,所述第二视频数据是对所述第一视频数据进行视觉转换后得到的;输出所述目标视频数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述文本识别信息中的文本信息;将所述目标文本信息与所述文本识别信息中的文本信息进行相似度计算,得到所述目标文本信息与所述文本识别信息的相似度;将所述目标文本信息与所述文本识别信息的相似度与设定阈值进行比较。3.根据权利要求1

2任一项所述的方法,其特征在于,所述方法还包括:若所述目标文本信息与所述文本识别信息的相似度大于或者等于所述设定阈值,则将所述第一视频数据进行视觉转换,得到第二视频数据,其中,所述第一视频数据是第一视角显示的,所述第二视频数据是第二视角显示的;将所述第二视频数据作为目标视频数据,并输出所述目标视频数据。4.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行处理,得到所述音频数据的目标文本信息,包括:将所述音频数据转换为语音频谱信息;基于所述语音频谱信息中的峰值点,确定所述音频数据对应的待识别指纹信息;将所述待识别指纹信息与指纹数据库进行匹配,确定所述待识别指纹信息对应的目标指纹信息以及所述目标指纹信息对应的目标歌曲属性信息;基于所述目标歌曲属性信息确定所述音频数据的目标文本信息。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标歌曲属性信息确定所述音频数据的目标文本信息,包括:获取所述音频数据的时间长度,以及所述音频数据在所述目标歌曲中的第一时间,所述第一时间为所述音频数据的开始时间;将所述时间长度与所述第一时间进行加和处理,得到第二时间;基于所述目标歌曲属性信息确定所述目标歌曲的歌词信息,并解析所述歌词信息中所述第一时间到所述第二时间的字符,根据解析到的字符确定所述音频数据的目标文本信息。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员:张悦
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1