当前位置: 首页 > 专利查询>王之华专利>正文

一种歌曲视频合成的方法及播放器技术

技术编号:29879429 阅读:43 留言:0更新日期:2021-08-31 23:55
本发明专利技术涉及一种歌曲视频合成的方法及播放器,通过对歌曲和歌曲视频进行多种分类,通过AI人工智能曲库的点播,能够根据用户的点播指令,实时清晰的判断用户所点曲目的曲风、节奏、歌曲类型、歌曲中心思想、地区属性、歌手属性、画风类型等多种信息,并将结果反馈至歌曲视频素材中心,实现将多层影音素材叠加在同一平面进行播放完整K歌的过程。通过人工智能实现将不同风格的歌曲,智能适配相应的视频情景素材作为唱歌背景,还能够实现在播放中随着音乐节奏调整情景素材的实时剪辑速度,让音乐与画面更加协调,让用户在演唱歌曲的时候更具有代入感。

【技术实现步骤摘要】
一种歌曲视频合成的方法及播放器
本专利技术涉及多媒体
,特别涉及一种歌曲视频的合成方法及播放器。
技术介绍
伴随着人们文化生活水平的提高,去KTV唱歌或者使用家庭娱乐系统或者手机APP已经越来越成为人们的一种娱乐方式。但是目前,无论是公共场所的KTV或者私人家庭娱乐系统以及手机APP所使用的MTV或者歌曲,都是将字幕,歌曲,视频,以及公司商标等压缩合成后的固定图像和声音格式,是一个不可分割的整体,每个都是独立的成品。也就是说,无论任何演唱者每次打开演唱同一首MTV或者歌曲,其所呈现的背景视频画面都是一样的,或者说无论用户在何种心情或者场合下,所演唱的都是同一个MTV音乐成品,用户体验并不够友好。另外,由于版权使用方面的原因,所有的KTV或者私人家庭娱乐系统以及手机APP所使用的MTV或者歌曲都需要相应的授权,否则就面临法律风险。而有些拿不到授权的经营者,会随意将不同风格的背景视频和歌曲合成,往往造成歌曲的曲风和视频画面的风格极不相配,并且现有的作品都是制作合成后的固定成品,并不能够每次演唱都呈现不一样的视频背景,不能够达到个性化的效果。此外,目前市场上还有部分产品,只是在现有视频基础上加入合成了照片或图片等,视频还是之前的视频,是一个单独的整体,例如在直播界面上,是已经在播放歌曲的同时,把媒体文件视频或图片等,经过尺寸的选择调整,覆盖在已经播放的歌曲画面上,这只是一种机械的合成覆盖,现有的音乐视频依然是独立的整体,只是在其画面上覆盖了用户所提供或所喜欢的照片或视频,并没有改变原唱视频本身的性质,而且目前的歌曲视频存在定义粗犷、存储占用容量大、字幕实时渲染占用较多的设备和系统资源,以及段落间会出现帧以上级的闪屏黑屏,非常影响用户的体验。
技术实现思路
本专利技术的目的在于解决上述问题,本专利技术提供了一种可以根据音乐的曲风实时合成音乐、相匹配的画面、原唱、伴唱、预渲染的字幕视频、词曲作者信息、公司商标等歌曲视频合成的方法,以及能够实现上述功能并播放该歌曲视频的播放器。本专利技术既沿用目前一首歌曲视频包含视频、字幕、原唱音轨、伴唱音轨的规范,又避免和改善目前的技术空白和缺陷,该播放器不止能播放本专利技术合成的歌曲视频,而且能兼容市面上所有的视频。本专利技术主要解决的是视频本身的问题,是将碎片化的视频合成为一个整体,与现有技术有着本质的不同。为了解决上述问题,本专利技术所采用的技术方案为:一种歌曲视频合成的方法,其特征在于,包括以下步骤:分类模块,采用人工或者AI智能技术对歌曲进行分类;视频模块,该模块具有上千种不同风格的视频素材镜头组,可以根据歌曲的风格对视频素材镜头组进行任意组合;解析模块,对歌曲的内容进行分析,并根据分析的结果从视频模块自动选择适配的视频素材镜头组;字幕预渲染模块,对歌曲的演唱伴唱字幕根据每个字的演唱时间节点,预先进行渲染导唱走字的视频,渲染后的视频是一个有卡拉OK走字效果的字幕,并且背景是透明的独立高清视频文件;合成模块,对上述分类模块,视频模块、解析模块、字幕预渲染模块的内容实时进行合成;播放器模块,用于对合成模块合成后的歌曲视频内容实时进行处理,该播放器模块的合成采用本地服务器和网络云端相结合的方式,显示在播放终端上。进一步的,所述对歌曲进行分类,是指每一首歌曲,都包含了二十多种标签,所述对歌曲进行分类可以是人工分类或者AI自动分类,所述对歌曲进行分类,在具体的分类规则上,可以根据单位时间内的歌词字数,判断节奏的快慢,可以根据歌词的提示,判定所处于的时段,可以根据提取到的人声频谱,分析演唱的人数、年龄、男女比例。进一步的,根据对歌曲分类的结果,制作了相应的视频素材镜头组,所述视频素材镜头组至少符合1080P像素标准,每个完整的视频,由10个至200个视频素材镜头组组成,并且由于对歌曲重新进行了属性细分、采用视频素材镜头组模式,能保证最终播放质量的前提下,存储所占用的总容量只是现有成品歌曲直接存放模式的1/3或者更小。进一步的,所述视频素材镜头组资源,都可以存放在本地,云端仅需要做算法和更新类下发,从而占用云存储、网络基础带宽和下载资源少,提高对终端的并发数,所述视频素材镜头组都已经优化处理并达到播放要求,对于字幕部分都已经预渲染,该预渲染字幕的格式通常为MOV文件,显示特效及其分辨率参数符合输出要求。进一步的,根据播放终端上报的点播列表歌曲ID,网络云端的主程序,会根据算法自动精确计算,包括:素材属性选择、数量匹配、自动时长计算、自动调整单个镜头组和歌曲倍速,并将这些要求指令传输到播放器处理。进一步的,所述播放器为无缝合成,避免了合成过程中,出现黑屏、闪屏现象,精确度可以达到帧,而且能够实现整体视频中的镜头组完全支持乱序排列,播放后的画面依然是无缝衔接,播放器边合成、边播放,实时解码,大大降低缓存区所需要的空间,并且兼容目前主要格式流媒体文件及其要求。本专利技术还提供一种播放器,该播放器能够根据全新的几十种歌曲属性标签,实现AI自动匹配,能够实现一个字幕MOV文件、原唱字幕,伴唱字幕、两个音轨文件、视频文件组,通过AI计算相关参数,然后对上述文件实时读取,能够实现边合成边播放,字幕,音轨和整体视频是平行的,播放器也兼容目前主要格式流媒体文件。进一步的,所述的字幕MOV文件包含多种语言文字,并且上述字幕都已经预渲染,所述伴唱字幕由AI人工智能判断男女歌手并给予不同颜色唱词与主歌引入点,实现智能导唱。进一步的,所述合成的过程是对4层至20层的信息进行合成,是将每层单独的信息合成输出为整体视频文件,在对视频文件组合成时,在视频前后分别具有淡入淡出的效果。进一步的,所述播放器支持本地服务器和网络云端播放,所述本地服务器具有预先设定好的数据包,本地服务器和网络云端播放具有实时切换功能,所述播放器能够根据歌曲自动匹配视频文件镜头组,并支持乱序排列播放,还能够自动计算视频素材、歌曲音频、字幕的时长,具有自动拉伸或者裁减功能,以达到预制时长。附图说明图1是本专利技术的预渲染字幕的示意图图2是本专利技术的功能模块示意图图3是本专利技术的多层合成示意图图4是本专利技术的播放器播放示意图具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例中的所述移动终端可以为手机、平板电脑等智能设备,而包厢终端则可以为数字视听场所(公共演唱场所或家庭演唱场所)的点唱机、个人电脑、智能电视机等具备Wi-Fi、蓝牙等接入功能的音视频播放终端设备,本实施例以在公共演唱场所中的KTV场所为例图1是预渲染的字幕。卡拉OK字幕样式为两层字幕,第一层也就是底层为走字前歌词预览,通常为白字黑描边;第二层也本文档来自技高网
...

【技术保护点】
1.一种歌曲视频合成的方法,其特征在于,包括以下步骤:/n分类模块,采用人工或者AI智能技术对歌曲进行分类;/n视频模块,该模块具有上千种不同风格的视频素材镜头组,可以根据歌曲的风格对视频素材镜头组进行任意组合;/n解析模块,对歌曲的内容进行分析,并根据分析的结果从视频模块自动选择适配的视频素材镜头组;/n字幕预渲染模块,对歌曲的演唱伴唱字幕根据每个字的演唱时间节点,预先进行渲染导唱走字的视频,渲染后的视频是一个有卡拉OK走字效果的字幕,并且背景是透明的独立高清视频文件;/n合成模块,对上述分类模块,视频模块、解析模块、字幕预渲染模块的内容实时进行合成;/n播放器模块,用于对合成模块合成后的歌曲视频内容实时进行处理,该播放器模块的合成采用本地服务器和网络云端相结合的方式,显示在播放终端上。/n

【技术特征摘要】
1.一种歌曲视频合成的方法,其特征在于,包括以下步骤:
分类模块,采用人工或者AI智能技术对歌曲进行分类;
视频模块,该模块具有上千种不同风格的视频素材镜头组,可以根据歌曲的风格对视频素材镜头组进行任意组合;
解析模块,对歌曲的内容进行分析,并根据分析的结果从视频模块自动选择适配的视频素材镜头组;
字幕预渲染模块,对歌曲的演唱伴唱字幕根据每个字的演唱时间节点,预先进行渲染导唱走字的视频,渲染后的视频是一个有卡拉OK走字效果的字幕,并且背景是透明的独立高清视频文件;
合成模块,对上述分类模块,视频模块、解析模块、字幕预渲染模块的内容实时进行合成;
播放器模块,用于对合成模块合成后的歌曲视频内容实时进行处理,该播放器模块的合成采用本地服务器和网络云端相结合的方式,显示在播放终端上。


2.根据权利要求1所述的方法,其特征在于,所述对歌曲进行分类,是指每一首歌曲,都包含了二十多种标签,所述对歌曲进行分类可以是人工分类或者AI自动分类,所述对歌曲进行分类,在具体的分类规则上,可以根据单位时间内的歌词字数,判断节奏的快慢,可以根据歌词的提示,判定所处于的时段,可以根据提取到的人声频谱,分析演唱的人数、年龄、男女比例。


3.根据权利要求2所述的方法,其特征在于,根据对歌曲分类的结果,制作了相应的视频素材镜头组,所述视频素材镜头组至少符合1080P像素标准,每个完整的视频,由10个至200个视频素材镜头组组成,并且由于对歌曲重新进行了属性细分、采用视频素材镜头组模式,能保证最终播放质量的前提下,存储所占用的总容量只是现有成品歌曲直接存放模式的1/3或者更小。


4.根据权利要求3所述的方法,其特征在于,所述视频素材镜头组资源,都可以存放在本地,云端仅需要做算法和更新类下发,从而占用云存储、网络基础带宽和下载资源少,提高对终端的并发数,所述视频素材镜头组都已经优化处理并达到播放要求,对于字幕部分都已经预渲染,该预渲染...

【专利技术属性】
技术研发人员:王之华
申请(专利权)人:王之华
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1