【技术实现步骤摘要】
本专利技术涉及视频处理,尤其涉及一种无视障障碍的影视讲解内容的生成方法、系统、终端及计算机可读存储介质。
技术介绍
1、影视讲解内容是根据现有的视频内容进行生成,用于介绍视频内容的文本文件,生成文本文件后可以利用tts技术生成音频,从而可以进行播放,便于有视觉障碍的人群对视频内容进行了解和信息获取。
2、但是对于影视内容的讲解内容,目前是人工生成文本文件或者识别图像、音频后按语义组成文本文件,现有技术生成影视讲解内容的方式中,人工生成效率低,语义组合效果不佳(例如内容重复、不够通顺等),即使视频在播放过程中同时在播放音频,但是视频本身的声音集中在对白、背景乐和音响,无法表达更多的视觉信息,那么视频本身的声音和现有技术生成的影视讲解内容就会导致有视觉障碍的人群无法充分理解视频中的视觉信息(例如表情、服饰、无声动作等,特殊的镜头语言)。
3、现有技术无法高效率生成准确的影视讲解内容,有待于改进和发展。
技术实现思路
1、本专利技术的主要目的在于提供一种无视障障碍的影视讲
...【技术保护点】
1.一种无视障障碍的影视讲解内容的生成方法,其特征在于,所述无视障障碍的影视讲解内容的生成方法包括:
2.根据权利要求1所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述获取目标视频的图像,使用多模态大型语言模型对所述图像进行识别,获得图像内容文本,具体包括:
3.根据权利要求2所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述关键帧基于颜色或直方图帧差方法、基于运动分析方法或者基于视频帧聚类方法获得。
4.根据权利要求1所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述获取所述目标视频的音频,使用所述多模态
...【技术特征摘要】
1.一种无视障障碍的影视讲解内容的生成方法,其特征在于,所述无视障障碍的影视讲解内容的生成方法包括:
2.根据权利要求1所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述获取目标视频的图像,使用多模态大型语言模型对所述图像进行识别,获得图像内容文本,具体包括:
3.根据权利要求2所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述关键帧基于颜色或直方图帧差方法、基于运动分析方法或者基于视频帧聚类方法获得。
4.根据权利要求1所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述获取所述目标视频的音频,使用所述多模态大型语言模型对所述音频进行识别,获得音频内容文本,具体包括:
5.根据权利要求1所述的无视障障碍的影视讲解内容的生成方法,其特征在于,所述获取所述目标视频的字幕、剧本和评价信息,根据所述图像内容文本、所述音频内容文本、所述字幕、所述剧本和所述评价信息生成提示词,具体包括:
6.根据权利要求5所述的无视障障碍...
【专利技术属性】
技术研发人员:钦鹏,
申请(专利权)人:重庆市易平方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。