一种无听障障碍的文字讲述内容的生成方法及相关设备技术

技术编号：40556205 阅读：12 留言：0更新日期：2024-03-05 19:17

本发明专利技术公开了一种无听障障碍的文字讲述内容的生成方法及相关设备，所述方法包括：获取目标视频的音频，多模态大型语言模型进行识别生成带时间轴的音频内容文本；获取目标视频的图像，识别获得图像内容文本；获取目标视频的字幕，根据字幕和图像内容文本比对出音频内容文本的独有内容并标注；获取目标视频的剧本和演员信息，将图像内容文本、剧本和演员信息进行对比得到角色识别结果，对每条音频内容文本标注出对应角色；根据标注后的音频内容文本生成提示词，根据提示词引入已有内容生成文字讲述内容；将文字讲述内容添加到所述字幕中。本发明专利技术生成对听障人士无障碍的讲解文本内容，充分解析音频中的信息，便于听障人士获取更丰富的视频信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理，尤其涉及一种无听障障碍的文字讲述内容的生成方法、系统、终端及计算机可读存储介质。

技术介绍

1、目前帮助听障人士欣赏有声视频的技术集中在转换音频中的语音为文字或手语图像。

2、目前的技术对语音的识别只是单纯的将语音转换为文字，而忽视了视频中角色和语气等信息，导致听障人士无法区分字幕对应的角色或旁白，无法充分理解台词，同时也忽视了对有助于视听艺术表现的背景音乐和音响(例如自然音响如风声、踩树枝声，机械音响如引擎声，动作音响如脚步声等)的处理，只是让听障人士看到了最表面的文字信息，从而导致听障人士无法理解某些场景氛围、剧情和创作人员的意图。

3、现有技术进行视频播放时只是简单的将语音转换为文字，未充分解析音频中的信息，有待于改进和发展。

技术实现思路

1、本专利技术的主要目的在于提供一种无听障障碍的文字讲述内容的生成方法、系统、终端及计算机可读存储介质，旨在解决现有技术中针对听障人士生成视频的音频只是简单的将语音转换为文字，未充分解析音频中的信息，导致听障人士无法理解某些场景氛围、剧情和创作人员的意图的问题。

2、为实现上述目的，本专利技术提供一种无听障障碍的文字讲述内容的生成方法，所述无听障障碍的文字讲述内容的生成方法包括如下步骤：

3、获取目标视频的音频，使用多模态大型语言模型对所述音频进行识别，生成带时间轴的音频内容文本；

4、获取目标视频的图像，使用所述多模态大型语言模型对所述图像进行识别，获得图像内容文本；

5、获取所述目标视频的字幕，使用所述多模态大型语言模型根据所述字幕和所述图像内容文本比对出所述音频内容文本的独有内容并标注；

6、获取所述目标视频的剧本和演员信息，使用所述多模态大型语言模型将所述图像内容文本、所述剧本和所述演员信息进行对比得到角色识别结果，根据所述角色识别结果对每条音频内容文本标注出对应角色；

7、根据标注后的音频内容文本生成提示词，使用所述多模态大型语言模型根据所述提示词引入已有内容生成文字讲述内容；

8、将所述文字讲述内容添加到所述字幕中。

9、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述获取目标视频的音频，使用多模态大型语言模型对所述音频进行识别，生成带时间轴的音频内容文本，具体包括：

10、通过音视频分离方法获取所述目标视频的音频；

11、使用所述多模态大型语言模型对所述音频进行内容识别，生成带时间轴的音频内容文本，其中，所述音频内容文本包括对白、旁白、背景音乐营造的氛围和音响的含义。

12、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述获取目标视频的图像，使用所述多模态大型语言模型对所述图像进行识别，获得图像内容文本，具体包括：

13、选择需要生成无听障障碍的文字讲述内容的目标视频；

14、获取所述目标视频的图像，其中，所述图像包括关键帧或者全部帧；

15、使用多模态大型语言模型对获取的所述图像进行内容逐帧识别，获得所述目标视频对应的图像内容文本，其中，所述图像内容文本包括描述性语句。

16、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述获取所述目标视频的字幕，使用所述多模态大型语言模型根据所述字幕和所述图像内容文本比对出所述音频内容文本的独有内容并标注，具体包括：

17、获取所述目标视频的字幕，其中，所述字幕包括基础字幕和额外解释信息；

18、使用所述多模态大型语言模型根据字幕和所述图像内容文本与所述音频内容文本进行比对，得到所述音频内容文本的独有内容并标注。

19、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述获取所述目标视频的剧本和演员信息，使用所述多模态大型语言模型将所述图像内容文本、所述剧本和所述演员信息进行对比得到角色识别结果，根据所述角色识别结果对每条音频内容文本标注出对应角色，具体包括：

20、获取所述目标视频的剧本和演员信息，其中，所述剧本包括对白、地点、人物、动作、布景和说话神态；

21、使用所述多模态大型语言模型将所述图像内容文本、所述剧本和所述演员信息进行对比和识别，得到角色识别结果；

22、根据所述角色识别结果对每条带时间轴的音频内容文本标注出对应角色。

23、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述根据标注后的音频内容文本生成提示词，使用所述多模态大型语言模型根据所述提示词引入已有内容生成文字讲述内容，具体包括：

24、根据标注后的音频内容文本生成提示词，所述提示词的内容包括标注后的音频内容文本；

25、使用所述多模态大型语言模型根据所述提示词引入所述目标视频的已有内容，生成含有时间戳和包含所述音频内容文本的独有内容的文字讲述内容；

26、其中，所述文字讲述内容包括听障人士无法正常获取的信息。

27、可选地，所述的无听障障碍的文字讲述内容的生成方法，其中，所述将所述文字讲述内容添加到所述字幕中，之后还包括：

28、获取音响对应的文本，将音响对应的文本作为弹幕进行同步展示。

29、此外，为实现上述目的，本专利技术还提供一种无听障障碍的文字讲述内容的生成系统，其中，所述无听障障碍的文字讲述内容的生成系统包括：

30、音频内容文本获取模块，用于获取目标视频的音频，使用多模态大型语言模型对所述音频进行识别，生成带时间轴的音频内容文本；

31、图像内容文本获取模块，用于获取目标视频的图像，使用所述多模态大型语言模型对所述图像进行识别，获得图像内容文本；

32、独有内容标注模块，用于获取所述目标视频的字幕，使用所述多模态大型语言模型根据字幕和所述图像内容文本比对出所述音频内容文本的独有内容并标注；

33、角色标记模块，用于获取所述目标视频的剧本和演员信息，使用所述多模态大型语言模型将所述图像内容文本、所述剧本和所述演员信息进行对比得到角色识别结果，根据所述角色识别结果对每条音频内容文本标注出对应角色；

34、文字讲述内容生成模块，用于根据标注后的音频内容文本生成提示词，使用所述多模态大型语言模型根据所述提示词引入已有内容生成文字讲述内容；

35、内容添加模块，用于将所述文字讲述内容添加到所述字幕中。

36、此外，为实现上述目的，本专利技术还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无听障障碍的文字讲述内容的生成程序，所述无听障障碍的文字讲述内容的生成程序被所述处理器执行时实现如上所述的无听障障碍的文字讲述内容的生成方法的步骤。

37、此外，为实现上述目的，本专利技术还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有无听障障碍的文字讲述内容的生成程序，所述无听障障碍的文字本文档来自技高网...

【技术保护点】

1.一种无听障障碍的文字讲述内容的生成方法，其特征在于，所述无听障障碍的文字讲述内容的生成方法包括：

2.根据权利要求1所述的无听障障碍的文字讲述内容的生成方法，其特征在于，所述获取目标视频的音频，使用多模态大型语言模型对所述音频进行识别，生成带时间轴的音频内容文本，具体包括：

3.根据权利要求1所述的无听障障碍的文字讲述内容的生成方法，其特征在于，所述获取目标视频的图像，使用所述多模态大型语言模型对所述图像进行识别，获得图像内容文本，具体包括：

4.根据权利要求1所述的无听障障碍的文字讲述内容的生成方法，其特征在于，所述获取所述目标视频的字幕，使用所述多模态大型语言模型根据所述字幕和所述图像内容文本比对出所述音频内容文本的独有内容并标注，具体包括：

5.根据权利要求1所述的无听障障碍的文字讲述内容的生成方法，其特征在于，所述获取所述目标视频的剧本和演员信息，使用所述多模态大型语言模型将所述图像内容文本、所述剧本和所述演员信息进行对比得到角色识别结果，根据所述角色识别结果对每条音频内容文本标注出对应角色，具体包括：

7.根据权利要求1所述的无听障障碍的文字讲述内容的生成方法，其特征在于，所述将所述文字讲述内容添加到所述字幕中，之后还包括：

8.一种无听障障碍的文字讲述内容的生成系统，其特征在于，所述无听障障碍的文字讲述内容的生成系统包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无听障障碍的文字讲述内容的生成程序，所述无听障障碍的文字讲述内容的生成程序被所述处理器执行时实现如权利要求1-7任一项所述的无听障障碍的文字讲述内容的生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有无听障障碍的文字讲述内容的生成程序，所述无听障障碍的文字讲述内容的生成程序被处理器执行时实现如权利要求1-7任一项所述的无听障障碍的文字讲述内容的生成方法的步骤。

...

【技术特征摘要】

1.一种无听障障碍的文字讲述内容的生成方法，其特征在于，所述无听障障碍的文字讲述内容的生成方法包括：

【专利技术属性】
技术研发人员：钦鹏，
申请(专利权)人：重庆市易平方科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人