视频字幕的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39946949 阅读：4 留言：0更新日期：2024-01-08 23:00

本公开提出一种视频字幕的识别方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及AI医疗、计算机视觉、大模型、深度学习等人工智能技术领域。包括：对视频进行光学字符识别，获取视频的字幕区域中包含的第一词组集及每个第一词组对应的第一位置信息；确定每个第一词组中包含的字符数量及第一位置信息对应的区域面积；根据第一词组对应的定位点坐标、包括的字符数量及区域面积中的至少一项，将第一词组集进行过滤处理，以获取第一字幕；识别视频关联的音频数据，获取第二字幕；将第一字幕、第二字幕及预设的提示词，输入大模型，以获取视频的目标字幕。由此，提高了字幕识别的准确性和召回率，提升了字幕处理的整体效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及ai医疗，计算机视觉、图像处理、大模型、深度学习等人工智能，具体涉及一种视频字幕的识别方法、装置、电子设备及存储介质。

技术介绍

1、在视频领域，字幕提取和识别过程的准确性和召回率，是决定视频质量的关键因素。

技术实现思路

1、本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

2、根据本公开第一方面，提供了一种视频字幕的识别方法，包括：

3、对视频进行光学字符识别，以获取所述视频的字幕区域中包含的第一词组集及所述第一词组集中每个第一词组对应的第一位置信息，所述第一位置信息中包括定位点坐标；

4、确定每个所述第一词组中包含的字符数量及所述第一位置信息对应的区域面积；

5、根据所述第一词组对应的定位点坐标、包括的字符数量及所述区域面积中的至少一项，将所述第一词组集进行过滤处理，以获取第一字幕；

6、对所述视频关联的音频数据进行识别，以获取第二字幕；

7、将所述第一字幕、所述第二字幕及预设的提示词，输入大模型，以获取所述视频的目标字幕。

8、根据本公开第二方面，提供了一种视频字幕的识别装置，包括：

9、第一获取模块，用于对视频进行光学字符识别，以获取所述视频的字幕区域中包含的第一词组集及所述第一词组集中每个第一词组对应的第一位置信息，所述第一位置信息中包括定位点坐标；

10、确定模块，用于确定每个所述第一词组中包含的字符数量及所述第一位置信息对应的区域面积；

11、第二获取模块，用于根据所述第一词组对应的定位点坐标、包括的字符数量及所述区域面积中的至少一项，将所述第一词组集进行过滤处理，以获取第一字幕；

12、第三获取模块，用于对所述视频关联的音频数据进行识别，以获取第二字幕；

13、第四获取模块，用于将所述第一字幕、所述第二字幕及预设的提示词，输入大模型，以获取所述视频的目标字幕。

14、根据本公开的第三方面，提供了一种电子设备，包括：

15、至少一个处理器；以及

16、与所述至少一个处理器通信连接的存储器；其中，

17、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的视频字幕的识别方法。

18、根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的视频字幕的识别方法。

19、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的视频字幕的识别方法的步骤。

20、本公开提供的视频字幕的识别方法、装置、电子设备及存储介质，存在如下有益效果：

21、本公开中，首先对视频进行光学字符识别，获取视频的字幕区域中包含的第一词组集及第一词组集中每个第一词组对应的第一位置信息，然后确定每个第一词组中包含的字符数量及第一位置信息对应的区域面积，再根据第一词组对应的定位点坐标、包括的字符数量及区域面积中的至少一项，将第一词组集进行过滤处理，以获取第一字幕，之后对视频关联的音频数据进行识别，以获取第二字幕，最后将第一字幕、第二字幕及预设的提示词，输入大模型，以获取视频的目标字幕。由此，通过利用大模型，将ocr识别字幕与音频识别的字幕及提示词进行处理，以获取视频的目标字幕，从而提高了字幕识别的准确性和召回率，提升了字幕处理的整体效果。

22、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视频字幕的识别方法，包括：

2.如权利要求1所述的方法，其中，所述根据所述第一词组对应的定位点坐标、包括的字符数量及所述区域面积中的至少一项，将所述第一词组集进行过滤处理，以获取第一字幕，包括：

3.如权利要求2所述的方法，其中，所述确定所述视频中字幕内容的第一排列方向，包括：

4.如权利要求2所述的方法，其中，所述根据所述第一词组对应的定位点坐标，确定所述第一词组中内容的第二排列方向，包括：

5.如权利要求1所述的方法，其中，所述根据所述第一词组对应的定位点坐标、包括的字符数量及所述区域面积中的至少一项，将所述第一词组集进行过滤处理，以获取第一字幕，包括：

6.如权利要求5所述的方法，其中，所述根据各个所述第一词组对应的字体面积，确定所述字幕的参考字体面积，包括：

7.如权利要求5所述的方法，其中，所述根据各个所述第一词组对应的字体面积，确定所述字幕的参考字体面积，包括：

8.如权利要求1-7任一所述的方法，其中，所述对视频进行光学字符识别，以获取所述视频的字幕区域中包含的第一词组集及所

9.如权利要求8所述的方法，其中，在所述对所述第二词组集进行过滤之后，还包括：

10.如权利要求1-7任一所述的方法，其中，在所述将所述第一字幕、所述第二字幕及预设的提示词，输入大模型之前，还包括：

11.如权利要求10所述的方法，其中，所述视频的属性信息包括以下至少一项：视频的类型，视频内容所属的领域，视频的长度及视频的生成时间。

12.如权利要求1-7任一所述的方法，其中，在所述获取所述视频的字幕区域中包含的第一词组集及所述第一词组集中每个第一词组对应的第一位置信息之后，还包括：

13.如权利要求1-7任一所述的方法，其中，在所述获取所述视频的字幕区域中包含的第一词组集及所述第一词组集中每个第一词组对应的第一位置信息之后，还包括：

14.一种视频字幕的识别装置，包括：

15.如权利要求14所述的装置，其中，所述第二获取模块，具体用于：

16.如权利要求15所述的装置，其中，所述第二获取模块，具体用于：

17.如权利要求15所述的装置，其中，所述第二获取模块，具体用于：

18.如权利要求14所述的装置，其中，所述第二获取模块，具体用于：

19.如权利要求18所述的装置，其中，所述第二获取模块，具体用于：

20.如权利要求18所述的装置，其中，所述第二获取模块，具体用于：

21.如权利要求14-20任一所述的装置，其中，其中，所述第一获取模块，具体用于：

22.如权利要求21所述的装置，其中，所述第一获取模块，还用于：

23.如权利要求14-20任一所述的装置，其中，所述第四获取模块，还用于：

24.如权利要求23所述的装置，其中，所述视频的属性信息包括以下至少一项：视频的类型，视频内容所属的领域，视频的长度及视频的生成时间。

25.如权利要求14-20任一所述的装置，其中，所述第一获取模块，还用于：

26.如权利要求14-20任一所述的装置，其中，所述第一获取模块，还用于：

27.一种电子设备，包括：

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的视频字幕的识别方法。

29.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述视频字幕的识别方法的步骤。

...

【技术特征摘要】

1.一种视频字幕的识别方法，包括：

3.如权利要求2所述的方法，其中，所述确定所述视频中字幕内容的第一排列方向，包括：

4.如权利要求2所述的方法，其中，所述根据所述第一词组对应的定位点坐标，确定所述第一词组中内容的第二排列方向，包括：

6.如权利要求5所述的方法，其中，所述根据各个所述第一词组对应的字体面积，确定所述字幕的参考字体面积，包括：

7.如权利要求5所述的方法，其中，所述根据各个所述第一词组对应的字体面积，确定所述字幕的参考字体面积，包括：

8.如权利要求1-7任一所述的方法，其中，所述对视频进行光学字符识别，以获取所述视频的字幕区域中包含的第一词组集及所述第一词组集中每个第一词组对应的第一位置信息，包括：

9.如权利要求8所述的方法，其中，在所述对所述第二词组集进行过滤之后，还包括：

10.如权利要求1-7任一所述的方法，其中，在所述将所述第一字幕、所述第二字幕及预设的提示词，输入大模型之前，还包括：

11.如权利要求10所述的方法，其中，所述视频的属性信息包括以下至少一项：视频的类型，视频内容所属的领域，视频的长度及视频的生成时间。

13.如权利要求1-...

【专利技术属性】
技术研发人员：马胜杰，商晨，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人