一种字幕显示方法和装置制造方法及图纸

技术编号：30833863 阅读：27 留言：0更新日期：2021-11-18 12:54

本申请提供了一种字幕显示方法和装置，方法包括：检测目标视频中是否有在说话的目标人物，在检测到有在说话的目标人物时，开始获取目标视频的语音识别结果，直至检测到目标人物不再说话，根据获取的语音识别结果生成目标人物对应的字幕信息，以得到目标视频中每个说话人对应的字幕信息，将目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示，并在显示每个说话人对应的字幕信息时，按对应说话人对应的字幕样式进行显示。本申请能生成目标视频中所包含的各说话人分别对应的字幕信息，并能将每个说话人对应的字幕信息与对应的说话人进行关联显示，在显示时，还能使目标视频中各说话人对应的字幕信息的字幕样式差异化，以提升用户体验。以提升用户体验。以提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕显示方法和装置

[0001]本申请涉及多媒体数据处理
，特别是涉及一种字幕显示方法和装置。

技术介绍

[0002]现有的媒体视频在播放时，通常需要显示字幕信息，以便于媒体视频观看者更好地理解、把握媒体视频传递的信息内容。将字幕显示出来通常需要两个过程，其一，生成字幕信息，其二，显示生成的字幕信息。
[0003]目前的字幕信息生成方式主要为基于语音识别的字幕生成方式，即对媒体视频中的音频信息进行语音识别，获得音频信息对应的文字信息，然后基于文字信息生成字幕信息。由于语音识别仅能做到“听声出字”，但是做不到“听谁在说”，因此，基于语音识别的字幕生成方式无法生成媒体视频中各个说话人分别对应的字幕信息，这意味着目前的字幕显示方案无法显示各个说话人分别对应的字幕信息，并且，目前的字幕显示方案在显示字幕信息时显示方式较单一，用户体验不佳。

技术实现思路

[0004]有鉴于此，本申请提供了一种字幕显示方法和装置，以生成和差异化显示目标视频中每个说话人对应的字幕信息，其技术方案如下：
[0005...

【技术保护点】

【技术特征摘要】
1.一种字幕显示方法，其特征在于，包括：检测目标视频中是否有在说话的目标人物，并在检测到有在说话的目标人物时，开始获取所述目标视频的语音识别结果，直至检测到所述目标人物不再说话；根据获取的语音识别结果生成所述目标人物对应的字幕信息，以得到所述目标视频中每个说话人对应的字幕信息；将所述目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示，并在显示每个说话人对应的字幕信息时，按对应说话人对应的字幕样式进行显示，其中，所述目标视频中至少部分说话人对应的字幕样式不同。2.根据权利要求1所述的字幕显示方法，其特征在于，所述将所述目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示，包括：通过文本或图形的方式，将所述目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示。3.根据权利要求2所述的字幕显示方法，其特征在于，通过文本方式，将所述目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示，包括：在目标视频中每个说话人对应的字幕信息前添加对应说话人的角色信息和/或标签信息，显示添加角色信息和/或标签信息的字幕信息。4.根据权利要求2所述的字幕显示方法，其特征在于，通过图形方式，将所述目标视频中每个说话人对应的字幕信息与对应的说话人进行关联显示，包括：通过图形将所述目标视频中每个说话人对应的字幕信息指向对应的说话人。5.根据权利要求1所述的字幕显示方法，其特征在于，还包括：识别所述目标视频中所包含的人物的属性信息；所述在显示每个说话人对应的字幕信息时，按对应说话人对应的字幕样式进行显示，包括：针对所述目标视频中的每个说话人，基于该说话人的属性信息，以及预先建立的人物属性信息与字幕样式的对应关系，确定该说话人的属性信息对应的字幕样式，作为该说话人对应的字幕样式；按该说话人对应的字幕样式，将该说话人对应的字幕信息进行显示。6.根据权利要求1所述的字幕显示方法，其特征在于，所述检测目标视频中是否有在说话的目标人物，包括：检测目标视频中所包含人物的状态和/或目标视频的音频波形幅值，其中，所述人物的状态包括...

【专利技术属性】
技术研发人员：殷元江，徐平，马添翼，
申请(专利权)人：北京七维视觉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人