一种字幕显示方法、装置、电子设备及存储介质制造方法及图纸

技术编号：27944725 阅读：21 留言：0更新日期：2021-04-02 14:27

本公开实施例公开了一种字幕显示方法、装置、电子设备及存储介质。包括：实时采集直播音视频数据流，并确定与直播音视频数据流对应的字幕数据；按照预设方式对字幕数据进行切分，生成至少一条子字幕数据；确定每条子字幕数据的开始播放时间和结束播放时间；基于开始播放时间和结束播放时间，将每条子字幕数据叠加至对应的直播音视频数据流上；播放带字幕数据的直播音视频数据流。本公开实施例提供的字幕显示方法，可以使字幕数据在音视频直播画面中按句呈现，长度适中，不仅实现“影院级”字幕的呈现方式，方便用户观看、理解字幕内容，而且也可有效保证字幕数据在音视频直播画面中显示的稳定性，保证直播的“音画同步”。

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕显示方法、装置、电子设备及存储介质
本公开实施例涉及计算机
，尤其涉及一种字幕显示方法、装置、电子设备及存储介质。
技术介绍
目前，同声传译在各种会议、传媒活动、广播授课等领域被广泛使用。尤其在许多跨语言的直播中往往会配备同声传译字幕，将主讲者的语言通过语音识别技术和机器翻译技术，转化为观众的语言并实时显示在直播画面中，以此来解决观众不懂外语而无法理解直播内容的问题。相关技术中，主要基于“打字机”的方式将同声传译字幕展示在直播画面中，也即跟随主讲人的讲话速度，对采集的语音信息边进行语音识别和机器翻译，边将同声传译字幕展示在直播画面中。由于语音识别获取的字幕的断句方式和句子结构还没有固定，需要不断根据字幕内容进行调整，从而机器翻译字幕也会适应性调整，而“打字机”方式使得字幕还没有稳定就进行显示，导致字幕在直播画面中跳动性很大。而字幕的不断跳动，使得观众观看字幕时容易视觉疲劳，观众视觉难以聚焦，且上下文容易干扰理解。另一方面，每句字幕内容的停留时间短，观众很可能读不完当前字幕就跳动到下一句字幕，导致观众的实

【技术保护点】
1.一种字幕显示方法，其特征在于，包括：/n实时采集直播音视频数据流，并确定与所述直播音视频数据流对应的字幕数据；/n按照预设方式对所述字幕数据进行切分，生成至少一条子字幕数据；/n确定每条子字幕数据的开始播放时间和结束播放时间；/n基于所述开始播放时间和所述结束播放时间，将每条子字幕数据叠加至对应的直播音视频数据流上；/n播放带字幕数据的直播音视频数据流。/n

【技术特征摘要】
1.一种字幕显示方法，其特征在于，包括：
实时采集直播音视频数据流，并确定与所述直播音视频数据流对应的字幕数据；
按照预设方式对所述字幕数据进行切分，生成至少一条子字幕数据；
确定每条子字幕数据的开始播放时间和结束播放时间；
基于所述开始播放时间和所述结束播放时间，将每条子字幕数据叠加至对应的直播音视频数据流上；
播放带字幕数据的直播音视频数据流。

2.根据权利要求1所述的方法，其特征在于，按照预设方式对所述字幕数据进行切分，包括：
在确定与所述直播音视频数据流对应的字幕数据的过程中，基于语音边界检测VAD方式对所述字幕数据进行切分；和/或基于知识图谱对所述字幕数据进行切分；或者，
基于预设字符数量对所述字幕数据进行切分，以使每条字幕数据包含所述预设字符数量的字符。

3.根据权利要求1所述的方法，其特征在于，确定与所述直播音视频数据流对应的字幕数据，包括：
从所述直播音视频数据流中提取音频数据流；
基于所述音频数据流确定与所述直播音视频数据流对应的字幕数据。

4.根据权利要求3所述的方法，其特征在于，基于所述音频数据流确定与所述直播音视频数据流对应的字幕数据，包括：
对所述音频数据流进行语音识别，生成属于第一语种的字幕数据；
将所述属于第一语种的字幕数据翻译为属于第二语种的字幕数据；
将所述属于第一语种的字幕数据和所述属于第二语种的字幕数据，确定为所述直播音视频数据流对应的字幕数据。

5.根据权利要求4所述的方法，其特征在于，将所述属于第一语种的字幕数据和所述属于第二语种的字幕数据，确定为所述直播音视频数据流对应的字幕数据，包括：
根据接收到的修正信息，对所述属于第一语种的字幕数据和所述属于第二语种的字幕数据进行修正；
将修正后的属于第一语种的字幕数据和修正后的属于第二语种的字幕数据，确定为所述直播音视频数据...

【专利技术属性】
技术研发人员：李秋平，刘坚，李磊，王明轩，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人