一种字幕显示方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：32130005 阅读：21 留言：0更新日期：2022-01-29 19:27

本申请公开了一种字幕显示方法、装置、电子设备和可读存储介质，属于终端技术领域。字幕显示方法包括：在目标视频播放的过程中，在检测到目标视频的第一图像帧中包括多个第一对象的情况下，根据音频识别模型，从多个第一对象中确定与第一音频数据对应的目标对象，其中，第一音频数据与第一图像帧相对应；根据目标对象所在的显示位置，显示第一音频数据对应的字幕信息；其中，音频识别模型是根据第二图像帧以及与第二图像帧对应的第二音频数据训练得到的，第二图像帧中包括单个第一对象。第二图像帧中包括单个第一对象。第二图像帧中包括单个第一对象。

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕显示方法、装置、电子设备和可读存储介质

[0001]本申请属于终端
，具体涉及一种字幕显示方法、装置、电子设备和可读存储介质。

技术介绍

[0002]目前，字幕已经普遍应用在电影、电视剧、游戏等各种类型的多媒体数据中。通过显示字幕，一方面，能够方便用户欣赏视频原片的声音艺术，另一方面，也便于听力障碍的用户观看视频，获知视频的内容。
[0003]随着技术的发展，目前在视频播放的过程中，能够通过识别模型实现将音频数据实时转换为字幕，但由于难以获得有效的训练数据，因此，实时得到的字幕通常难以与视频中包括人物相对应，影响了用户的观看视频的体验。

技术实现思路

[0004]本申请实施例的目的是提供一种字幕显示方法、装置、电子设备和可读存储介质，能够解决字字幕难以与视频中包括人物相对应，影响用户的观看视频的体验的问题。
[0005]第一方面，本申请实施例提供了一种字幕显示方法，该方法包括：
[0006]在目标视频播放的过程中，在检测到目标视频的第一图像帧中包括多个第一对象的情况下，根...

【技术保护点】

【技术特征摘要】
1.一种字幕显示方法，其特征在于，所述方法包括：在目标视频播放的过程中，在检测到所述目标视频的第一图像帧中包括多个第一对象的情况下，根据音频识别模型，从所述多个第一对象中确定与第一音频数据对应的目标对象，其中，所述第一音频数据与所述第一图像帧相对应；根据所述目标对象所在的显示位置，显示所述第一音频数据对应的字幕信息；其中，所述音频识别模型是根据第二图像帧以及与所述第二图像帧对应的第二音频数据训练得到的，所述第二图像帧中包括单个第一对象。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在检测到所述目标视频的第二图像帧中包括单个第一对象的情况下，获取所述第二音频数据对应的字幕信息；根据所述单个第一对象的显示位置，显示所述字幕信息。3.根据权利要求1所述的方法，其特征在于，在所述根据音频识别模型，从所述多个第一对象中确定与第一音频数据对应的目标对象之前，所述方法还包括：获取训练数据集，所述训练数据集包括所述第二图像帧和所述第二图像帧对应的第二音频数据；根据所述训练数据集，对预设的音频识别网络进行训练，得到所述音频识别模型。4.根据权利要求3所述的方法，其特征在于，所述获取训练数据集，包括：根据所述目标视频中第一对象的发声时间段，对所述目标视频进行分割处理，得到多个与所述第一对象的音频数据对应的图像帧；从多个所述图像帧中，获取包括单个第一对象的第二图像帧，以及所述第二图像帧对应的第二音频数据；建立所述第二音频数据与所述第二图像帧中第一对象的关联关系，以得到所述训练数据集。5.一种字幕显示装置，其特征在于，所述装置包括：处理模块，用于在目标视频播放的过程中，在检测到所述目标视频的第一图像帧中包括多个第一对象的情况下，根据音频识别模型，从所述多个第一对象中确定与第一音频数据对应的目标对象，其中，所述第一...

【专利技术属性】
技术研发人员：黄润，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人