字幕处理方法、装置及电子设备制造方法及图纸

技术编号：27132845 阅读：24 留言：0更新日期：2021-01-25 20:20

本申请公开了字幕处理方法、装置及电子设备，属于通信技术领域，所述方法包括：按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段所述第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理。本申请公开的字幕处理方法，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。人力资源。人力资源。

全部详细技术资料下载

【技术实现步骤摘要】
字幕处理方法、装置及电子设备

[0001]本专利技术实施例涉及通信
，尤其涉及一种字幕处理方法、装置及电子设备。

技术介绍

[0002]随着短视频的流行，用电子设备直接制作短视频的博主越来越多。为了追求更加优质的制作效果以及帮助听力障碍的人士了解短视频内容，通常在短视频中添加字幕。
[0003]目前在为短视频添加字幕时，通过长语音识别方式将视频语音转换成字幕。但由于短视频录制时可能录入有噪声或与短视频内容不相关的其他声音，字幕转换后会将噪声或者其他声音也转入到字幕中，比如：街头小贩叫卖的广告语，影响字幕转换的准确性。为提升字幕转换的精准性，目前主要是通过人工核查筛选噪声或其他声音转换的字幕，该种方式不仅耗费大量的人力资源且耗时长。

技术实现思路

[0004]本申请实施例的目的是提供一种字幕处理方法，能够解决现有的字幕处理方法耗费大量人力资源且耗时长的问题。
[0005]为了解决上述技术问题，本专利技术是这样实现的：
[0006]第一方面，本申请实施例提供了一种字幕处理方法，按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段所述第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕；对所述第一字幕的处理包括以下至少...

【技术保护点】

【技术特征摘要】
1.一种字幕处理方法，其特征在于，所述方法包括：按照预设方式生成视频语音中的各噪音片段对应的第一字幕；显示每段所述第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕；对所述第一字幕的处理包括以下至少之一：删除、恢复以及编辑。2.根据权利要求1所述的方法，其特征在于，所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤，包括：将视频语音划分为多个语音片段；分别确定各所述语音片段所属的类别；将第一类别中包含的各语音片段确定为待筛选语音片段，其中，所述第一类别中包含的语音片段数量小于预设数量；针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪音片段；分别将各所述噪音片段转换为第一字幕。3.根据权利要求2所述的方法，其特征在于，针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪声片段的步骤，包括：针对各所述待筛选语音片段，确定所述待筛选语音片段的声音归属者的第一人物信息；确定所述待筛选语音片段对应的视频图像帧中人物的第二人物信息；所述第一人物信息与所述第二人物信息不匹配的情况下，确定所述待筛选语音片段为噪音片段；在所述第一人物信息与所述第二人物信息匹配的情况下，确定所述待筛选语音片段与上下文的语义是否连贯；在所述待筛选语音片段与上下文的语义不连贯的情况下，确定所述待筛选语音片段为噪音片段。4.根据权利要求2所述的方法，其特征在于，所述分别确定各所述语音片段所属的类别的步骤，包括：分别提取各所述语音片段的语音特征向量；将语音特征向量相似度大于预设相似度的各所述语音片段，划分至同一类别。5.根据权利要求1所述的方法，其特征在于，所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤，包括：将所述视频语音转换成字幕文本；将所述字幕文本和视频图像输入预先训练的多模态模型中，筛选得到各段噪音片段对应的第一字幕。6.一种字幕处理装置，其特征在于，所述装置包括：
生成模块，用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕；显示...

【专利技术属性】
技术研发人员：海同舟，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人