字幕处理方法、装置及电子设备制造方法及图纸

技术编号:27132845 阅读:24 留言:0更新日期:2021-01-25 20:20
本申请公开了字幕处理方法、装置及电子设备,属于通信技术领域,所述方法包括:按照预设方式生成视频语音中的各噪音片段对应的第一字幕;在编辑区域中显示每段所述第一字幕和预设控件;在接收到对目标预设控件的第一输入的情况下,响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理。本申请公开的字幕处理方法,可自动筛选出噪音片段对应的字幕,无需用户手动筛选,耗时短且可节省大量的人力资源。人力资源。人力资源。

【技术实现步骤摘要】
字幕处理方法、装置及电子设备


[0001]本专利技术实施例涉及通信
,尤其涉及一种字幕处理方法、装置及电子设备。

技术介绍

[0002]随着短视频的流行,用电子设备直接制作短视频的博主越来越多。为了追求更加优质的制作效果以及帮助听力障碍的人士了解短视频内容,通常在短视频中添加字幕。
[0003]目前在为短视频添加字幕时,通过长语音识别方式将视频语音转换成字幕。但由于短视频录制时可能录入有噪声或与短视频内容不相关的其他声音,字幕转换后会将噪声或者其他声音也转入到字幕中,比如:街头小贩叫卖的广告语,影响字幕转换的准确性。为提升字幕转换的精准性,目前主要是通过人工核查筛选噪声或其他声音转换的字幕,该种方式不仅耗费大量的人力资源且耗时长。

技术实现思路

[0004]本申请实施例的目的是提供一种字幕处理方法,能够解决现有的字幕处理方法耗费大量人力资源且耗时长的问题。
[0005]为了解决上述技术问题,本专利技术是这样实现的:
[0006]第一方面,本申请实施例提供了一种字幕处理方法,按照预设方式生成视频语音中的各噪音片段对应的第一字幕;在编辑区域中显示每段所述第一字幕和预设控件;在接收到对目标预设控件的第一输入的情况下,响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理;其中,预设方式包括以下至少之一:依据预设参数确定语音片段是否为噪音片段,并将噪音片段转换为第一字幕;依据预先训练的多模态模型,生成视频语音中的各段噪音片段对应的第一字幕;对所述第一字幕的处理包括以下至少之一:删除、恢复以及编辑。
[0007]第二方面,本申请实施例提供了一种字幕处理装置,其中,所述装置包括:生成模块,用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕;显示模块,用于在编辑区域中显示每段所述第一字幕和预设控件;处理模块,用于在接收到对目标预设控件的第一输入的情况下,响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理;其中,预设方式包括以下至少之一:依据预设参数确定语音片段是否为噪音片段,并将噪音片段转换为第一字幕;依据预先训练的多模态模型,生成视频语音中的各段噪音片段对应的第一字幕;对所述第一字幕的处理包括以下至少之一:删除、恢复以及编辑。
[0008]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0009]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0010]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述
通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0011]本申请实施例中,通过按照预设方式生成视频语音中的各噪音片段对应的第一字幕;在编辑区域中显示每段第一字幕和预设控件;在接收到对目标预设控件的第一输入的情况下,响应于第一输入对目标预设控件对应的第一字幕进行处理,可自动筛选出噪音片段对应的字幕,无需用户手动筛选,耗时短且可节省大量的人力资源。不仅如此,用户还可以灵活地对系统筛选出的各噪音片段对应的第一字幕进行处理,既可提升字幕筛选的准确性,又可满足用户的个性化需求。
附图说明
[0012]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是表示本申请实施例的一种字幕处理方法的步骤流程图;
[0014]图2是表示本申请实施例的字幕编辑界面示意图;
[0015]图3是表示本申请实施例的一种字幕处理装置的结构框图;
[0016]图4是表示本申请实施例的一种电子设备的结构框图;
[0017]图5是表示本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0020]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的字幕处理方法进行详细地说明。
[0021]参照图1,示出了本申请实施例的一种字幕处理方法的步骤流程图。
[0022]本申请实施例的字幕处理方法包括以下步骤:
[0023]步骤101:按照预设方式生成视频语音中的各噪音片段对应的第一字幕。
[0024]其中,预设方式包括以下至少之一:依据预设参数确定语音片段是否为噪音片段,并将噪音片段转换为第一字幕;依据预先训练的多模态模型,生成视频语音中的各段噪音片段对应的第一字幕。在具体实现过程中,可采用上述至少一种预设方式生成各噪音片段
对应的第一字幕。
[0025]本申请实施例中的所示的噪音片段为与视频主体内容不相关的语音片段,例如:视频拍摄地的噪音、视频的背景音乐或者旁人发出的声音等。
[0026]步骤102:在编辑区域中显示每段第一字幕和预设控件。
[0027]每段第一字幕可分别对应一组预设控件,也可以全部第一字幕对应一组预设控件,一组预设控件包括至少一个预设控件。
[0028]预设控件可以为虚拟按键,一组预设控件中的不同预设控件的作用不同,通过对不同作用的预设控件执行输入操作,可触发系统对被执行输入操作的预设控件对应的第一字幕进行相应处理。
[0029]步骤103:在接收到对目标预设控件的第一输入的情况下,响应于第一输入对目标预设控件对应的第一字幕进行处理。
[0030]对第一字幕的处理包括以下至少之一:删除、恢复以及编辑。
[0031]如图2中所示的字幕编辑界面所示,在确定第一字幕后在编辑区域中将第一字幕置灰显示,并提示用户已删除字幕置灰位置,同时显示有“编辑”这一预设控件,用户可对“编辑”控件执行第一输入,对当前显示的字幕进行编辑,如恢复部分置灰的第一字幕,或者调整置灰部分的第一字幕本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字幕处理方法,其特征在于,所述方法包括:按照预设方式生成视频语音中的各噪音片段对应的第一字幕;显示每段所述第一字幕和预设控件;在接收到对目标预设控件的第一输入的情况下,响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理;其中,预设方式包括以下至少之一:依据预设参数确定语音片段是否为噪音片段,并将噪音片段转换为第一字幕;依据预先训练的多模态模型,生成视频语音中的各段噪音片段对应的第一字幕;对所述第一字幕的处理包括以下至少之一:删除、恢复以及编辑。2.根据权利要求1所述的方法,其特征在于,所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤,包括:将视频语音划分为多个语音片段;分别确定各所述语音片段所属的类别;将第一类别中包含的各语音片段确定为待筛选语音片段,其中,所述第一类别中包含的语音片段数量小于预设数量;针对各所述待筛选语音片段,依据预设参数确定所述待筛选语音片段是否为噪音片段;分别将各所述噪音片段转换为第一字幕。3.根据权利要求2所述的方法,其特征在于,针对各所述待筛选语音片段,依据预设参数确定所述待筛选语音片段是否为噪声片段的步骤,包括:针对各所述待筛选语音片段,确定所述待筛选语音片段的声音归属者的第一人物信息;确定所述待筛选语音片段对应的视频图像帧中人物的第二人物信息;所述第一人物信息与所述第二人物信息不匹配的情况下,确定所述待筛选语音片段为噪音片段;在所述第一人物信息与所述第二人物信息匹配的情况下,确定所述待筛选语音片段与上下文的语义是否连贯;在所述待筛选语音片段与上下文的语义不连贯的情况下,确定所述待筛选语音片段为噪音片段。4.根据权利要求2所述的方法,其特征在于,所述分别确定各所述语音片段所属的类别的步骤,包括:分别提取各所述语音片段的语音特征向量;将语音特征向量相似度大于预设相似度的各所述语音片段,划分至同一类别。5.根据权利要求1所述的方法,其特征在于,所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤,包括:将所述视频语音转换成字幕文本;将所述字幕文本和视频图像输入预先训练的多模态模型中,筛选得到各段噪音片段对应的第一字幕。6.一种字幕处理装置,其特征在于,所述装置包括:
生成模块,用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕;显示...

【专利技术属性】
技术研发人员:海同舟
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利