用于移动终端的字幕生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:28056829 阅读:15 留言:0更新日期:2021-04-14 13:28
本公开公开了用于移动终端的字幕生成方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及语音识别、自然语言处理技术领域,具体实现方案为:获取基于音频数据采集设备采集的输入语音;采用语音识别模型,将输入语音转换为输入文字;获取配置于输入视频的时间轴;将输入文字添加至用户选择的输入视频的时间轴片段,提供了一种在移动终端为视频添加字幕的方法,相较于在个人计算机端使用专业软件工具为视频添加字幕,节省了学习成本,简化了字幕添加流程。字幕添加流程。字幕添加流程。

【技术实现步骤摘要】
用于移动终端的字幕生成方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,具体涉及语音识别、自然语言处理等人工智能
,尤其涉及用于移动终端的字幕生成方法、装置、设备以及存储介质。

技术介绍

[0002]随着移动互联网的进一步发展,在当今内容为王的大趋势下,搭建和提供更多高质量的内容显得尤为重要。而作为内容生产的大户,用户内容生态也如雨后春笋一般不断涌现,其中视频承载内容体系要优于图文、音频等。但专业的视频剪辑、音频处理等存在着学习成本高,个人用户入门困难,花费时间长等问题,这些问题会反向抑制用户创作者的热情和想法。尤其在移动互联网时代,大部分的用户操作设备仅仅是一部手机,不具备更多专业设备进行后期处理。

技术实现思路

[0003]本公开提供了用于移动终端的字幕生成方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种用于移动终端的字幕生成方法,包括:获取基于音频数据采集设备采集的输入语音;采用语音识别模型,将输入语音转换为输入文字;获取配置于输入视频的时间轴;将输入文字添加至用户选择的输入视频的时间轴片段。
[0005]根据本公开的第二方面,提供了一种用于移动终端的字幕生成装置,包括:第一获取模块,被配置为获取基于音频数据采集设备采集的输入语音;转换模块,被配置为采用语音识别模型,将输入语音转换为输入文字;第二获取模块,被配置为获取配置于输入视频的时间轴;添加模块,被配置为将输入文字添加至用户选择的输入视频的时间轴片段。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0007]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0008]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行如第一方面中任一实现方式描述的方法。
[0009]本公开提供的用于移动终端的字幕生成方法、装置、设备以及存储介质,首先获取基于音频数据采集设备采集的输入语音;之后采用语音识别模型,将输入语音转换为输入文字;而后获取配置于输入视频的时间轴;最后将输入文字添加至用户选择的输入视频的时间轴片段,从而提供了一种在移动终端为视频添加字幕的方法,相较于在个人计算机端使用专业软件工具为视频添加字幕,节省了学习成本,简化了字幕添加流程。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0012]图1是本申请可以用于其中的示例性系统架构图;
[0013]图2是根据本申请的用于移动终端的字幕生成方法的一个实施例的流程示意图;
[0014]图3是根据本申请的用于移动终端的字幕生成方法的另一个实施例的流程示意图;
[0015]图4是根据本申请的用于移动终端的字幕生成方法的一个实施例的应用场景示意图;
[0016]图5是本申请的用于移动终端的字幕生成装置的一个实施例的结构示意图;
[0017]图6是用来实现本申请实施例的用于移动终端的字幕生成方法的电子设备的框图。
具体实施方式
[0018]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0019]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0020]图1示出了可以应用本申请的用于移动终端的字幕生成方法或用于移动终端的字幕生成装置的实施例的示例性系统架构100。
[0021]如图1所示,系统架构100可以包括移动终端101、网络102、服务器103。网络102用以在移动终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0022]移动终端101可以通过网络102与服务器103交互。移动终端101包括但不限于智能手机、平板电脑等移动终端。服务器103可以提供各种服务,例如服务器103可以对从移动终端101获取到用户输入语音等数据进行在线语音识别等处理,生成处理结果(例如将用户输入语音转换为输入文字)。
[0023]需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0024]需要说明的是,本申请实施例所提供的用于移动终端的字幕生成方法一般由移动终端101执行,相应地,用于移动终端的字幕生成装置一般设置于移动终端101中。
[0025]应该理解,图1中的移动终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的移动终端、网络和服务器。
[0026]继续参考图2,示出了根据本申请的用于移动终端的字幕生成方法的一个实施例的流程200。该方法包括以下步骤:
[0027]步骤S201,获取基于音频数据采集设备采集的输入语音。
[0028]在本实施例中,用于移动终端的字幕生成方法的执行主体(例如图1所示的移动终端101)可以获取基于音频数据采集设备采集的输入语音。
[0029]其中,音频数据采集设备可以安装于移动终端101中。其中,输入语音可以是利用音频处理软件捕获、截取的声音,例如剥离视频中的语音,或从音频中截取一段声音。其中,剥离视频中的语音可以是对视频进行图像

声音数据分离处理,从而分别提取到连续图像数据和连续声音数据。
[0030]可选地,输入语音还可以是利用麦克风录制的用户语音。其中,麦克风设备可以集成于移动终端101中,响应于开启麦克风设备,上述执行主体可以采用麦克风设备采集用户语音。此时用户可以语音输入想要成为字幕的内容,相较于简单的手动输入要添加的字幕,不但提升了输入速度,还简化了操作流程,从而提升了用户内容的时效性。
[0031]步骤S202,采用语音识别模型,将输入语音转换为输入文字。
[0032]在本实施例中,上述执行主体可以采用语音识别模型,将输入语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于移动终端的字幕生成方法,包括:获取基于音频数据采集设备采集的输入语音;采用语音识别模型,将所述输入语音转换为输入文字;获取配置于输入视频的时间轴;将所述输入文字添加至用户选择的所述输入视频的时间轴片段。2.根据权利要求1所述的方法,其中,所述输入语音包括用户基于预设的操作方式对所述输入语音的至少一个时间节点所做的断点标识,以及所述采用语音识别模型,将所述输入语音转换为输入文字还包括:基于所述断点标识,对所述输入语音进行截取以获取多条输入文字。3.根据权利要求1所述的方法,还包括:基于用户选择的预设的美术效果,对所述输入文字进行装饰。4.根据权利要求1所述的方法,还包括:将所述输入文字与所述输入视频进行合并处理,生成附带文字的视频数据。5.根据权利要求1

4任一项所述的方法,其中,所述音频数据采集设备为移动终端麦克风设备。6.一种用于移动终端的字幕生成装置,包括:第一获取模块,被配置为获取基于音频数据采集设备采集的输入语音;转换模块,被配置为采用语音识别模型,将所述输入语音转换为输入文字;第二获取模块,被配置为获取配置于输入视频的时间轴;添加模块,被配置为将所述输入文字添加至用户选择的所述输入视频的时间轴片段。7.根据权利要求6所述的装置,其中,所述输入语音...

【专利技术属性】
技术研发人员:董晓飞
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1