用于移动终端的字幕生成方法、装置、设备以及存储介质制造方法及图纸

技术编号：28056829 阅读：25 留言：0更新日期：2021-04-14 13:28

本公开公开了用于移动终端的字幕生成方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及语音识别、自然语言处理技术领域，具体实现方案为：获取基于音频数据采集设备采集的输入语音；采用语音识别模型，将输入语音转换为输入文字；获取配置于输入视频的时间轴；将输入文字添加至用户选择的输入视频的时间轴片段，提供了一种在移动终端为视频添加字幕的方法，相较于在个人计算机端使用专业软件工具为视频添加字幕，节省了学习成本，简化了字幕添加流程。字幕添加流程。字幕添加流程。

全部详细技术资料下载

【技术实现步骤摘要】
用于移动终端的字幕生成方法、装置、设备以及存储介质

[0001]本公开涉及计算机
，具体涉及语音识别、自然语言处理等人工智能
，尤其涉及用于移动终端的字幕生成方法、装置、设备以及存储介质。

技术介绍

[0002]随着移动互联网的进一步发展，在当今内容为王的大趋势下，搭建和提供更多高质量的内容显得尤为重要。而作为内容生产的大户，用户内容生态也如雨后春笋一般不断涌现，其中视频承载内容体系要优于图文、音频等。但专业的视频剪辑、音频处理等存在着学习成本高，个人用户入门困难，花费时间长等问题，这些问题会反向抑制用户创作者的热情和想法。尤其在移动互联网时代，大部分的用户操作设备仅仅是一部手机，不具备更多专业设备进行后期处理。

技术实现思路

[0003]本公开提供了用于移动终端的字幕生成方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面，提供了一种用于移动终端的字幕生成方法，包括：获取基于音频数据采集设备采集的输入语音；采用语音识别模型，将输入语音转换为输入文字；获取配置于输入视频的时间轴...

【技术保护点】

【技术特征摘要】
1.一种用于移动终端的字幕生成方法，包括：获取基于音频数据采集设备采集的输入语音；采用语音识别模型，将所述输入语音转换为输入文字；获取配置于输入视频的时间轴；将所述输入文字添加至用户选择的所述输入视频的时间轴片段。2.根据权利要求1所述的方法，其中，所述输入语音包括用户基于预设的操作方式对所述输入语音的至少一个时间节点所做的断点标识，以及所述采用语音识别模型，将所述输入语音转换为输入文字还包括：基于所述断点标识，对所述输入语音进行截取以获取多条输入文字。3.根据权利要求1所述的方法，还包括：基于用户选择的预设的美术效果，对所述输入文字进行装饰。4.根据权利要求1所述的方法，还包括：将所述输入文字与所述输入视频进行合并处理，生成附带文字的视频数据。5.根据权利要求1
‑
4任一项所述的方法，其中，所述音频数据采集设备为移动终端麦克风设备。6.一种用于移动终端的字幕生成装置，包括：第一获取模块，被配置为获取基于音频数据采集设备采集的输入语音；转换模块，被配置为采用语音识别模型，将所述输入语音转换为输入文字；第二获取模块，被配置为获取配置于输入视频的时间轴；添加模块，被配置为将所述输入文字添加至用户选择的所述输入视频的时间轴片段。7.根据权利要求6所述的装置，其中，所述输入语音...

【专利技术属性】
技术研发人员：董晓飞，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人