视频处理方法、装置、设备以及介质制造方法及图纸

技术编号：40328768 阅读：23 留言：0更新日期：2024-02-09 14:21

本申请实施例提供了一种视频处理方法、装置、设备以及介质，方法包括：获取待处理视频所包含的M个视频帧，获取M个视频帧中每一个视频帧分别对应的字幕文本；根据字幕文本对M个视频帧进行组合，得到N个视频帧集合；根据N个视频帧集合中的相邻视频帧之间的时间间隔，获取每个视频帧集合所对应的字幕文本在待处理视频中的持续时间段；根据持续时间段对待处理视频对应的音频数据进行裁剪，得到每个视频帧集合对应的字幕子音频；根据每个视频帧集合对应的字幕子音频，以及每个视频帧集合对应的字幕文本，生成用于训练语音识别模型的样本数据。采用本申请实施例，可以提高语音识别模型的样本数据获取效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，尤其涉及一种视频处理方法、装置、设备以及介质。

技术介绍

1、语音识别技术(automatic speech recognition，asr)，也被称为自动语音识别或是语音转文本识别，其目标是通过机器对采集到的用户语音数据进行识别，进而将采集到的用户语音数据转换为相应的文本数据。为了保证模型的准确度，需要收集大量的样本数据对模型进行训练。

2、现有的样本数据获取方案，一般是预先收集一定量的文本数据，然后雇人在安静的环境下对该文本数据进行朗读，通过麦克风采集语音数据，形成样本语音数据集。然而，上述的方案需要耗费大量的时间和人力，效率较为低下。

技术实现思路

1、本申请实施例提供一种视频处理方法、装置、设备以及介质，可以降低语音识别模型的样本数据的获取成本，提高语音识别模型的样本数据获取效率。

2、本申请实施例一方面提供了一种视频处理方法，包括：

3、获取待处理视频所包含的m个视频帧，获取m个视频帧中每一个视频帧分别对应的字幕文本；m为正整数；

4本文档来自技高网...

【技术保护点】

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述M个视频帧中每一个视频帧分别对应的字幕文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述字幕文本对所述M个视频帧进行组合，得到N个视频帧集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述N个视频帧集合中的相邻视频帧之间的时间间隔，获取每个视频帧集合所对应的字幕文本在所述待处理视频中的持续时间段，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述持续时间段对所述待处理视频对应的音频数据进行裁剪，得到所...

【技术特征摘要】

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述m个视频帧中每一个视频帧分别对应的字幕文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述字幕文本对所述m个视频帧进行组合，得到n个视频帧集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述n个视频帧集合中的相邻视频帧之间的时间间隔，获取每个视频帧集合所对应的字幕文本在所述待处理视频中的持续时间段，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述持续时间段对所述待处理视频对应的音频数据进行裁剪，得到所述每个视频帧集合所对应的字幕文本的字幕子音频，包括：

6.根据权利要求1-5任...

【专利技术属性】
技术研发人员：谭维，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人