音转文训练语料的获取方法、装置、设备以及存储介质制造方法及图纸

技术编号：31012559 阅读：23 留言：0更新日期：2021-11-30 00:42

本申请实施例公开了一种音转文训练语料的获取方法、装置、设备以及存储介质，该方法包括：获取目标视频的多个目标视频关键帧，并从各目标视频关键帧中确定出文字位置和文字内容；根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间，不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同；根据字幕识别区间对目标视频的字幕进行识别，以获取待处理字幕，并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕，根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。采用本发明专利技术实施例，可提高视频的字幕提取效率，提高音转文训练语料的获取便捷性，操作简单，适用性高。适用性高。适用性高。

全部详细技术资料下载

【技术实现步骤摘要】
音转文训练语料的获取方法、装置、设备以及存储介质

[0001]本申请涉及计算机软件
，尤其涉及一种音转文训练语料的获取方法、装置、设备以及存储介质。

技术介绍

[0002]随着计算机软件技术的发展，互联网中的视频资源大幅增长，在多种场景下都需要使用到面向视频的字幕提取技术，例如，在语音转文字模型的训练过程中，为了获取训练语料，需要对视频中的字幕进行提取。本申请的专利技术人在研究和实践过程中发现，现有技术中，字幕提取技术需要人工对视频中的字幕区间进行标注，以便在视频的字幕区间内进行文字识别，如采用光学字符识别(Optical Character Recognition，OCR)技术等方法对人工框选的字幕区间内的文字进行识别，以得到视频的字幕，耗费人力多，字幕识别效率低。现有技术中，采用OCR技术等方法识别的字幕识别后并未对字幕进行处理，字幕提取方式粗糙，不适合作为语音转文字模型的训练语料。

技术实现思路

[0003]本申请实施例提供一种音转文训练语料的获取方法、装置、设备以及存储介质，可提高视频的字幕提取效率，提高音转文训练语料的获取便捷性，操作简单，适用性高。
[0004]第一方面，本申请实施例提供一种音转文训练语料的获取方法，该方法包括：
[0005]获取目标视频的多个目标视频关键帧，并从各目标视频关键帧中确定出文字位置和文字内容；
[0006]根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间，其中，不同目标视频关键帧对应于字幕识别区间中的同一位置...

【技术保护点】

【技术特征摘要】
1.一种音转文训练语料的获取方法，其特征在于，所述方法包括：获取目标视频的多个目标视频关键帧，并从各目标视频关键帧中确定出文字位置和文字内容；根据所述各目标视频关键帧中的文字位置和文字内容确定出所述目标视频的字幕识别区间，其中，不同目标视频关键帧对应于所述字幕识别区间中的同一位置的文字内容不同；根据所述字幕识别区间对所述目标视频的字幕进行识别，以从所述目标视频中获取待处理字幕，并根据预设语料获取规则对所述待处理字幕进行字符处理以得到所述目标视频的目标字幕；根据所述目标视频和所述目标字幕生成用于语音识别的音转文训练语料。2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的多个目标视频关键帧包括：获取待处理视频，并确定所述待处理视频的视频关键帧以及所述视频关键帧的帧数；当所述视频关键帧的帧数大于或等于帧数阈值时，将所述待处理视频确定为目标视频，并将所述待处理视频的多个视频关键帧确定为多个目标视频关键帧。3.根据权利要求1所述的方法，其特征在于，所述获取目标视频的多个目标视频关键帧包括：获取待处理视频，并确定所述待处理视频的视频关键帧以及所述视频关键帧的中文字符出现率；当所述待处理视频中任一视频关键帧的中文字符出现率大于或等于出现率阈值时，将所述待处理视频确定为目标视频，并将所述待处理视频的多个视频关键帧确定为多个目标视频关键帧。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述根据所述各目标视频关键帧中的文字位置和文字内容确定出所述目标视频的字幕识别区间包括：从所述各目标视频关键帧的文字位置中确定出至少一个文字位置作为至少一个待选文字识别区间，所述待选文字识别区间的文字内容重复出现的次数小于次数阈值；确定各待选文字识别区间的抖动程度，将抖动程度小于或等于抖动程度阈值的待选文字识别区间确定为所述目标视频的字幕识别区间。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：确定所述各目标视频关键帧的文字位置中出现的文字内容的文本相似度；当任一文字位置中任意两次出现的文字内容的文本...

【专利技术属性】
技术研发人员：王书培，刘攀，邓理英，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人