字幕生成方法及装置、存储介质及电子终端制造方法及图纸

技术编号:18260269 阅读:26 留言:0更新日期:2018-06-20 10:47
本发明专利技术涉及多媒体技术领域,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。本发明专利技术能够保证音频识别结果的连续性和准确性,进而实现对网络直播的音频进行实时识别,有效的保证网络直播视频字幕的时效性和准确性。

Method and device for subtitle generation, storage medium and electronic terminal

The invention relates to the field of multimedia technology, in particular to a subtitle generation method, a subtitle generation device, a storage medium and an electronic terminal. The methods include receiving a live video data from a network, extracting audio data from the video data and storing it as a first audio file, preprocessing the first audio file to obtain second audio files, dividing the second audio files into a number of audio blocks according to the preset length, and using the LSTM model to each of the audio files. The audio block performs speech recognition to obtain the first text data, inputs the first text data into the CTC loss function model to obtain the expected text data, and generates subtitle data according to the desired text data. The invention can ensure the continuity and accuracy of the audio recognition results, and then realize the real-time recognition of the audio broadcast on the network, and effectively ensure the timeliness and accuracy of the live video subtitle of the network.

【技术实现步骤摘要】
字幕生成方法及装置、存储介质及电子终端
本专利技术实施例涉及多媒体
,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。
技术介绍
随着我国互联网的普及以及直播流媒体的流行,网络直播已经成为大众社交的一个重要媒介,被广泛的用在了电子商务、新闻发布会、视频会议等多种即时通讯场景中。网络直播能够提供提供及时的视频、音频服务,但是由于其较强的时效性,无法及时为用户提供字幕服务。相关的视频字幕生成方法往往针对录播视频,且具有一定的处理时间,无法满足网络直播的及时性。而且,由于网络直播往往不具有专业的录制环境,并且视频传出端的网络环境各异,网络直播视频中的音频往往具有更多音质问题。因此,需要一种能够有效应对网络直播视频的实时性、适应网络直播形态的网络直播视频字幕生成方法。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端,进而至少在一定程度上克服相关技术中没有针对网络直播视频进行自动化字幕生成的工具的问题。本专利技术实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的第一方面,提供一种字幕生成方法,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。可选的,对所述第二音频文件分割音频块之前,所述方法还包括:对所述第二音频文件进行去噪处理;对去噪处理后的所述第二音频文件进行语音端点检测。可选的,所述CTC损失函数模型包括:F(a-ab-)=F(-aa-abb)=aab其中:a-ab-’、‘-aa-abb’分别为不同的输入序列。可选的,所述对所述第一音频文件进行预处理包括:提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析;在判断当前音频数据块不可解析时,根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。可选的,在获取所述第一文本数据后,所述方法还包括:确定与所述不可解析数据块的相邻数据块的文本数据;利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。可选的,在生成字幕数据后,所述方法还包括:按预设延时时长将所述字幕数据及对应的所述音频数据发送至延时缓存;对所述字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴;将所述视频数据、字幕数据及所述播放时间轴发送至客户端。可选的,在生成字幕数据后,所述方法还包括:按预设延时时长将所述字幕数据及对应的所述音频数据发送至延时缓存;对所述字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴;对所述视频数据、字幕数据及所述播放时间轴进行同步处理;将同步处理后的字幕数据嵌入所述视频数据并将该视频数据发送至客户端。根据本专利技术的第二方面,提供一种字幕生成装置,包括:音频提取模块,设置为接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;音频预处理模块,设置为对所述第一音频文件进行预处理以获取第二音频文件音频切割模块,设置为将所述第二音频文件按预设长度分割为若干音频块;语音识别模块,设置为利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;字幕生成模块,设置为根据所述期望文本数据生成字幕数据。根据本专利技术的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的字幕生成方法。根据本专利技术的第四方面,提供一种电子终端,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行以下操作:音频提取模块,设置为接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;音频预处理模块,设置为对所述第一音频文件进行预处理以获取第二音频文件音频切割模块,设置为将所述第二音频文件按预设长度分割为若干音频块;语音识别模块,设置为利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;字幕生成模块,设置为根据所述期望文本数据生成字幕数据。本专利技术的一种实施例所提供的字幕生成方法中,通过通过实时提取网络直播视频的音频文件并进行预处理,对音频进行修正、恢复,进而保证后续对音频文件进行语音识别时的准确性。通过利用LSTM模型对音频块进行语音识别,能够更好的预测具有时序性的音频数据。并且通过将LSTN模型的识别结果作为CTC损失函数模型的输入,能够保证音频识别结果的连续性和准确性,进而实现对音频进行实时识别,进而有效的保证字幕的时效性和准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本专利技术实施例中一种字幕生成方法的示意图;图2示意性示出本专利技术实施例中一种字幕生成方法中音频数据预处理的方法示意图;图3示意性示出本专利技术实施例中一种flv格式的数据头示意图;图4示意性示出本专利技术实施例中一种视频文件片段数据示意图;图5示意性示出本专利技术实施例中一种将字幕与视频文件匹配的方法示意图;图6示意性示出本专利技术实施例中另一种将字幕数据与原始视频文件匹配的方法示意图;图7示意性示出本专利技术实施例中一种字幕生成装置的组成示意图;图8示意性示出本专利技术实施例中一种字幕生成装置的另一种示意图;图9示意性示出本专利技术实施例中一种字幕生成装置的再一种示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本专利技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本示例实施方式中首先提供了一种字幕生成方法,可以应用于对网络直播视频生成字幕数据。同样的,所述字幕生成方法也可以应用于直播视频会议、电视直播等场景中。网络直播的影响越本文档来自技高网...
字幕生成方法及装置、存储介质及电子终端

【技术保护点】
1.一种字幕生成方法,其特征在于,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。

【技术特征摘要】
1.一种字幕生成方法,其特征在于,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。2.根据权利要求1所述的字幕生成方法,其特征在于,对所述第二音频文件分割音频块之前,所述方法还包括:对所述第二音频文件进行去噪处理;对去噪处理后的所述第二音频文件进行语音端点检测。3.根据权利要求1所述的字幕生成方法,其特征在于,所述CTC损失函数模型包括:F(a-ab-)=F(-aa-abb)=aab其中:‘a-ab-’、‘-aa-abb’分别为不同的输入序列。4.根据权利要求1所述的字幕生成方法,其特征在于,所述对所述第一音频文件进行预处理包括:提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析;在判断当前音频数据块不可解析时,根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。5.根据权利要求4所述的字幕生成方法,其特征在于,在获取所述第一文本数据后,所述方法还包括:确定与所述不可解析数据块的相邻数据块的文本数据;利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。6.根据权利要求1所述的字幕生成方法,其特征在于,在生成字幕数据后...

【专利技术属性】
技术研发人员:刘兴旺王睿昆刘岩蒲秋霞
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1