The invention relates to the field of multimedia technology, in particular to a subtitle generation method, a subtitle generation device, a storage medium and an electronic terminal. The methods include receiving a live video data from a network, extracting audio data from the video data and storing it as a first audio file, preprocessing the first audio file to obtain second audio files, dividing the second audio files into a number of audio blocks according to the preset length, and using the LSTM model to each of the audio files. The audio block performs speech recognition to obtain the first text data, inputs the first text data into the CTC loss function model to obtain the expected text data, and generates subtitle data according to the desired text data. The invention can ensure the continuity and accuracy of the audio recognition results, and then realize the real-time recognition of the audio broadcast on the network, and effectively ensure the timeliness and accuracy of the live video subtitle of the network.
【技术实现步骤摘要】
字幕生成方法及装置、存储介质及电子终端
本专利技术实施例涉及多媒体
,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。
技术介绍
随着我国互联网的普及以及直播流媒体的流行,网络直播已经成为大众社交的一个重要媒介,被广泛的用在了电子商务、新闻发布会、视频会议等多种即时通讯场景中。网络直播能够提供提供及时的视频、音频服务,但是由于其较强的时效性,无法及时为用户提供字幕服务。相关的视频字幕生成方法往往针对录播视频,且具有一定的处理时间,无法满足网络直播的及时性。而且,由于网络直播往往不具有专业的录制环境,并且视频传出端的网络环境各异,网络直播视频中的音频往往具有更多音质问题。因此,需要一种能够有效应对网络直播视频的实时性、适应网络直播形态的网络直播视频字幕生成方法。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端,进而至少在一定程度上克服相关技术中没有针对网络直播视频进行自动化字幕生成的工具的问题。本专利技术实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的第一方面,提供一种字幕生成方法,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音 ...
【技术保护点】
1.一种字幕生成方法,其特征在于,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。
【技术特征摘要】
1.一种字幕生成方法,其特征在于,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。2.根据权利要求1所述的字幕生成方法,其特征在于,对所述第二音频文件分割音频块之前,所述方法还包括:对所述第二音频文件进行去噪处理;对去噪处理后的所述第二音频文件进行语音端点检测。3.根据权利要求1所述的字幕生成方法,其特征在于,所述CTC损失函数模型包括:F(a-ab-)=F(-aa-abb)=aab其中:‘a-ab-’、‘-aa-abb’分别为不同的输入序列。4.根据权利要求1所述的字幕生成方法,其特征在于,所述对所述第一音频文件进行预处理包括:提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析;在判断当前音频数据块不可解析时,根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。5.根据权利要求4所述的字幕生成方法,其特征在于,在获取所述第一文本数据后,所述方法还包括:确定与所述不可解析数据块的相邻数据块的文本数据;利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。6.根据权利要求1所述的字幕生成方法,其特征在于,在生成字幕数据后...
【专利技术属性】
技术研发人员:刘兴旺,王睿昆,刘岩,蒲秋霞,
申请(专利权)人:泰康保险集团股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。