本发明专利技术适用计算机技术领域,提供了一种字幕对准方法及装置,所述方法包括:获取音视频数据和初始字幕数据,对音视频数据进行语音识别,确定音色对应的语音区间,根据语音区间生成带时间轴的第一字幕,并对音视频数据进行语音转换得到转换文本信息,依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准,依据校准结果生成带时间轴的第二字幕。通过本发明专利技术实施例,对音视频数据,可字幕自动对位生成时间轴,并根据语音识别进行再次校准,可对不同音色的语音进行校准,适用于至少一种音色的语音的字幕校准,适用于至少一重字幕的校准,还可对字幕校准进行自修正,大大提高了字幕校准的精准度和适用范围。
【技术实现步骤摘要】
一种字幕对准方法及装置
本专利技术属于计算机
,尤其涉及一种字幕对准方法及装置。
技术介绍
多媒体中使用的媒体包括文字、图片、音频(包含音乐、语音旁白、特殊音效)、视频(动画和影片等),在多媒体制作过程中,可在如图片、音频、视频等播放界面添加字幕,使得在多媒体播放时显示字幕。传统方式使用手拍字幕,通过手动方式确定字幕在时间轴上的起止位置,时间轴上标识句的起止位置,如100句则需要手动输入200次,效率低下,无法适应高精度要求的字幕显示。现有技术中使用软件确定字幕在时间轴上起止位置,但是以句切分,且在出现有多人语音时,无法进一步精确对准字幕,出现将多人语音按噪音处理的现象,字幕校准的精准度低。
技术实现思路
本专利技术的目的在于提供一种字幕校准方法及装置,旨在解决由于现有技术中使用软件校准以句切分,无法进一步精确对准字幕,导致字幕校准精度低的问题。一方面,本专利技术提供了一种字幕校准方法,所述方法包括下述步骤:获取音视频数据和初始字幕数据;对所述音视频数据进行语音识别,确定音色对应的语音区间,根据所述语音区间生成带时间轴的第一字幕,并对所述音视频数据进行语音转换得到转换文本信息;依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生成带时间轴的第二字幕。另一方面,本专利技术提供了一种字幕校准装置,所述装置包括:获取模块,用于获取音视频数据和初始字幕数据;识别模块,用于对所述获取模块获取的音视频数据进行语音识别,确定音色对应的语音区间,根据所述语音区间生成带时间轴的第一字幕,并对所述音视频数据进行语音转换得到转换文本信息;校准模块,用于依据所述获取模块获取的初始字幕数据和/或所述识别模块得到的转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生成带时间轴的第二字幕。在本专利技术实施例中,可获取音视频数据和初始字幕数据,对音视频数据进行语音识别,确定音色对应的语音区间,根据语音区间生成带时间轴的第一字幕,并对音视频数据进行语音转换得到转换文本信息,依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准,依据校准结果生成带时间轴的第二字幕。通过本专利技术实施例,对音视频数据,可字幕自动对位生成时间轴,并根据语音识别进行再次校准,可对不同音色的语音进行校准,大大提高了字幕校准的精准度。附图说明图1是本专利技术实施例一提供的字幕对准方法的实现流程图;图2是本专利技术实施例二提供的字幕对准方法的实现流程图;图3是本专利技术实施例三提供的字幕对准方法的实现流程图;图4是本专利技术实施例四提供的字幕对准方法的示意图;图5是本专利技术实施例五提供的字幕对准装置的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中的字幕校准方法可应用于计算机领域中的多媒体字幕制作,在多媒体制作过程中,如可在图片、音频、视频的播放界面添加字幕,使得在多媒体播放时显示字幕。本专利技术实施例实现对音视频数据,字幕自动对位生成时间轴,并根据语音识别进行再次校准,可对不同音色的语音进行校准,大大提高了字幕校准的精准度。本专利技术实施例中的装置可运行于计算机终端设备中,如用于制作字幕的电脑、服务器等,本专利技术实施例中的字幕校准例如电子书制作中的字幕校准、视频制作中的字幕校准、电子教辅制作中的字幕校准等,还可以包括语音制作中的字幕校准等,具体不受本专利技术实施例的限制。以下结合具体实施例对本专利技术的具体实现进行详细描述:实施例一:图1示出了本专利技术实施例一提供的字幕校准方法的实现流程,为了便于说明,仅示出了与本专利技术实施例相关的部分,详述如下:S101,获取音视频数据和初始字幕数据。作为一种可选的实施方式,获取音视频数据和该音视频数据对应的初始字幕数据,其中,音视频数据可以包括音频数据,视频数据,初始字幕数据可以为原始的字幕底稿,包含字幕文字,进一步的,可包含文字和标点等。S102,对音视频数据进行语音识别,确定音色对应的语音区间,根据语音区间生成带时间轴的第一字幕,并对音视频数据进行语音转换得到转换文本信息。作为一种可选的实施方式,对音视频数据进行语音识别,确定音色对应的语音区间。具体实现中可计算音视频数据的能量和过零率,由计算结果确定所述语音区间;其中,语音区间包括有声区间和无声区间。进一步的,短时过零率为单位时间内过零发生的次数,设为Zn,为避免虚假的过零,提高过零率计算的鲁棒性,引入门限|T|,则Zn为:短时能量:获取到预设的能量阈值和过零率阈值,其中,能量阈值包括最低能量阈值和最高能量阈值,计算音视频数据的短时能量和短时过零率,并判断计算结果是否大于最低能量阈值或大于过零率阈值,若是,则确认是语音信号的起始点,若计算结果大于最高能量阈值,则确认为正常的语音信号,若该语音信号持续一段时间,则确认落入有声区间。进一步的,还可识别音色,进而确定不同音色的语音区间。具体实现中,识别音视频数据中包含的音色标识以及音色标识对应的语音区间,生成音色标识对应的字幕,带时间轴的第一字幕包括音色标识对应的字幕。进一步可选的,对包含多重字幕的情况,通过本专利技术实施例中对音色进行识别,可将不同音色对应不同字幕,生成多个带时间轴的字幕。进一步实现中,可根据语音区间生成带时间轴的第一字幕,并对音视频数据进行语音转换得到转换文本信息。确定不同音色对应的语音区间后,由语音区间生成带时间轴的第一字幕。进一步的,对音视频数据进行语音转换,与语音库中的文本进行匹配,将音视频数据中的语音转换为文本信息。S103,依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准,依据校准结果生成带时间轴的第二字幕。作为一种可选的实施方式,依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准,依据校准结果生成带时间轴的第二字幕。具体实现中,包括:将初始字幕数据与带时间轴的第一字幕进行语音区间的校准;和/或将初始字幕数据与转换文本信息比对,依据比对结果与带时间轴的第一字幕进行字与字的校准。具体实现中,可实现对音色的语音区间的校准,还可实现对语音区间的字与字的校准,还可实现音色的语音区间以及语音区间的字与字的校准,具体不受本专利技术实施例的限制。进一步的,将初始字幕数据与步骤S102中得到的带时间轴的第一字幕进行比较,主要是语音区间的校准。具体实现中,播放带时间轴的第一字幕,对第一字幕进行复读,依据复读的语音波形进行第一字幕与初始字幕数据的校对。更进一步的,还可以将初始字幕数据与转换文本信息进行比对,依据比对结果对带时间轴的第一字幕进行字与字的校准,具体实现中,可先模糊匹配语音区间的字数、关键字、相近字、相似词等,在匹配出现不一致时再次对该语音区间的进行语音识别,然后再一次进行字与字的匹配和校准。进一步,可预设模糊搜索范围,设为局部搜索,如可设为在当前一句话的前后某个停顿或时间值。在匹配准确率低于预设准确率时,则对再次进行语音识别和校准,直到满足预设准确率时,输出带时间轴的第二字幕,最为该音视频数据的最终匹配字幕。其中,预设准确率如可设为90%、95%等。进一步可选的,在步骤S103之后,本专利技术实施例提供的字幕校准方法还可以包本文档来自技高网...

【技术保护点】
一种字幕校准方法,其特征在于,所述方法包括下述步骤:获取音视频数据和初始字幕数据;对所述音视频数据进行语音识别,确定音色对应的语音区间,根据所述语音区间生成带时间轴的第一字幕,并对所述音视频数据进行语音转换得到转换文本信息;依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生成带时间轴的第二字幕。
【技术特征摘要】
1.一种字幕校准方法,其特征在于,所述方法包括下述步骤:获取音视频数据和初始字幕数据;对所述音视频数据进行语音识别,确定音色对应的语音区间,根据所述语音区间生成带时间轴的第一字幕,并对所述音视频数据进行语音转换得到转换文本信息;依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生成带时间轴的第二字幕。2.如权利要求1所述的方法,其特征在于,所述依据所述初始字幕数据和/或转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生成带时间轴的第二字幕,包括:将所述初始字幕数据与所述带时间轴的第一字幕进行语音区间的校准;和/或将所述初始字幕数据与所述转换文本信息比对,依据所述比对结果与所述带时间轴的第一字幕进行字与字的校准。3.如权利要求1所述的方法,其特征在于,所述对所述音视频数据进行语音识别,确定音色对应的语音区间,生成带时间轴的第一字幕,并对所述音视频数据进行语音转换,得到转换文本信息,包括:识别所述音视频数据中包含的音色标识以及所述音色标识对应的语音区间,生成所述音色标识对应的字幕,所述带时间轴的第一字幕包括所述音色标识对应的字幕。4.如权利要求1所述的方法,其特征在于,所述对所述音视频数据进行语音识别,确定音色对应的语音区间,生成带时间轴的第一字幕,并对所述音视频数据进行语音转换得到转换文本信息,包括:计算所述音视频数据的能量和过零率,由所述计算结果确定所述语音区间;所述语音区间包括有声区间和无声区间。5.如权利要求1所述的方法,其特征在于,所述依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准,依据所述校准结果生...
【专利技术属性】
技术研发人员:曹建中,
申请(专利权)人:广东小天才科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。