一种媒体文件字幕的生成方法、装置及电子设备制造方法及图纸

技术编号:14398172 阅读:104 留言:0更新日期:2017-01-11 11:49
本发明专利技术的实施例提供一种媒体文件字幕的生成方法、装置及电子设备,其中,方法包括对所述媒体文件的音频信息进行分段,得到多段分段音频信息;对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息;将所述目标音频信息识别为相应的文字;对所述文字进行处理,生成所述媒体文件的字幕信息。本发明专利技术通过对媒体文件的音频分段和处理,得到末端帧不含话音音频信息的目标音频信息,避免了一个文字的语音被切分在两段音频中,提高语音识别生成字幕的准确性。

【技术实现步骤摘要】

本专利技术涉及电子
,尤其涉及一种媒体文件字幕的生成方法、装置及电子设备
技术介绍
媒体文件播放时,经常遇到以下几种情况:(1)由于不同地区语言的发音差别很大,很多人听不懂普通话;(2)一些媒体文件的台词中包括不同地区的方言,很多人难以理解这些地区方言;(3)一些媒体文件背景音或者媒体文件播放环境的噪音较大,造成很多人听不清其中的台词。针对上述几种情况,若将媒体内容的语音内容以字幕方式显示,可以帮助观众更好的理解媒体文件的内容。然而很多媒体文件没有字幕或者字幕时间戳不对,不便于观众理解媒体文件的内容。现有技术采用语音识别生成媒体文件的字幕,这种方法主要采用预设时间对音频进行分段,逐段识别,但是这种根据固定时间随意分段音频的方式往往造成语音识别不准确。为此,需要解决如下技术问题:提高语音识别生成字幕的准确性。
技术实现思路
本专利技术提出了一种媒体文件字幕的生成方法、装置及电子设备,通过对媒体文件中的音频进行分段和处理,得到末端帧不含话音音频信息的目标音频信息,进而对目标音频信息进行语音识别,生成媒体文件的字幕信息,避免了一个文字的语音被切分在两段音频中,提高了语音识别生成字幕的准确性。在一个方面,本专利技术实施例提供了媒体文件字幕的生成方法,用于电子设备,所述方法包括:对媒体文件的音频信息进行分段,得到多段分段音频信息;对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息;将所述目标音频信息识别为相应的文字;对所述文字进行处理,生成所述媒体文件的字幕信息。其中,所述对所述媒体文件的音频信息进行分段,得到多段分段音频信息,具体为:对所述媒体文件进行解码,得到所述媒体文件的音频信息;根据所述电子设备的处理器的处理能力确定分段时间;根据所述分段时间对所述媒体文件的音频信息进行分段,得到多段分段音频信息。其中,所述对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息,具体为:从第一段分段音频信息开始,依次拼接相邻的下一段分段音频信息,判断每次拼接后的音频信息的末端帧是否包含话音音频信息,直到判断出所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息为目标音频信息;从第n+1段分段音频信息重新开始处理操作,所述n为大于1的整数。其中,所述对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息,具体为:从第一段分段音频信息依次判断末端帧是否包含话音音频信息,直至判断出第n段分段音频信息的末端帧包含话音音频信息,从所述第n分段音频信息依次拼接,每次拼接后判断得到音频信息的末端帧是否包含话音音频信息,直到判断出所述第n段分段音频信息至第n+i段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,其中所有末端帧不包含话音音频信息的分段音频信息及所述第n分段音频信息至第n+i段分段音频信息拼接得到的音频信息均为目标音频信息;从第n+i+1段分段音频信息重新开始处理操作,所述n为大于0的整数,所述i为大于O的整数。其中,所述对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息,具体为:对所述多段分段音频信息进行判断,得到末端帧包含话音音频信息的分段音频信息和末端帧不包含话音音频信息的分段音频信息;若第n段至n+i段分段音频信息均为末端帧包含话音音频信息的分段音频信息,第n+i+1段分段音频信息为末端帧不包含话音音频信息的分段音频信息,则将第n段至n+i+1段分段音频信息进行拼接,所述末端帧不包含话音音频信息的分段音频信息及所述第n段至n+i+1段分段音频信息拼接得到的音频信息均为目标音频信息;其中,所述n为大于0的整数,所述i为大于等于0的整数。其中,当得到多段目标音频信息时,所述将所述目标音频信息识别为相应的文字,具体为:根据所述电子设备的语音识别模块,将多段目标音频信息进行多线程语音识别,获得每段目标音频信息对应的文字。其中,所述将所述目标音频信息识别为相应的文字,具体为:将所述目标音频信息发送至云端服务器,接收所述云端服务器语音识别得到的文字。其中,所述对所述文字进行处理,生成所述媒体文件的字幕信息,具体为:获取所述目标音频信息的时间戳信息;将所述文字依据所述时间戳信息生成字幕信息。优选地,所述方法还包括将所述字幕信息导入所述媒体文件中,同步显示所述字幕信息中的文字。在另一个方面,本专利技术实施例提供了媒体文件字幕的生成装置,应用于电子设备,包括:分段模块、处理模块、语音识别模块和字幕生成模块;所述分段模块,用于对所述媒体文件的音频信息进行分段,得到多段分段音频信息;所述处理模块,用于对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息;所述语音识别模块,用于将所述目标音频信息识别为相应的文字;所述字幕生成模块,用于将所述文字处理生成所述媒体文件的字幕信息。其中,所述分段模块包括第一获取单元及分段单元,其中:所述第一获取单元,用于对所述媒体文件进行解码,得到所述媒体文件的音频信息;所述分段单元,用于根据所述电子设备的处理器的处理能力确定分段时间;根据所述分段时间对所述媒体文件的音频信息进行分段,得到多段分段音频信息。其中,所述处理模块包括拼接单元及判断单元,其中:所述拼接单元从第一段分段音频信息依次拼接,所述判断单元在每次拼接后判断得到音频信息的末端帧是否包含话音音频信息,直到所述判断单元判断出所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息为目标音频信息;所述拼接单元及所述判断单元从第n+1段分段音频信息重新开始处理操作,所述n为大于1的整数。其中,所述处理模块包括拼接单元及判断单元,其中:所述判断单元从第一段分段音频信息依次判断末端帧是否包含话音音频信息,直至判断出第n段分段音频信息的末端帧包含话音音频信息,所述拼接单元从所述第n分段音频信息依次拼接,每次拼接后所述判断单元判断得到音频的末端帧是否包含话音音频信息,直到所述判断单元判断出所述第n段分段音频信息至第n+i段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,其中末端帧不包含话音音频信息的分段音频信息及所述第n分段音频信息至第n+i段分段音频信息拼接得到的音频信息均为目标音频信息;所述拼接单元及所述判断单元从第n+i+1段分段音频信息重新开始处理操作,所述n为大于0的整数,所述i为大于0的整数。其中,所述处理模块包括拼接单元及判断单元,其中:所述判断单元对所述多段分段音频信息进行判断,得到末端帧包含话音音频信息的分段音频信息和末端帧不包含话音音频信息的分段音频信息;若第n段至n+i段分段音频信息为末端帧包含话音音频信息的分段音频信息,第n+i+1段分段音频信息为末端帧不包含话音音频信息的分段音频信息,则所述拼接单元将第n段至n+i+1段分段音频信息进行拼接,所述末端帧不包含话音音频信息的分段音频信息及所述第n段至n+i+1段分段音频信息拼接得到的音频信息均为目标音频信息;其中,本文档来自技高网...
一种媒体文件字幕的生成方法、装置及电子设备

【技术保护点】
一种媒体文件字幕的生成方法,应用于电子设备,其特征在于,包括:对媒体文件的音频信息进行分段,得到多段分段音频信息;对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息;将所述目标音频信息识别为相应的文字;对所述文字进行处理,生成所述媒体文件的字幕信息。

【技术特征摘要】
1.一种媒体文件字幕的生成方法,应用于电子设备,其特征在于,包括:对媒体文件的音频信息进行分段,得到多段分段音频信息;对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息;将所述目标音频信息识别为相应的文字;对所述文字进行处理,生成所述媒体文件的字幕信息。2.如权利要求1所述的方法,其特征在于,所述对所述媒体文件的音频信息进行分段,得到多段分段音频信息,具体为:对所述媒体文件进行解码,得到所述媒体文件的音频信息;根据所述电子设备的处理器的处理能力确定分段时间;根据所述分段时间对所述媒体文件的音频信息进行分段,得到多段分段音频信息。3.如权利要求1所述的方法,其特征在于,所述对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息,具体为:从第一段分段音频信息开始,依次拼接相邻的下一段分段音频信息,判断每次拼接后的音频信息的末端帧是否包含话音音频信息,直到判断出所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息为目标音频信息;从第n+1段分段音频信息重新开始处理操作,所述n为大于1的整数。4.如权利要求1所述的方法,其特征在于,所述对所述多段分段音频信息进行处理,得到末端帧不含话音音频信息的目标音频信息,具体为:从第一段分段音频信息依次判断末端帧是否包含话音音频信息,直至判断出第n段分段音频信息的末端帧包含话音音频信息,从所述第n分段音频信息依次拼接,每次拼接后判断得到音频信息的末端帧是否包含话音音频信息,直到判断出所述第n段分段音频信息至第n+i段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息,完成一次处理操作,其中所有末端帧不包含话音音频信息的分段音频信息及所述第n分段音频信息至第n+i段分段音频信息拼接得到的音频信息均为目标音频信息;从第n+i+1段分段音频信息重新开始处理操作,所述n为大于0的整数,所述i...

【专利技术属性】
技术研发人员:田昊
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1