一种媒体文件字幕的生成方法、装置及电子设备制造方法及图纸

技术编号：14398172 阅读：104 留言：0更新日期：2017-01-11 11:49

本发明专利技术的实施例提供一种媒体文件字幕的生成方法、装置及电子设备，其中，方法包括对所述媒体文件的音频信息进行分段，得到多段分段音频信息；对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息；将所述目标音频信息识别为相应的文字；对所述文字进行处理，生成所述媒体文件的字幕信息。本发明专利技术通过对媒体文件的音频分段和处理，得到末端帧不含话音音频信息的目标音频信息，避免了一个文字的语音被切分在两段音频中，提高语音识别生成字幕的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子
，尤其涉及一种媒体文件字幕的生成方法、装置及电子设备。
技术介绍
媒体文件播放时，经常遇到以下几种情况：(1)由于不同地区语言的发音差别很大，很多人听不懂普通话；(2)一些媒体文件的台词中包括不同地区的方言，很多人难以理解这些地区方言；(3)一些媒体文件背景音或者媒体文件播放环境的噪音较大，造成很多人听不清其中的台词。针对上述几种情况，若将媒体内容的语音内容以字幕方式显示，可以帮助观众更好的理解媒体文件的内容。然而很多媒体文件没有字幕或者字幕时间戳不对，不便于观众理解媒体文件的内容。现有技术采用语音识别生成媒体文件的字幕，这种方法主要采用预设时间对音频进行分段，逐段识别，但是这种根据固定时间随意分段音频的方式往往造成语音识别不准确。为此，需要解决如下技术问题：提高语音识别生成字幕的准确性。
技术实现思路
本专利技术提出了一种媒体文件字幕的生成方法、装置及电子设备，通过对媒体文件中的音频进行分段和处理，得到末端帧不含话音音频信息的目标音频信息，进而对目标音频信息进行语音识别，生成媒体文件的字幕信息，避免了一个文字的语音被切分在两段音频中，提高了语音识别生成字幕的准确性。在一个方面，本专利技术实施例提供了媒体文件字幕的生成方法，用于电子设备，所述方法包括：对媒体文件的音频信息进行分段，得到多段分段音频信息；对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息；将所述目标音频信息识别为相应的文字；对所述文字进行处理，生成所述媒体文件的字幕信息。其中，所述对所述媒体文件的音频信息进行分段，得到多段分段音频信息，具体为：对...
一种媒体文件字幕的生成方法、装置及电子设备

【技术保护点】
一种媒体文件字幕的生成方法，应用于电子设备，其特征在于，包括：对媒体文件的音频信息进行分段，得到多段分段音频信息；对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息；将所述目标音频信息识别为相应的文字；对所述文字进行处理，生成所述媒体文件的字幕信息。

【技术特征摘要】
1.一种媒体文件字幕的生成方法，应用于电子设备，其特征在于，包括：对媒体文件的音频信息进行分段，得到多段分段音频信息；对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息；将所述目标音频信息识别为相应的文字；对所述文字进行处理，生成所述媒体文件的字幕信息。2.如权利要求1所述的方法，其特征在于，所述对所述媒体文件的音频信息进行分段，得到多段分段音频信息，具体为：对所述媒体文件进行解码，得到所述媒体文件的音频信息；根据所述电子设备的处理器的处理能力确定分段时间；根据所述分段时间对所述媒体文件的音频信息进行分段，得到多段分段音频信息。3.如权利要求1所述的方法，其特征在于，所述对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息，具体为：从第一段分段音频信息开始，依次拼接相邻的下一段分段音频信息，判断每次拼接后的音频信息的末端帧是否包含话音音频信息，直到判断出所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息，完成一次处理操作，所述第一段分段音频信息至第n段分段音频信息拼接得到的音频信息为目标音频信息；从第n+1段分段音频信息重新开始处理操作，所述n为大于1的整数。4.如权利要求1所述的方法，其特征在于，所述对所述多段分段音频信息进行处理，得到末端帧不含话音音频信息的目标音频信息，具体为：从第一段分段音频信息依次判断末端帧是否包含话音音频信息，直至判断出第n段分段音频信息的末端帧包含话音音频信息，从所述第n分段音频信息依次拼接，每次拼接后判断得到音频信息的末端帧是否包含话音音频信息，直到判断出所述第n段分段音频信息至第n+i段分段音频信息拼接得到的音频信息的末端帧不包含话音音频信息，完成一次处理操作，其中所有末端帧不包含话音音频信息的分段音频信息及所述第n分段音频信息至第n+i段分段音频信息拼接得到的音频信息均为目标音频信息；从第n+i+1段分段音频信息重新开始处理操作，所述n为大于0的整数，所述i...

【专利技术属性】
技术研发人员：田昊，
申请(专利权)人：北京金山安全软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人