音频内容识别方法、装置、设备和计算机可读介质制造方法及图纸

技术编号：26480604 阅读：31 留言：0更新日期：2020-11-25 19:26

本公开的实施例公开了音频内容识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定上述语音片段集合中的每个语音片段的类型和语种信息；对于上述语音片段集合中的每个语音片段，基于上述语音片段的类型和语种信息，对上述语音片段进行语音识别，得到第一识别结果。该实施方式通过将音频中的说话和音乐片段用不同的模型进行识别，使两种音频内容都能得到更好的识别效果。以及，通过使用不同的模型是被不同语种内容的音频，进一步提升了语音识别的效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频内容识别方法、装置、设备和计算机可读介质
本公开的实施例涉及计算机
，具体涉及音频内容识别方法、装置、设备和计算机可读介质。
技术介绍
为了提升用户观看视频的体验，需要为视频添加字幕。人工添加字幕成本高且效率有限。而现有的自动添加字幕技术，在音频中有多种内容时准确率不能得到保证。其中，音频中的多种内容例如歌声、说话声、咳嗽声、笑声、关门声等。以及，难以应对存在多语种语音片段的音频。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了音频内容识别方法、装置、设备和计算机可读介质，来解决以上
技术介绍
部分提到的技术问题。第一方面，本公开的一些实施例提供了一种音频内容识别方法，该方法包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定上述语音片段集合中的每个语音片段的类型和语种信息；对于上述语...

【技术保护点】
1.一种音频内容识别方法，包括：/n对音频进行切分，得到语音片段集合和非语音片段集合；/n确定所述语音片段集合中的每个语音片段的类型和语种信息；/n对于所述语音片段集合中的每个语音片段，基于所述语音片段的类型和语种信息，对所述语音片段进行语音识别，得到第一识别结果。/n

【技术特征摘要】
1.一种音频内容识别方法，包括：
对音频进行切分，得到语音片段集合和非语音片段集合；
确定所述语音片段集合中的每个语音片段的类型和语种信息；
对于所述语音片段集合中的每个语音片段，基于所述语音片段的类型和语种信息，对所述语音片段进行语音识别，得到第一识别结果。

2.根据权利要求1所述的方法，其中，所述方法还包括：
确定所述非语音片段集合中的每个非语音片段的标签；
对所述第一识别结果和所述标签进行分句，得到第二识别结果。

3.根据权利要求2所述的方法，其中，所述方法还包括：
将所述第二识别结果中的每个分句添加到目标视频对应的视频帧中，得到带有字幕的视频。

4.根据权利要求1所述的方法，其中，所述对预先获取到的音频进行切分，得到语音片段集合和非语音片段集合，包括：
将所述预先获取到的音频输入到预先训练好的语音活性检测模型中，得到所述语音片段集合和所述非语音片段集合。

5.根据权利要求1所述的方法，其中，所述语音片段的类型包括：
拟声语音片段、说话语音片段和唱歌语音片段中的至少一项。

6.根据权利要求1所述的方法，其中，所述确定所述语音片段集合中的每个语音片段的类型和语种信息，包括：
将所述语音片段输入到预先训练好的音频事件检测模型中，得到所述语音片段的类型；
将所述语音片段输入到预先训练好的语种识别模型中，得到所述语音片段的语种信息。

7.根据权...

【专利技术属性】
技术研发人员：孔亚鲁，何怡，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人