音频识别方法和装置、录音终端及服务器、存储介质制造方法及图纸

技术编号：26480606 阅读：38 留言：0更新日期：2020-11-25 19:26

本发明专利技术公开了一种音频识别方法和装置、录音终端及服务器、存储介质。其中，该方法包括：获取原始音频数据；基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，语音标记数据用于指示参考音频文件中的语音片段；将至少两个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。本发明专利技术解决了相关技术提供的音频识别方法存在识别处理操作较为复杂的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
音频识别方法和装置、录音终端及服务器、存储介质
本专利技术涉及语音处理和识别
，具体而言，涉及一种音频识别方法和装置、录音终端及服务器、存储介质。
技术介绍
在对语音采用自动语音识别技术(AutomaticSpeechRecognition,简称ASR)进行转录前，需要对同一段音频文件中不同人的声音进行分离。但当录音设备有多个时，就需要对多个录音设备各自的音轨进行噪音处理，也就需要对多路音轨同时进行语音和噪声分离才能完成ASR的转录工作。也就是说，目前相关技术提供的音频识别方法存在识别处理操作较为复杂的问题。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种音频识别方法和装置、录音终端及服务器、存储介质，以至少解决相关技术提供的音频识别方法存在识别处理操作较为复杂的技术问题。根据本专利技术实施例的一个方面，提供了一种音频识别方法，包括：获取原始音频数据；基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；对上述至少两个参考音...

【技术保护点】
1.一种音频识别方法，其特征在于，所述方法包括：/n获取原始音频数据；/n基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；/n对所述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，所述语音标记数据用于指示所述参考音频文件中的语音片段；/n将所述至少两个参考音频文件和各自对应的所述语音标记数据发送至服务器，以使所述服务器从所述至少两个参考音频文件中确定出目标音频文件，并分离出所述目标音频文件中的语音片段和噪音片段。/n

【技术特征摘要】
1.一种音频识别方法，其特征在于，所述方法包括：
获取原始音频数据；
基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；
对所述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，所述语音标记数据用于指示所述参考音频文件中的语音片段；
将所述至少两个参考音频文件和各自对应的所述语音标记数据发送至服务器，以使所述服务器从所述至少两个参考音频文件中确定出目标音频文件，并分离出所述目标音频文件中的语音片段和噪音片段。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据包括：
对所述至少两个参考音频文件依次执行以下标记处理：
识别当前参考音频文件中包含的语音片段；
将所述语音片段的发音起始点标记为第一时间标签，并将所述语音片段的发音结束点标记为第二时间标签；
利用所述第一时间标签和所述第二时间标签生成所述当前参考音频文件对应的所述语音标记数据。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
在所述原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于所述VAD按照至少两种语音强度分别生成每段所述音频数据对应的至少两个参考音频文件。

4.一种音频识别方法，其特征在于，所述方法包括：
接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据；其中，所述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，所述语音标记数据用于指示所述参考音频文件中的语音片段；
基于自动语音识别ASR从至少两个所述参考音频文件中，确定出目标音频文件；
根据所述目标音频文件对应的语音标记数据以及所述目标音频文件中噪音的强度值，分离所述目标音频文件中的语音片段和噪音片段。

5.根据权利要求4所述的方法，其特征在于，所述基于自动语音识别ASR从至少两个所述参考音频文件中，确定出目标音频文件包括：
确定出每个所述参考音频文件中的未标记语音数据；
基于所述ASR获取所述未标记语音数据中的转义结果，其中，所述转义结果用于指示语音转化为文字的结果；
将所述转义结果中文字数最少的参考音频文件作为所述目标音频文件。

6.根据权利要求5所述的方法，其特征在于，所述确定出每个所述参考音频文件中的未标记语音数据包括：
从所述参考音频文件对应的语音标记数据中确定出所述参考音频文件中包含的语音片段的第一时间标签和第二时间标签；其中，所述第一时间标签用于指示所述语音片段的发音起始点，所述第二时间标签用于指示所述语音片段的发音结束点；
根据所述第一时间标签和所述第二时间标签，确定出所述参考音频文件对应的未标记语音数据。

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标音频文件对应的语音标记数据以及所述目标音频文件中噪音的强度值，分离所述目标音频文件中的语音片段和噪音片段包括：
根据所述目标音频文件对应的语音标记数据，确定出所述目标音频文件对应的目标未标记语音数据；
将所述目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将所述分贝值大于所述目标阈值的音频片段确定为所述语音...

【专利技术属性】
技术研发人员：沈忱，梁志婷，李健，王玉好，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人