音频数据的处理方法和装置、存储介质制造方法及图纸

技术编号：25552195 阅读：50 留言：0更新日期：2020-09-08 18:52

本发明专利技术提供了一种音频数据的处理方法和装置、存储介质，包括：获取待处理音频数据的N个第一特征信息，其中，N为自然数；确定N个第一特征信息对应的N个语种，将N个音频数据分别输入至N个语种对应的N个语言识别模块中，其中，待处理音频数据包括N个音频数据，N个音频数据与N个第一特征信息一一对应；通过N个语言识别模块分别对N个音频数据进行处理，确定N个音频数据对应的N组目标词汇集，其中，N组目标词汇集中的词汇均为敏感词汇。采用上述技术方案，解决了相关技术中，无法有效的对方言进行脱敏的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据的处理方法和装置、存储介质
本专利技术涉及计算机领域，具体而言，涉及一种音频数据的处理方法和装置、存储介质。
技术介绍
在语音识别领域中，用户的账号、密码、地址等敏感信息如果直接暴露出来，会极大的影响用户的财产和人身安全。另一方面，反动、暴力、色情、辱骂等不正当言论也会对网络环境造成极大的破坏。因此语音数据的脱敏是一个很重要的环节。如今流行的脱敏技术方案是维护一套敏感词的规则库，语音转写内容经过规则匹配将敏感的词语抹掉或置为*号。但对于方言，其规则，发音和普通话相比有较大的变化，还存在方言和普通话穿插的场景。如果以普通话的规则去匹配方言的敏感词，会使方言的脱敏效果很差。因此，针对相关技术中，无法有效的对方言进行脱敏的问题，尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种音频数据的处理方法和装置、存储介质，以至少解决相关技术中，无法有效的对方言进行脱敏的技术问题。根据本专利技术实施例的一个方面，提供了一种音频数据的处理方法，包括：获取待处理音频数据的N个第一...

【技术保护点】
1.一种音频数据的处理方法，其特征在于，包括：/n获取待处理音频数据的N个第一特征信息，其中，所述N为自然数；/n确定所述N个第一特征信息对应的N个语种，将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中，其中，所述待处理音频数据包括所述N个音频数据，所述N个音频数据与所述N个第一特征信息一一对应；/n通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，其中，所述N组目标词汇集中的词汇均为敏感词汇。/n

【技术特征摘要】
1.一种音频数据的处理方法，其特征在于，包括：
获取待处理音频数据的N个第一特征信息，其中，所述N为自然数；
确定所述N个第一特征信息对应的N个语种，将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中，其中，所述待处理音频数据包括所述N个音频数据，所述N个音频数据与所述N个第一特征信息一一对应；
通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，其中，所述N组目标词汇集中的词汇均为敏感词汇。

2.根据权利要求1所述的方法，其特征在于，所述确定所述N个第一特征信息对应的N个语种，包括：
将每个所述N个第一特征信息与一组样本特征信息一一匹配，确定与所述N个第一特征信息匹配的N个第二特征信息；其中，所述一组样本特征信息为预先确定的样本特征信息，所述一组样本特征信息中的一个样本特征信息对应于一个语种，所述N个第二特征信息为所述一组样本特征信息中的N个样本特征信息；
根据所述N个第二特征信息确定所述N个语种，其中，所述N个语种与所述N个第二特征信息一一对应，所述N个第二特征信息用于指示所述N个语种对应的所述N个语言识别模块。

3.根据权利要求1所述的方法，其特征在于，在所述将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中之前，所述方法还包括：
对所述N个第一特征信息分别标记N个时间信息，其中，所述N个时间信息用于指示在所述待处理音频数据中产生所述N个第一特征信息的起止时间；
按照所述N个时间信息对所述待处理音频数据进行拆分，得到所述N个音频数据。

4.根据权利要求1所述的方法，其特征在于，所述通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，包括：
通过所述N个语言识别模块分别确定所述N个音频数据对应的N个文本数据；
将所述N个文本数据中的词汇与所述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到所述N组目标词汇集，其中，所述N组目标词汇集与所述N个文本数据一一对应，所述N组目标词汇集中的一个目标词汇集所包括的M个词汇与所述N组样本词汇集中的一个样本词汇集中的M个词汇匹配，所述M为自然数。

5.根据权利要求4所述的方法，其特征在于，在所述将所述N个文本数据中的词汇与所述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到所述N组目标词汇集之后，所述...

【专利技术属性】
技术研发人员：刘畅奕航，梁志婷，徐世超，徐浩，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人