一种语音标签判定方法、系统、存储介质及电子设备技术方案

技术编号：31979111 阅读：14 留言：0更新日期：2022-01-20 01:33

本发明专利技术涉及音频识别领域，尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。该方法包括：获取开源词汇，形成开源词汇集；对相关场景下的文本进行切词处理，得到切词集；获取音频文件，对所述音频文件进行处理，得到高频词汇集；获取预设名单，对预设名单进行处理得到相关词汇集；对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；根据所述词汇表对语音内容进行标签处理。本发明专利技术可操作性强，适用于冷启动阶段；可以有效的提升内容风控领域的ASR识别准确率，以及下游nlp分类任务和标签效果，并快速应用到相关领域。到相关领域。到相关领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音标签判定方法、系统、存储介质及电子设备

[0001]本专利技术涉及音频识别领域，尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。

技术介绍

[0002]近年来，随着互联网的快速发展以及短视频和直播领域的兴起，多媒体数据爆炸性的增长，其中语音内容在人们的生活，交流，娱乐中扮演者越来越重要的角色，在这庞大的语音内容下面潜伏着的巨大内容风险，也越来越为政府和人们所关注。
[0003]现阶段，语音内容的内容审核任务主要采用的是ASR+nlp的解决方案；通过ASR将音频内容转译成文本内容，而后利用nlp和名单，对文本内容给出相应的风险标签。其中词表作为ASR和nlp的基础，扮演着至关重要的作用，不仅直接关系到ASR转译结果的字准确率，还影响着nlp和名单给出风险标签的准确性。但现有技术中对于词表的组成过于单一，导致标签给定存在差异。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种语音标签判定方法、系统、存储介质及电子设备。
[0005]本专利技术解决上述技术问题的技术方案如下：一种语音标签判定方法，包括：
[0006]获取开源词汇，形成开源词汇集；
[0007]对相关场景下的文本进行切词处理，得到切词集；
[0008]获取音频文件，对所述音频文件进行处理，得到高频词汇集；
[0009]获取预设名单，对预设名单进行处理得到相关词汇集；
[0010]对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理，得到词汇表...

【技术保护点】

【技术特征摘要】
1.一种语音标签判定方法，其特征在于，包括：获取开源词汇，形成开源词汇集；对相关场景下的文本进行切词处理，得到切词集；获取音频文件，对所述音频文件进行处理，得到高频词汇集；获取预设名单，对预设名单进行处理得到相关词汇集；对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；根据所述词汇表对语音内容进行标签处理。2.根据权利要求1所述的一种语音标签判定方法，其特征在于，获取开源词汇，形成开源词汇集具体为：通过开源数据集获取开源词汇，形成开源词汇集。3.根据权利要求1所述的一种语音标签判定方法，其特征在于，对相关场景下的文本进行切词处理，得到切词集具体为：通过开源切词工具对相关场景下的文本进行切词处理，得到切词集，其中，相关场景为：直播场景以及游戏场景。4.根据权利要求1所述的一种语音标签判定方法，其特征在于，获取音频文件，对所述音频文件进行处理，得到高频词汇集具体为：通过ASR对所述音频文件进行词频统计处理，将处理结果中超出预设频率的词汇进行统计，得到高频词汇集。5.根据权利要求1所述的一种语音标签判定方法，其特征在于，所述预设名单为：包含违禁词的词汇名单。6.一种语音标签判定系统，其特征在于，包括：开源词汇模块，用于获取...

【专利技术属性】
技术研发人员：邵历，齐路，唐会军，梁堃，
申请(专利权)人：北京数美时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人