一种语音标签判定方法、系统、存储介质及电子设备技术方案

技术编号:31979111 阅读:14 留言:0更新日期:2022-01-20 01:33
本发明专利技术涉及音频识别领域,尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。该方法包括:获取开源词汇,形成开源词汇集;对相关场景下的文本进行切词处理,得到切词集;获取音频文件,对所述音频文件进行处理,得到高频词汇集;获取预设名单,对预设名单进行处理得到相关词汇集;对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;根据所述词汇表对语音内容进行标签处理。本发明专利技术可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。到相关领域。到相关领域。

【技术实现步骤摘要】
一种语音标签判定方法、系统、存储介质及电子设备


[0001]本专利技术涉及音频识别领域,尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。

技术介绍

[0002]近年来,随着互联网的快速发展以及短视频和直播领域的兴起,多媒体数据爆炸性的增长,其中语音内容在人们的生活,交流,娱乐中扮演者越来越重要的角色,在这庞大的语音内容下面潜伏着的巨大内容风险,也越来越为政府和人们所关注。
[0003]现阶段,语音内容的内容审核任务主要采用的是ASR+nlp的解决方案;通过ASR将音频内容转译成文本内容,而后利用nlp和名单,对文本内容给出相应的风险标签。其中词表作为ASR和nlp的基础,扮演着至关重要的作用,不仅直接关系到ASR转译结果的字准确率,还影响着nlp和名单给出风险标签的准确性。但现有技术中对于词表的组成过于单一,导致标签给定存在差异。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种语音标签判定方法、系统、存储介质及电子设备。
[0005]本专利技术解决上述技术问题的技术方案如下:一种语音标签判定方法,包括:
[0006]获取开源词汇,形成开源词汇集;
[0007]对相关场景下的文本进行切词处理,得到切词集;
[0008]获取音频文件,对所述音频文件进行处理,得到高频词汇集;
[0009]获取预设名单,对预设名单进行处理得到相关词汇集;
[0010]对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表
[0011]根据所述词汇表对语音内容进行标签处理。
[0012]本专利技术的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
[0013]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0014]进一步,获取开源词汇,形成开源词汇集具体为:
[0015]通过开源数据集获取开源词汇,形成开源词汇集。
[0016]进一步,对相关场景下的文本进行切词处理,得到切词集具体为:
[0017]通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
[0018]进一步,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
[0019]通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
[0020]进一步,所述预设名单为:包含违禁词的词汇名单。
[0021]本专利技术解决上述技术问题的另一种技术方案如下:一种语音标签判定系统,包括:
[0022]开源词汇模块,用于获取开源词汇,形成开源词汇集;
[0023]切词模块,用于对相关场景下的文本进行切词处理,得到切词集;
[0024]高频词模块,用于获取音频文件,对所述音频文件进行处理,得到高频词汇集;
[0025]相关词模块,用于获取预设名单,对预设名单进行处理得到相关词汇集;
[0026]并集模块,用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
[0027]处理模块,用于根据所述词汇表对语音内容进行标签处理。
[0028]本专利技术的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
[0029]进一步,获取开源词汇,形成开源词汇集具体为:
[0030]通过开源数据集获取开源词汇,形成开源词汇集。
[0031]进一步,对相关场景下的文本进行切词处理,得到切词集具体为:
[0032]通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。
[0033]进一步,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:
[0034]通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。
[0035]进一步,所述预设名单为:包含违禁词的词汇名单。
[0036]本专利技术解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种语音标签判定方法。
[0037]本专利技术的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
[0038]本专利技术解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种语音标签判定方法。
[0039]本专利技术的有益效果是:通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇表的融合性,且通过该词汇表进一步进行标签处理方案简单,可操作性强,适用于冷启动阶段;可以有效的提升内容风控领域的ASR识别准确率,以及下游nlp分类任务和标签效果,并快速应用到相关领域。
附图说明
[0040]图1为本专利技术一种语音标签判定方法实施例提供的流程示意图;
[0041]图2为本专利技术一种语音标签判定系统实施例提供的系统框架图。
具体实施方式
[0042]以下对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0043]如图1所示,一种语音标签判定方法,包括:
[0044]步骤1,获取开源词汇,形成开源词汇集;
[0045]步骤2,对相关场景下的文本进行切词处理,得到切词集;
[0046]步骤3,获取音频文件,对所述音频文件进行处理,得到高频词汇集;
[0047]步骤4,获取预设名单,对预设名单进行处理得到相关词汇集;
[0048]步骤5,对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;
[0049]步骤6,根据所述词汇表对语音内容进行标签处理。
[0050]在一些可能的实施方式中,通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集,将词汇集整合可以提高词汇本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音标签判定方法,其特征在于,包括:获取开源词汇,形成开源词汇集;对相关场景下的文本进行切词处理,得到切词集;获取音频文件,对所述音频文件进行处理,得到高频词汇集;获取预设名单,对预设名单进行处理得到相关词汇集;对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理,得到词汇表;根据所述词汇表对语音内容进行标签处理。2.根据权利要求1所述的一种语音标签判定方法,其特征在于,获取开源词汇,形成开源词汇集具体为:通过开源数据集获取开源词汇,形成开源词汇集。3.根据权利要求1所述的一种语音标签判定方法,其特征在于,对相关场景下的文本进行切词处理,得到切词集具体为:通过开源切词工具对相关场景下的文本进行切词处理,得到切词集,其中,相关场景为:直播场景以及游戏场景。4.根据权利要求1所述的一种语音标签判定方法,其特征在于,获取音频文件,对所述音频文件进行处理,得到高频词汇集具体为:通过ASR对所述音频文件进行词频统计处理,将处理结果中超出预设频率的词汇进行统计,得到高频词汇集。5.根据权利要求1所述的一种语音标签判定方法,其特征在于,所述预设名单为:包含违禁词的词汇名单。6.一种语音标签判定系统,其特征在于,包括:开源词汇模块,用于获取...

【专利技术属性】
技术研发人员:邵历齐路唐会军梁堃
申请(专利权)人:北京数美时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1