【技术实现步骤摘要】
多语种语音关键词检测、模型生成方法及电子设备
本申请涉及语音识别
,尤其涉及一种多语种音频关键词检测方法、关键词模型生成方法及电子设备、计算机可读存储介质。
技术介绍
多语种语音关键词检测任务中,一个难点在于多语种混杂现象,比如一句话中出现多个语种。语种识别往往需要足够时长的音频,比如5-10秒。而一句话中多语种混杂的现象的持续时长有可能会比较短。例如某些英文名的持续时长可能只有不到1秒的时间,而语种识别无法处理这么短的时长。另外,这种技术方案,需要事先训练语种识别模型以及关键词模型。而这两种模型都需要事先准备好大量的训练音频,语种数量越多,获取训练音频的成本也就越大,特别对很多小语种来说,获取训练数据的难度往往非常大。如何提高多语种语音关键词的检测效率,是本申请所要解决的技术问题。
技术实现思路
本申请实施例的目的是提供一种多语种语音关键词检测方法、关键词模型生成方法及电子设备、计算机可读存储介质,用以解决多语种语音关键词检测效率低的问题。为了解决上述技术问题,本说明书是这样实现的: >第一方面,提供了一本文档来自技高网...
【技术保护点】
1.一种关键词模型生成方法,其特征在于,包括:/n获取多个对应不同语种的关键词文本;/n将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列;/n基于不同语种的音素与目标语种的音素的映射关系,将所述语种对应的音素序列转换为所述目标语种的音素序列;/n根据转换后的目标语种的音素序列,生成所述多个对应不同语种的关键词文本对应的关键词模型。/n
【技术特征摘要】
1.一种关键词模型生成方法,其特征在于,包括:
获取多个对应不同语种的关键词文本;
将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列;
基于不同语种的音素与目标语种的音素的映射关系,将所述语种对应的音素序列转换为所述目标语种的音素序列;
根据转换后的目标语种的音素序列,生成所述多个对应不同语种的关键词文本对应的关键词模型。
2.如权利要求1所述的方法,其特征在于,所述语种对应的音素序列中的同一个音素对应所述目标语种的音素序列中的至少一个音素。
3.如权利要求2所述的方法,其特征在于,在所述同一个音素对应所述目标语种的音素序列中的多个不同的音素时,所述多个不同的音素分别具有对应的权重,所述权重表示所述同一个音素被表示成所述多个不同的音素中的每个音素的概率。
4.如权利要求3所述的方法,其特征在于,根据转换后的目标语种的音素序列,生成所述多个对应不同语种的关键词文本对应的关键词模型,包括:
根据所述目标语种中的所述多个不同的音素,分别对应所述同一个音素生成多个不同的关键词模型,以生成所述多个对应不同语种的关键词文本对应的关键词模型。
5.一种多语种语音关键词检测方法,其特征在于,包括:
接收待检测语音;
对所述待检测语音进行分段处理得到多个音频片段:
将每个音频片段转换为对应的音频特征;
将所述音频特征输入根据权利要求1至4中任一项所述的关键词模型进行计算,以得到对应音频片段的关键词概率;
根据所述关键词概率检测所述音频片段中的关键词。
6.如权利要求5所述...
【专利技术属性】
技术研发人员:左祥,江之源,姚宇行,刘译璟,苏萌,高体伟,
申请(专利权)人:北京百分点信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。