一种利用深度学习模型对音频进行标注的方法技术

技术编号:23606743 阅读:61 留言:0更新日期:2020-03-28 07:21
本发明专利技术公开了一种利用深度学习模型对音频进行标注的方法,包括以下步骤:A.获取音频并对获取的音频进行语音预处理;B.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;C.对深度学习模型输出的标签进行人工校对。本发明专利技术的方法将繁冗的人工听音、人工标注、人工校对工作转变为仅需人工校对,其他均由系统模型自动进行,能极大节约人力和时间成本,并且保障有效性。

A method of audio annotation using deep learning model

【技术实现步骤摘要】
一种利用深度学习模型对音频进行标注的方法
本专利技术涉及语音识别
,特别涉及一种利用深度学习模型对音频进行标注的方法。
技术介绍
在深度学习语音识别领域中,在进行训练前,需要足够充足的原始语料数据,并对语料数据中的关键字和无效语音进行标注。对关键字进行标注在语音识别、语音增强等语音信号处理系统中是重要的预处理流程。由于语料数据量的庞大,如果基于传统的语音标注手段,使得标注关键字的工作繁琐,并且耗费大量的人力和时间成本。同时,随着人工智能的快速发展,对语音识别带来了新的机遇和挑战,迫切需要一种能降低人力和时间成本的语音标注方法。目前国内外的自动语音识别技术大多数都是依赖于大量的数据资源,而这些数据的资源都需要通过传统的手段对语音进行标注,在专利CN201811011859.7中,描述了一种针对低资源土家语的语言端到端的语音识别方法,该方法是通过卷积神经网络和BiLSTM提升设别率,该方法主要目的是提升语音识别的结果,即提升识别率,对于语音的识别,大多数是基于纯净语音,而对带有噪声的语音数据效果并不是很好。而本专利技术是结合深度神经网本文档来自技高网...

【技术保护点】
1.一种利用深度学习模型对音频进行标注的方法,其特征在于,包括以下步骤:/nA.获取音频并对获取的音频进行语音预处理;/nB.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;/nC.对深度学习模型输出的标签进行人工校对。/n

【技术特征摘要】
1.一种利用深度学习模型对音频进行标注的方法,其特征在于,包括以下步骤:
A.获取音频并对获取的音频进行语音预处理;
B.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;
C.对深度学习模型输出的标签进行人工校对。


2.根据权利要求1所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤A中具体是根据用户的音频使用需求获取音频,获取音频时可通过录音设备进行录音获取或通过公共网络爬取音频获取,且所述音频包括纯净语音的音频和带噪语音的音频。


3.根据权利要求1至2中任一所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤A中对音频的预处理包括:将得到的音频数据分解成帧,并对语音特征向量进行提取,再将每一组的帧串联成语音帧序列。


4.根据权利要求3所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,对语音特征向量进行提取时具体是根据gmmatone频率倒谱系数对语音特征向量进行提取。


5.根据权利要求4所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤B具体为:
B1.将语音帧序列输入深度学习模型进行语音识别及语音标注;
B2.将语音的逐渐提取的语音特征向量与标注看作长度为N的时间序列特征数据集,对时间序列特征数据集每次按固定的时间窗进行特征抽取,且时间窗按照步长移动,其中,N为正整数;
B3....

【专利技术属性】
技术研发人员:邓小红
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1