本发明专利技术公开了一种音频语料自动标注方法、系统、介质和电子设备,该方法包括:从一音频库里抓取一音频文件;转换所述音频文件的格式;通过VAD方法将所述音频文件切割为多个音频片段;调用语音识别API对多个音频片段进行识别,以获得一识别文本;抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。本方案能够自动切割音频,并对音频信号进行自动标注,能便利地运用到语音合成和自动语音识别的场景下。
Automatic annotation method, system, media and electronic equipment of audio corpus
【技术实现步骤摘要】
音频语料自动标注方法、系统、介质和电子设备
本专利技术涉及一种音频语料自动标注方法、系统、介质和电子设备,隶属音频信号处理领域。
技术介绍
语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。而说起人机交流的语言,主要分为语音识别和语音合成。语音识别技术是让机器接收、识别和理解语音信号,并将其转换成相应数字信号的技术;而语音合成技术,是赋予机器“人工嘴巴”的功能,解决的是如何让机器像人那样说话的问题。其中,语音合成的文语转换系统(TexttoSpeech,简称TTS)前期需要大量的语料去训练,音频切割标注就是为其服务的。现有技术中标注音频通常为人工标注,效率较低,不便于后期语音识别和语音合成的训练,亟需改进。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中人工标注音频使得效率低下的缺陷,提供一种音频语料自动标注方法、系统、介质和电子设备。本专利技术是通过下述技术方案来解决上述技术问题:一种音频语料自动标注方法,其特点在于,包括:S1、从一音频库里抓取一音频文件;S2、转换所述音频文件的格式;S3、通过VAD(VoiceActivityDetection,语音端点检测)方法将所述音频文件切割为多个音频片段;S4、调用语音识别API(applicationinterface应用程序接口)对多个音频片段进行识别,以获得一识别文本;S5、抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。较佳地,步骤S3和步骤S4之间包括:S3a、判断所述音频片段的时长是否在一预设范围内,若是,则进入步骤S4;若否,则对该音频片段重新切割。较佳地,步骤S3包括:S31、通过比较似然比的方法判断所述音频文件是否为语音,并对所述音频文件为语音以及为非语音的情形分别进行标注。较佳地,步骤S5中将所述识别文本与所述原始文本进行对比的方法为:基于Python(跨平台的计算机程序设计语言)中gensim(用于从文档中自动提取语义主题的Python库)模块计算相似度,或者通过Levenshtein(字符串相似度算法)距离法计算相似度。一种音频语料自动标注系统,其特点在于,包括:音频抓取模块,用于从一音频库里抓取一音频文件;格式转换模块,用于转换所述音频文件的格式;切割模块,用于通过VAD方法将所述音频文件切割为多个音频片段;识别模块,用于调用语音识别API对多个音频片段进行识别,以获得一识别文本;对比模块,用于抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。一种计算机可读存储介质,其上存储有计算机程序,其特点在于,所述计算机程序被处理器执行时实现如上所述的音频语料自动标注方法的步骤。一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点在于,所述处理器执行所述计算机程序时实现如上所述的音频语料自动标注方法的步骤。本专利技术的积极进步效果在于:本方案能够自动切割音频,并对音频信号进行自动标注,能便利地运用到语音合成和自动语音识别的场景下。切割的音频文件可以满足100%的要求,文本纠错也可以达到100%,性能提升较大。附图说明图1为本实施例1的音频语料自动标注方法流程图。图2为本实施例2的音频语料自动标注系统结构图。图3为本实施例4的电子设备的硬件结构图。具体实施方式下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。实施例1本实施例切割和标注好的音频既可以用于语音合成的语料训练,语音合成之后的语音可以使得机器像人一样自然的发音,也可以用于语音识别获知人员说话的内容,两者结合起来就可以用于企业内旅游服务中心的智能客服,可以降低大量的人工成本,大幅提升服务效率。该系统主要应用于旅游产品中客户服务中心,比如预定的订单确认,售后问题解决,目的是保证更好地服务客户,沟通客户,进而做到充分保障消费者的权益,为客户提供最满意的服务。如图1所示,一种音频语料自动标注方法,包括:S1、从一音频库里抓取一音频文件;该音频库可以为一音频网站。S2、转换所述音频文件的格式;以便语音识别接口对该音频文件进行更好的识别。S3、通过VAD方法将所述音频文件切割为多个音频片段;判断所述音频片段的时长是否在一预设范围内,如1s至10s范围内,若是,则进入步骤S4;若否,则对该音频片段重新切割。此外还需满足切割的音频文件中不能把字或者词语给切割开来;S4、调用语音识别API对多个音频片段进行识别,以获得一识别文本;S5、抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。若文本一致,则将相同的文本置于一设定位置,如放在识别文本后的一列;若文本不一致,将不同的文本进行更正后置于一第二设定位置,如放在识别文本后的一列。步骤S3中具体地基于webrtc(支持网页浏览器进行实时语音对话或视频对话的API)中的VAD模块对原始音频长文件进行切割。其主要用了两个模型来对语音进行GMM(高斯混合模型)建模,分成噪声类和语音类。主要是通过比较似然比的方法来确定是否是语音,并对所述音频文件为语音以及为非语音的情形分别进行标注。具体为:(一)、将信号通过重采样降到8kHz,在这个频带计算噪声和语音的特征做VAD判决。(二)、使用WebRtcVad_CalculateFeatures函数计算特征,其特征包含6个频带的log能量,分别是80-250Hz、250-500Hz、500-1kHz、1kHz-2kHz、2kHz-3kHz、3kHz-4kHz。使用分频方法计算这些特征,得到的六个特征保存在向量feature_vector中,然后使用2维的GMM模型来建模。(三)、WebRtcVad_GaussianProbability函数输入信号、均值、方差,分别计算高斯概率密度:式中x是信号,是均值,σ2为方差。这里的式子相对于高斯概率密度函数少了的系数,因为后面用到概率密度函数的时候都是相对量,能够抵消,例如在计算似然比和后验概率的时候。(四)、每一个特征,求对数似然比:L(x(n),i)=log(Ps(x(n),i)/Pn(x(n),i)),其中Ps(x(n),i)是语音的一个特征的概率分布,Pn(x(n),i)是噪声的一个特征的概率分布,一共六个特征。(五)、计算加权对数似然比Ls(x(n))=∑KiL(x(n),i),其中Ki是对数似然比的加权系数。(六)、如果这六个特征中有一个满足对数似然比超过了阈值就认为有语音,或者加权对数本文档来自技高网...
【技术保护点】
1.一种音频语料自动标注方法,其特征在于,包括:/nS1、从一音频库里抓取一音频文件;/nS2、转换所述音频文件的格式;/nS3、通过VAD方法将所述音频文件切割为多个音频片段;/nS4、调用语音识别API对多个音频片段进行识别,以获得一识别文本;/nS5、抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。/n
【技术特征摘要】
1.一种音频语料自动标注方法,其特征在于,包括:
S1、从一音频库里抓取一音频文件;
S2、转换所述音频文件的格式;
S3、通过VAD方法将所述音频文件切割为多个音频片段;
S4、调用语音识别API对多个音频片段进行识别,以获得一识别文本;
S5、抓取所述音频文件对应的原始文本,并将所述识别文本与所述原始文本进行对比,并根据对比的结果对所述音频文件进行标注。
2.如权利要求1所述的音频语料自动标注方法,其特征在于,步骤S3和步骤S4之间包括:
S3a、判断所述音频片段的时长是否在一预设范围内,若是,则进入步骤S4;若否,则对该音频片段重新切割。
3.如权利要求1所述的音频语料自动标注方法,其特征在于,步骤S3包括:
S31、通过比较似然比的方法判断所述音频文件是否为语音,并对所述音频文件为语音以及为非语音的情形分别进行标注。
4.如权利要求1-3中任意一项所述的音频语料自动标注方法,其特征在于,步骤S5中将所述识别文本与所述原始文本进行...
【专利技术属性】
技术研发人员:袁鹏,江文斌,李健,
申请(专利权)人:上海携程国际旅行社有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。