The present invention provides a method of collecting, network game based on the dubbing voice sample comprises the following steps: 101 speech samples collected by video link, users, and then follow the caption for dubbing dubbing, after the user on the client to their original sound of voice processing, background server with objective speech quality evaluation and speech recognition PESQ the scoring machine of the original audio based on step 102 speech samples; subjective evaluation of link extraction speech samples show at the game page, the user evaluation of speech samples after the audition show, \with the original\ or \does not match the original\ button to select \does not match the original\ button to a large number of speech samples. The background of artificial audition, excluding artificial speech samples after the audition and text really inconsistent from sample. The present invention solves the disadvantages of the existing manual field recording voice sample scheme, such as high recording cost and long time, and the voice sample of the manual telephone recording scheme contains the channel noise.
【技术实现步骤摘要】
一种基于网络配音游戏的语音样本收集方法
本专利技术涉及语音信号处理技术和语音样本收集技术,具体涉及一种基于网络配音游戏的语音样本收集方法。
技术介绍
随着可穿戴设备、智能硬件、智能家居领域的火热,语音识别作为其中最重要的人机交互手段,其市场也是越来越大。传统连续语音识别技术以GMM-HMM为主,现代语音识别技术的发展趋势是神经网络。神经网络模拟人类神经元结构搭建,其深层结构对语音的描述能力比传统方法强,更能适应语音识别这样的复杂模式分类问题。在众多神经网络算法中,深度神经网络(DeepNeutralNetwork)与长短时记忆单元网络(Long-ShortTermMemory)凭借训练大量数据的能力及在识别准确率上对传统方法的显著超越,成为近年来学术界工业界的热点。而在DNN与LSTM等神经网络语音识别模型的训练过程中,海量的含发音标注的语音样本至关重要,训练语音样本的大小和语音识别系统的性能正相关。现有的语音样本收集方法一般分为:人工现场录制和人工电话录制。这两种方法费时费力耗资巨大,导致训练语音样本的规模也难以扩大,限制了语音识别系统识别能力的提高。现有语音样 ...
【技术保护点】
一种基于网络配音游戏的语音样本收集方法,其特征在于,包括下述步骤:S1.通过如下游戏过程进行语音样本收集并进行自动质量评价:S1.1熟悉配音需求:游戏用户在配音游戏客户端点播视频独白节目,客户端通过Video View类第一遍播放含音频与画面的视频,使用户对视频场景和对话过程有较好的认知;S1.2配音:客户端通过Video View类播放无声视频,画面底部同步显示字幕与进度条,游戏用户根据字幕与画面进行配音,客户端通过AudioRecord类按照16KHz采样频率,16bit采样深度,单声道,线性PCM编码格式录制用户语音,画面结束,自动通过UploadUtil类向服务器上 ...
【技术特征摘要】
1.一种基于网络配音游戏的语音样本收集方法,其特征在于,包括下述步骤:S1.通过如下游戏过程进行语音样本收集并进行自动质量评价:S1.1熟悉配音需求:游戏用户在配音游戏客户端点播视频独白节目,客户端通过VideoView类第一遍播放含音频与画面的视频,使用户对视频场景和对话过程有较好的认知;S1.2配音:客户端通过VideoView类播放无声视频,画面底部同步显示字幕与进度条,游戏用户根据字幕与画面进行配音,客户端通过AudioRecord类按照16KHz采样频率,16bit采样深度,单声道,线性PCM编码格式录制用户语音,画面结束,自动通过UploadUtil类向服务器上传用户录制原始语音以及用户所处地理位置;S1.3配音变声处理:客户端提供变声功能,该变声功能通过基于GMM的音色变换算法实现,音色变换算法在客户端对配音进行处理,使用户语音能以视频原声为目标进行粗略音色变换,用户对处理效果满意后将变声音频上传至服务器,使得语音收集过程更具趣味性,本语音收集工具也更易传播;S1.4配音质量评价:用户原始音频上传到服务器后,服务器端通过算法对语音清晰度与发音准确性进行自动评价,算法由客观语音质量评价和语音识别两部分构成,减少了传统方法在样本筛选阶段大量的人力消耗;S1.5分享:服务器将前述步骤S1.4生成的分数与前述步骤S1.3生成的变声音频链接下发给游戏用户,用户在社交平台分享分数与变声后的音频链接,本步骤使得本语音收集工具也更具传播性,有利于获取大量的用户,从而得到大量的说话人的语音;S1.6奖励:高点击量语音给予积分奖励,鼓励用户分享,高分语音给予积分奖励,鼓励用户录制高质量语音;S2.对机器打分语音样本抽样进行主观评价。2.根据权利要求1所述基于网络配音游戏的语音样本收集方法,其特征在于,步骤S1.3中,音色变换的步骤如下:音色变换功能通过基于GMM的音色变换算法实现,将用户原始音频的音色向视频演员的音色做粗略转换,声学特征在声学空间内的不同分布造成了说话人之间的音色差异,基于GMM的音色变换算法就是用GMM将空间分布参数化并构造线性映射函数,映射函数参数通过最小二乘法构造:给定N对对齐的源说话人和目标说话人语音特征矢量(xi,yi),首先利用最大期望算法估计出源说话人连续概率空间的m组参数(αi,μi,Σi),每组刻画了一类声学子空间的概率分布,根据贝叶斯准则,特征矢量x属于第i类声学子空间Ci的条件概率为定义映射函数为F(xi)=F(xi,v1,v2,…,vm,Γ1,Γ2,…,Γm)变换目标函数为1其中:xt、yt分别表示源矢量和目标矢量,最后通过最小二乘法估计映射函数的参数v、Γ,由此,即可通过该映射函数对用户的音色向视频中演员的音色进行粗略转变,增强本语料收集工具的趣味性。3.根据权利要求1所述基于网络配音游戏的语音样本收集方法,其特征在于,步骤S1.4中,配音质量评价的具体步骤如下:S1.4.1客观语音质量评价:运用基于PESQ的有参考源客观语音质量评价算法,以示例视频原声为参考源语音,经过电平调整、输入滤波、时间对齐、听觉转换、抖动处理和感知测量步骤计算得到用户语音的PESQ得分,生成进行5分制打分;S1.4.2语音识别:调用现有成熟的商用语音识别API接口,对用户原始语音进行识别,对比评估识别结果与文本吻合度,语音识别吻合度百分比乘以50作为语音识别分数;S1.4.3最终分数=客观语音质量评价分数*10+语音识别吻合度*50。4.根据权利要求3所述基于网络配音游戏的语音样本收集方法,其特征在于,所述步骤S1.4.1中,客观语音质量评价的具体步骤如下:a)电平调整;语音信号通过不同系统之后,信号电平会有差异,为了统一,将其调整到PESQ设定首选的79dBSPL,信号声压级别计算公式:其中,p是语音信号声压,pr=20μPa是基准声压级;b)IRS滤波;由于用户是通过手机听到语音的,所以利用IRS滤波来模拟手机的发送频率特性,频域滤波过程为:首先对参考源信号和待测信号进行通带为300~3400Hz的带通滤波,然后分别计算出平均功率和全局缩放因子,用该平均功率和全局缩放因子分别对两个信号进行能量对齐,然后进行FFT变换,在频域内用与IRS接收特性相似的分段线性频率响应滤波,最后进做逆FFT变换,即可实现IRS滤波;c)时间对齐;因为参考源语音和待测语音之间存在时间延迟,而PESQ计算是按帧进行的,所以要让两者达到帧级别的对齐,时间对齐通过基于包络互相关的粗略延时估计,配合基于加权直方图的帧到帧精细延迟估计算法实现;d)听觉变换;听觉转换模拟了人耳接收语音信号的过程,将信号映射为感知响度表示,该过程首先对信号进行时域-频域变换,并对Bark谱进行估计,为了补偿滤波效果,对Bark谱进行线性频率响应补偿,另一方面,补偿增益的短时变化,即参考源语音和待测语音的“可听功率”之间的比率,该比率是在Bark域估计得到,它仅包括在功率计算时大于各频带对听力阈值的Bark分量,最后在补偿了滤波效果和短时增益变化以后,通过Zwicker算法完成参考源语音和待测语音的响度谱估计;e)感知测量PESQ方法的感知测量主要有这几个步骤:失真干扰密度的计算,非对称处理和干扰值的计算,在计算出平均对称帧干扰度和平均非对称帧干扰度后,就可以计算得带噪语音的客观质量MOS分数。5.根据权利要求4所述基于网络配音游戏的语音样本收集方法,其特征在于,所述步骤d)中,听觉变换的具体步骤如下:时域-频域变换:经过时间对齐的两路语音信号XIRSS[n]、YIRSS[n]加32ms的汉宁窗,得到XWIRSS[n]n、YWIRSS[n]n,然后进行短时FFT变换,相邻帧重叠50%,并计算每一帧的频率功率谱密度PXWIRSS[k]n、PYWIRSS[k]n,其中下标n代表帧序号;Bark谱密度:将Hz刻度上的功率谱变换到Bark尺度上的谱密度PPXWIRSS[j]n、PPYWIRSS[j]n,
【专利技术属性】
技术研发人员:贺前华,吴俊峰,汪星,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。