Including an Internet based data acquisition system, the real voice: the server and the client server and client; network connection; server executes the statement text segmentation: pre stored text material for its length is applied to train the neural network to obtain the depth; the client access the text of the statement sent a specific user to read; receive the voice data corresponding to the text of the statement; the client to the server initiates the statement text read the statement text to be read aloud to request and receive; collect user data of reading aloud the text of the statement, and the collected voice data is transmitted to the server. In this case the real voice acquisition method. Compared with the existing methods of speech acquisition: the need for a large number of post-processing and proofreading, the collected audio files and collecting audio files and reading the text material corresponding; in addition, the number of speech acquisition according to the evaluation, further, to achieve high quality capture the true voice.
【技术实现步骤摘要】
一种基于互联网的真实人声的采集系统
本专利技术涉及语音采集
,具体涉及一种基于互联网的真实人声的采集系统。
技术介绍
基于深度神经网络的语音识别技术在近年得到了快速的发展并得到了大量应用。这种技术需要将事先标记好的语音数据(即具备文字-语音对照的数据)输入到一个神经网络当中,对神经网络进行训练。标记好的语音数据的数量和质量对于语音识别的效果至关重要,标记好的数据越多,训练的效果越好。标记好的语音数据质量越高,越接近真实的人类语音,训练出来的深度神经网络对真实人类语音的识别效果就越好。目前,深度学习方面使用的标记语音数据集的主要获取来源包括以下几个方面:a.专门招募人员朗读文本材料并进行录音,以采集人声样本;b.利用公开领域的音频文件以获得人声样本;c.开发语音输入法,采集用户的人声样本,如讯飞语音输入法;d.提供操作系统的语音助手,通过客户与其互动,采集人声样本,如微软公司Win10桌面版的Cortana和苹果公司的Siri;e.利用语音合成技术按照文本材料直接合成。上述的人声采集技术存在如下问题:1.招募人朗读文本材料的方式,采集到的音频文件必须通过后期分割成10秒左右的小文件,并且需要分割文本材料与之对应,这些都需要大量的后期处理和校对工作。而且采集的范围小,每次能采集到的样本数量有限;2.利用公开领域的音频文件的方式,通常这些音频文件都缺乏相对应的文本材料,文件大小通常也过大,需要大量的后期文字听写,分割处理和校对工作;3.用语音输入法采集的方式,采集到的人声样本并不能保证带有准确的文字与之对应。同时,采集到的人声样本长短不齐,也有大量无用的样 ...
【技术保护点】
一种基于互联网的真实人声的采集系统,其特征在于,包括:服务器和客户端;所述服务器和客户端网络连接;所述服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与所述语句文本对应的语音数据;所述客户端执行:向所述服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至所述服务器。
【技术特征摘要】
1.一种基于互联网的真实人声的采集系统,其特征在于,包括:服务器和客户端;所述服务器和客户端网络连接;所述服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与所述语句文本对应的语音数据;所述客户端执行:向所述服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至所述服务器。2.如权利要求1所述的采集系统,其特征在于,还包括语音评价模块,所述语音评价模块执行对所述语音数据进行评价。3.如权利要求2所述的采集系统,其特征在于,所述语音评价模块执行所述语音数据进行评价,具体为:根据噪音水平及用户是否按照语句文本进行朗读计算所述语音数据的评分。4.如权利要求2所述的采集系统,其特征在于,所述语音评价模块集成于所述服务器,所述服务器还执行:对所述语音数据进行评价,将通过评价的语音数据进行有效标记并将其保存至与其相对应的语句文本的存储体中,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。