当前位置: 首页 > 专利查询>谌勋专利>正文

一种基于互联网的真实人声的采集系统技术方案

技术编号:16548560 阅读:35 留言:0更新日期:2017-11-11 12:45
一种基于互联网的真实人声的采集系统,包括:服务器和客户端;服务器和客户端网络连接;服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与语句文本对应的语音数据;客户端执行:向服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至服务器。本例的真实人声的采集方式与现有的语音采集方式相比:不需要对采集的音频文件进行大量的后期处理和校对工作,而且,采集的音频文件与朗读的文本材料相对应;另外,通过对采集的语音数据进行评价,进一步,实现了真实人声的高质量采集。

A real voice acquisition system based on Internet

Including an Internet based data acquisition system, the real voice: the server and the client server and client; network connection; server executes the statement text segmentation: pre stored text material for its length is applied to train the neural network to obtain the depth; the client access the text of the statement sent a specific user to read; receive the voice data corresponding to the text of the statement; the client to the server initiates the statement text read the statement text to be read aloud to request and receive; collect user data of reading aloud the text of the statement, and the collected voice data is transmitted to the server. In this case the real voice acquisition method. Compared with the existing methods of speech acquisition: the need for a large number of post-processing and proofreading, the collected audio files and collecting audio files and reading the text material corresponding; in addition, the number of speech acquisition according to the evaluation, further, to achieve high quality capture the true voice.

【技术实现步骤摘要】
一种基于互联网的真实人声的采集系统
本专利技术涉及语音采集
,具体涉及一种基于互联网的真实人声的采集系统。
技术介绍
基于深度神经网络的语音识别技术在近年得到了快速的发展并得到了大量应用。这种技术需要将事先标记好的语音数据(即具备文字-语音对照的数据)输入到一个神经网络当中,对神经网络进行训练。标记好的语音数据的数量和质量对于语音识别的效果至关重要,标记好的数据越多,训练的效果越好。标记好的语音数据质量越高,越接近真实的人类语音,训练出来的深度神经网络对真实人类语音的识别效果就越好。目前,深度学习方面使用的标记语音数据集的主要获取来源包括以下几个方面:a.专门招募人员朗读文本材料并进行录音,以采集人声样本;b.利用公开领域的音频文件以获得人声样本;c.开发语音输入法,采集用户的人声样本,如讯飞语音输入法;d.提供操作系统的语音助手,通过客户与其互动,采集人声样本,如微软公司Win10桌面版的Cortana和苹果公司的Siri;e.利用语音合成技术按照文本材料直接合成。上述的人声采集技术存在如下问题:1.招募人朗读文本材料的方式,采集到的音频文件必须通过后期分割成10秒左右的小文件,并且需要分割文本材料与之对应,这些都需要大量的后期处理和校对工作。而且采集的范围小,每次能采集到的样本数量有限;2.利用公开领域的音频文件的方式,通常这些音频文件都缺乏相对应的文本材料,文件大小通常也过大,需要大量的后期文字听写,分割处理和校对工作;3.用语音输入法采集的方式,采集到的人声样本并不能保证带有准确的文字与之对应。同时,采集到的人声样本长短不齐,也有大量无用的样本混杂期间,样本质量无法保证,需要大量的后期处理和校对工作;4.用语音助手的方式,缺点与用语音输入法采集的方式相同;5.用语音合成技术的方式,合成的语音与真实人声有较大区别,不利于深度神经网络对真实语音的学习。
技术实现思路
本申请提供一种基于互联网的真实人声的采集系统,包括服务器和客户端;服务器和客户端网络连接;服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与语句文本对应的语音数据;客户端执行:向服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至服务器。一种实施例中,还包括语音评价模块,语音评价模块执行对所述语音数据进行评价。一种实施例中,语音评价模块执行语音数据进行评价,具体为:根据噪音水平及用户是否按照语句文本进行朗读计算所述语音数据的评分。一种实施例中,语音评价模块集成于服务器,服务器还执行:对语音数据进行评价,将通过评价的语音数据进行有效标记并将其保存至与其相对应的语句文本的存储体中,否则,将未通过评价的语音数据进行无效标记。一种实施例中,语音评价模块集成于客户端,客户端还执行:对语音数据进行评价,将通过评价的语音数据进行有效标记并将其传送至服务器,否则,将未通过评价的语音数据进行无效标记。一种实施例中,还包括第三方检测平台,第三方检测平台分别与客户端和服务器网络连接;客户端执行:将采集到的语音数据传送至第三方检测平台;第三方检测平台内置有语音评价模块,第三方检测平台执行:对语音数据进行评价,将通过评价的语音数据进行有效标记并将其传输至服务器,否则,将未通过评价的语音数据进行无效标记。一种实施例中,服务器集成有抽查模块,服务器还执行:对保存的有效的语音数据进行随机人工抽查。一种实施例中,客户端执行的程序至少依附于其中之一:智能设备、个人电脑和浏览器网页。依据上述实施例的采集系统,由于将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本,根据用户的朗读请求向其发送待朗读的语句文本,对用户朗读语句文本的语音进行采集,本例的真实人声的采集方式与现有的语音采集方式相比:本例不需要对采集的音频文件进行后期分割、不需要大量的后期处理和校对工作,而且,采集的音频文件与朗读的文本材料相对应;另外,通过对采集的语音数据进行评价,将评价通过的语音数据进行存储和有效的标记,进一步,实现了真实人声的高质量采集。附图说明图1为实施例一的采集系统工作示意图;图2为实施例二的采集系统工作示意图;图3为实施例三的采集系统工作示意图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。在本专利技术实施例中,为解决目前用于训练深度神经网络的带标记的真实人声语音数据样本较少,语音数据样本获取成本较高的问题,本例提供一种基于互联网的真实人声的采集系统,其采集的语音数据可以在简单处理后用于深度学习神经网络的训练、验证和测试。实施例一:本例的基于互联网的真实人声的采集系统包括服务器1和客户端2,其工作示意图如图1所示,服务器1和客户端2基于互联网建立网络连接,客户端2对非特定用户朗读的语句文本进行录音,并将录音发送至服务器1,以实现真实人声的采集,其中,非特定用户指的是任何一个用户,即,任何一个用户通过注册,均可以向服务器1请求朗读语句文本,由此,扩展了语音采样的范围。具体的,为了避免对采集的音频文件进行分割处理,更为了方便采集的音频文件适用于深度神经网络语音识别的样本,服务器1将预存的大量的文本材料分割为其长度适用于深度神经网络训练的语句文本,如,语句文本的长度大约等于10秒左右的朗读时间。当非特定用户通过客户端2注册一账号后,即可成为朗读语句文本的特定用户,如,当非特定用户根据客户端2的注册提示,逐步同意客户端2应用使用条款后,该非特定用户就能获取客户端2的访问权限,然后,用户就能通过客户端2向服务器1发起朗读语句文本的请求,客户端2接收待朗读的语句文本,用户朗读获取的语句文本,此时,客户端2附带的录音硬件设备被触发,对用户朗读的真实人声进行录音,待用户朗读完毕后,客户端2将采集到的语音数据传送至服务器1,服务器1接收并存储该语音数据,从而使服务器1能够采集到和文字对应的语音信息。为了保证获取语音信息的有效性,避免获得无用的样本,针对每一个采集到的语音数据进行自动检测并给出评价分数,只有评价分数超过预设数值的语音数据才会被存储到服务器1。本例还包括语音评价模块3,语音评价模块3对语音数据进行评价,根据评价分数判断采集到的语音数据是否符合要求,其中,评价语音数据的要素包括噪音水平和用户是否按照语句文本进行朗读,因此,语音评价模块3根据噪音水平及用户是否按照语句文本进行朗读计算语音数据的评分。其中,针对用户是否按照语句文本进行朗读,具体的评价方式是,语音评价模块3将采用该语句文本对应的参考语音,该参考语音可以是已有的采集的标记语音,也可以是合成人工语音,语音评价模块3比较参考语音和采集的语音的相似度,根据相似度进行评分。比较参考语音和采集的语音的相似度的实现方式是:先使用动态时间规整算法找到采集的语间与参考语间的特征的最佳对齐,然后使用Levenshtein距离算法来计算这两个序列之间的距离,通过距离得到两个语间之间的相似度,根据该相似度进行评分。本例中,语音评价模块3集成于服务器1,服务器1接收到语句文本对应的语音数据后,服务器1通过语音评价模块3对语音数据进行评价,服务器1将通过评价的语音数据进行有效标记并将其本文档来自技高网
...
一种基于互联网的真实人声的采集系统

【技术保护点】
一种基于互联网的真实人声的采集系统,其特征在于,包括:服务器和客户端;所述服务器和客户端网络连接;所述服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与所述语句文本对应的语音数据;所述客户端执行:向所述服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至所述服务器。

【技术特征摘要】
1.一种基于互联网的真实人声的采集系统,其特征在于,包括:服务器和客户端;所述服务器和客户端网络连接;所述服务器执行:将预存的文本材料分割为其长度适用于深度神经网络训练的语句文本;向获取客户端访问权限的非特定的用户发送待朗读的语句文本;接收与所述语句文本对应的语音数据;所述客户端执行:向所述服务器发起语句文本的朗读请求和接收待朗读的语句文本;采集用户朗读语句文本的语音数据,并将采集到的语音数据传送至所述服务器。2.如权利要求1所述的采集系统,其特征在于,还包括语音评价模块,所述语音评价模块执行对所述语音数据进行评价。3.如权利要求2所述的采集系统,其特征在于,所述语音评价模块执行所述语音数据进行评价,具体为:根据噪音水平及用户是否按照语句文本进行朗读计算所述语音数据的评分。4.如权利要求2所述的采集系统,其特征在于,所述语音评价模块集成于所述服务器,所述服务器还执行:对所述语音数据进行评价,将通过评价的语音数据进行有效标记并将其保存至与其相对应的语句文本的存储体中,...

【专利技术属性】
技术研发人员:谌勋
申请(专利权)人:谌勋
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1