语音的处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:22078636 阅读:28 留言:0更新日期:2019-09-12 15:09
本发明专利技术提供了一种语音的处理方法及装置、存储介质、电子设备,其中,该方法包括:将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素,计算所述预测音素与所述语音的标准音素之间的音素相似度,基于所述音素相似度确定所述语音是否满足采集要求,可见,对于语音的采集不需要先进行语音识别得到该语音的文本信息,而是通过训练的音素预测模型确定语音是否满足采集要求,从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息,由于语音识别不准确,导致语音样本收集效率低、成本高的技术问题,达到了语音样本收集效率高和低成本的效果。

Speech Processing Method and Device, Storage Media and Electronic Equipment

【技术实现步骤摘要】
语音的处理方法及装置、存储介质、电子设备
本专利技术涉及计算机
,具体而言,涉及一种语音的处理方法及装置、存储介质、电子设备。
技术介绍
现有技术对语音数据进行采集的时候,需要对被收集语音的质量和内容进行识别判断。确保所收集的语音是有质量的,语音的内容要符合要求。但是,完全绝对的语音音素匹配实际上是不可行的。原因有二,首先,因为我国的地域广大,各地口音众多,完全绝对的语音匹配不能满足同时收集各地口音不一致的语音。其次,我们的收集需求不要求100%完全匹配通过时(如,训练命令词和唤醒词的神经网络)。语音音素完全匹配会损失掉大量的语音样本,造成语音样本收集效率低和增加语音收集的成本。此外,现有技术中公开了一种通过对语音数据进行语音识别得到与语音数据对应的目标文本,再将目标文本与初始语料进行文本相似度匹配,得到目标文本与初始语料之间的文本相似度,进而根据该文本相似度来确定目标文本对应的语音数据是否符合要求。但是,此种方法依赖于语音识别的准确度,当语音识别不准确时(特别是带有口音的语音数据),会造成大量原本合格的语音样本的损失,造成语音样本收集效率低和增加语音收集的成本。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音的处理方法及装置、存储介质、电子设备,以至少解决相关技术中语音样本收集效率低、成本高的技术问题。根据本专利技术的一个实施例,提供了一种语音的处理方法,包括:将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素;对所述预测音素与所述语音的标准音素进行音素相似度匹配,得到所述预测音素与所述语音的标准音素之间的音素相似度;基于所述音素相似度确定所述语音是否满足采集要求。根据本专利技术的另一个实施例,提供了一种语音的处理装置,包括:音素预测模块,用于将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素;音素相似度计算模块,用于对所述预测音素与所述语音的标准音素进行音素相似度匹配,得到所述预测音素与所述语音的标准音素之间的音素相似度;判断模块,用于基于所述音素相似度确定所述语音是否满足采集要求。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素,计算所述预测音素与所述语音的标准音素之间的音素相似度,基于所述音素相似度确定所述语音是否满足采集要求,可见,对于语音的采集不需要先进行语音识别得到该语音的文本信息,而是通过训练的音素预测模型确定语音是否满足采集要求,从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息,由于语音识别不准确,导致语音样本收集效率低、成本高的技术问题,达到了语音样本收集效率高和低成本的效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的语音的处理方法的终端的硬件结构框图;图2是根据本专利技术实施例的语音的处理方法流程图;图3是根据本专利技术实施例的语音的处理方法的音素模型的示意图;图4是根据本专利技术实施例的语音的处理装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。实施例1本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本专利技术实施例的一种语音的处理方法的终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本专利技术实施例中的语音的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。在本实施例中提供了一种语音的处理方法,图2是根据本专利技术实施例的语音的处理方法流程图,如图2所示,该流程包括如下步骤:步骤S100,将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素;步骤S200,对所述预测音素与所述语音的标准音素进行音素相似度匹配,得到所述预测音素与所述语音的标准音素之间的音素相似度;步骤S300,基于所述音素相似度确定所述语音是否满足采集要求。通过上述步骤S100至步骤S300,通过本专利技术,将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素,计算所述预测音素与所述语音的标准音素之间的音素相似度,基于所述音素相似度确定所述语音是否满足采集要求,可见,对于语音的采集不需要先进行语音识别得到该语音的文本信息,而是通过训练的音素预测模型确定语音是否满足采集要求,从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息,由于语音识别不准确,导致语音样本收集效率低、成本高的技术问题,达到了语音样本收集效率高和低成本的效果。下面将结合具体的实施方式对各个步骤进行详细的说明。步骤S100,将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素。需要说明的是,本实施例中涉及到的语音可以是中文、韩文、日文等等,可以根据用户的需要进行设置。语音数据可以是wav,mp3等可以播放形式的,也可以是以数字形式保存的csv,此处没有限制。在本申请的一些实施例中,在将语音输入到音素本文档来自技高网...

【技术保护点】
1.一种语音的处理方法,其特征在于,包括:将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素;对所述预测音素与所述语音的标准音素进行音素相似度匹配,得到所述预测音素与所述语音的标准音素之间的音素相似度;基于所述音素相似度确定所述语音是否满足采集要求。

【技术特征摘要】
1.一种语音的处理方法,其特征在于,包括:将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素;对所述预测音素与所述语音的标准音素进行音素相似度匹配,得到所述预测音素与所述语音的标准音素之间的音素相似度;基于所述音素相似度确定所述语音是否满足采集要求。2.根据权利要求1所述的方法,其特征在于,将语音输入预先训练好的音素预测模型,获得所述语音对应的预测音素包括:对语音进行分帧处理;将分帧后的每一帧语音输入语音特征提取模块,获得所述每一帧语音的第一特征参数;将所述每一帧语音的第一特征参数输入所述预先训练好的音素预测模型,得到每一帧语音的音素预测结果;根据所述音素预测结果确定所述语音对应的预测音素。3.根据权利要求2所述的方法,其特征在于,所述预测结果包括:音素预测类别和音素预测向量;根据所述音素预测结果确定所述语音对应的预测音素包括:根据所述音素预测类别和所述音素预测向量确定所述语音对应的预测音素。4.根据权利要求3所述的方法,其特征在于,根据所述音素预测类别和所述音素预测向量确定所述语音对应的预测音素包括:将所述音素预测类别和所述音素预测向量输入集束搜索模型或者贪婪搜索模型,得到所述语音对应的预测音素;或者,根据每一类的所述音素预测类别,对其对应的所述音素预测向量进行求平均处理,得到所述语音对应的预测音素;或者,将所述音素预测类别和所述音素预测向量进行聚类处理,得到所述语音对应的预测音素。5.根据权利要求1-4任一所述的方法,其特征在于,所述音素预测模型包括语音特征提取模块、卷积神经网络、长短时记忆网络和CTC解码模块。6.根据权利要求1-5所述的方法,其特征在于,对...

【专利技术属性】
技术研发人员:聂镭李睿聂颖
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1