语音转写方法和装置、机器人制造方法及图纸

技术编号:18446904 阅读:31 留言:0更新日期:2018-07-14 11:11
本发明专利技术公开了一种语音转写方法和装置、机器人。其中,该方法包括:获取语音信号的语谱图;将获取的语谱图输入到经训练后的深度全序列卷积神经网络,得到语音信号对应的文本数据;其中,深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络;输出文本数据。本发明专利技术解决了现有技术中的语音转写方式的实时性不高的技术问题。

【技术实现步骤摘要】
语音转写方法和装置、机器人
本专利技术涉及人工智能领域,具体而言,涉及一种语音转写方法和装置、机器人。
技术介绍
人工智能的应用中,语音识别如今取得显著的进步,不管是英文、中文还是其他语种,机器的语音识别准确率在不断上升。其中,语音听写技术的发展最为迅速,目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用。但是语音转写目前还存在一定的难度,由于在产生录音文件的过程中使用者并没有估计到所录音会被用于语音识别,因此相比于语音听写,语音转写面临着方言、说话风格等难点。卷积神经网络CNN在2012年就被用于语音识别系统,但始终没有大的突破。由于其使用固定长度的帧拼接作为输入,无法看到足够长的语音上下文信息;另一个不足是将CNN作为一种特征提取器,因此所用的卷积层数很少,表达能力有限。目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShortTermMemory),这种网络能够对语音的长时相关性进行建模,但是这一系统存在训练复杂度高、解码时延高的问题,在工业界的实时识别系统中很难应用。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音转写方法和装置、机器人,以至少解决现有技术中的语音转写方式的实时性不高的技术问题。根据本专利技术实施例的一个方面,提供了一种语音转写方法,包括:获取语音信号的语谱图;将获取的语谱图输入到经训练后的深度全序列卷积神经网络,得到语音信号对应的文本数据;其中,深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络;输出文本数据。可选地,每个卷积层和池化层对包括:一个卷积层和一个池化层,且池化层的输入为卷积层的输出。可选地,通过以下方式获得经训练后的深度全序列卷积神经网络:根据训练数据集对深度全序列卷积神经网络进行训练,得到所述训练后的深度全序列卷积神经网络;其中,所述训练数据集包括:多种语音信号的语谱图,以及与所述多种语音信号对应的多个文本数据。可选地,将获取的语谱图输入到经训练后的深度全序列卷积神经网络,得到语音信号对应的文本数据包括:利用深度全序列卷积神经网络依次执行以下步骤:对语谱图进行图像识别,得到识别结果;对识别结果进行关键词抽取;基于抽取的关键词在预设的语料库中进行搜索,得到搜索结果;基于搜索结果结合语音信号所对应的领域得到文本数据。可选地,基于搜索结果结合语音信号所在的领域得到文本数据包括:对搜索结果进行后处理,得到后处理结果;其中,后处理包括:对搜索结果进行排序、分类、筛选和提取;基于加权有限状态转换器的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据。可选地,在存在多个解码网络的情况下,基于加权有限状态转换器的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据包括:将多个解码网络进行融合;基于融合后的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据。可选地,在输出文本数据之后,方法还包括:对输出的文本数据进行分句、分段;删除文本数据中的停顿词、语气词和重复词。可选地,对输出的文本数据进行分句、分段包括:通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段;其中,两级级联双线长短时记忆网络模型包括:输入层、输出层,以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。根据本专利技术实施例的另一方面,还提供了一种语音转写装置,包括:获取模块,用于获取语音信号的语谱图;第一处理模块,用于将获取的语谱图输入到经训练后的深度全序列卷积神经网络,得到语音信号对应的文本数据;其中,深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络;输出模块,用于输出文本数据。可选地,每个卷积层和池化层对包括:一个卷积层和一个池化层,且池化层的输入为卷积层的输出。可选地,第一处理模块包括:输入单元和深度全序列卷积神经网络;其中,输入单元,用于将语谱图输入到深度全序列卷积神经网络;深度全序列卷积神经网络,用于执行以下步骤:对语谱图进行图像识别,得到识别结果;对识别结果进行关键词抽取;基于抽取的关键词在预设的语料库中进行搜索,得到搜索结果;基于搜索结果结合语音信号所对应的领域得到文本数据。可选地,深度全序列卷积神经网络基于搜索结果结合语音信号所在的领域得到文本数据包括:深度全序列卷积神经网络对搜索结果进行后处理,得到后处理结果;其中,后处理包括:对搜索结果进行排序、分类、筛选和提取;深度全序列卷积神经网络基于加权有限状态转换器的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据。可选地,在存在多个解码网络的情况下,深度全序列卷积神经网络基于加权有限状态转换器的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据包括:深度全序列卷积神经网络将多个解码网络进行融合;深度全序列卷积神经网络基于融合后的解码网络,依据后处理结果,在与语音信号所对应的领域内对关键词进行解码,得到文本数据。可选地,装置还包括:第二处理模块,用于对输出的文本数据进行分句、分段;以及删除文本数据中的停顿词、语气词和重复词。可选地,第二处理模块包括:处理单元,用于通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段;其中,两级级联双线长短时记忆网络模型包括:输入层、输出层,以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。根据本专利技术实施例的另一个方面,提供了一种机器人,包括:上述语音转写装置。在本专利技术实施例中,采用深度全序列卷积神经网络,将语音信号的语谱图作为输入,对整句语音信号进行识别,得到语音信号的文本数据的方式,即通过深度全序列卷积神经网络对整句语音信号进行识别,与现有技术中一个词一个词进行识别转写的方式相比,提高了转写的效率,提高了转写的实时性,进而解决了现有技术中的语音转写方式的实时性不高的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的语音转写方法的流程图;图2是根据本专利技术优选实施例提供的语音处理过程的示意图;图3是根据本专利技术实施例的语音转写装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限本文档来自技高网
...

【技术保护点】
1.一种语音转写方法,其特征在于,包括:获取语音信号的语谱图;将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络,得到所述语音信号对应的文本数据;其中,所述深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络;输出所述文本数据。

【技术特征摘要】
1.一种语音转写方法,其特征在于,包括:获取语音信号的语谱图;将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络,得到所述语音信号对应的文本数据;其中,所述深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络;输出所述文本数据。2.根据权利要求1所述的方法,其特征在于,每个所述卷积层和池化层对包括:一个卷积层和一个池化层,且所述池化层的输入为所述卷积层的输出。3.根据权利要求1所述的方法,其特征在于,通过以下方式获得经训练后的深度全序列卷积神经网络:根据训练数据集对深度全序列卷积神经网络进行训练,得到所述训练后的深度全序列卷积神经网络;其中,所述训练数据集包括:多种语音信号的语谱图,以及与所述多种语音信号对应的多个文本数据。4.根据权利要求1所述的方法,其特征在于,将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络,得到所述语音信号对应的文本数据包括:利用所述深度全序列卷积神经网络依次执行以下步骤:对所述语谱图进行图像识别,得到识别结果;对所述识别结果进行关键词抽取;基于抽取的所述关键词在预设的语料库中进行搜索,得到搜索结果;基于所述搜索结果结合所述语音信号所对应的领域得到所述文本数据。5.根据权利要求4所述的方法,其特征在于,基于所述搜索结果结合所述语音信号所在的领域得到所述文本数据包括:对所述搜索结果进行后处理,得到后处理结果;其中,所述后处理包括:对所述搜索结果进行排序、分类、筛选和提取;基于加权有限状态转换器的解码网络,依据所述后处理结果,在与所述语音信号所对应的领域内对所述关键词进行解码,得到所述文本数据。6.根据权利要求5所述的方法,其特征在于,在存在多个所述解码网络的情况下,基于加权有限状态转换器的解码网络,依据所述后处理结果,在与所述语音信号所对应的领域内对所述关键词进行解码,得到所述文本数据包括:将多个所述解码网络进行融合;基于融合后的解码网络,依据所述后处理结果,在与所述语音信号所对应的领域内对所述关键词进行解码,得到所述文本数据。7.根据权利要求1所述的方法,其特征在于,在输出所述文本数据之后,所述方法还包括:对输出的文本数据进行分句、分段;删除所述文本数据中的停顿词、语气词和重复词。8.根据权利要求7所述的方法,其特征在于,对输出的文本数据进行分句、分段包括:通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段;其中,所述两级级联双线长短时记忆网络模型包括:输入层、输出层,以及位于所述输入层和所述输出层之间的前向长短时记忆网络和后向长短时记忆网络。9.一种语音转写装置,其特征在于...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:深圳光启合众科技有限公司深圳光启创新技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1