语音转写方法和装置、机器人制造方法及图纸

技术编号：18446904 阅读：31 留言：0更新日期：2018-07-14 11:11

本发明专利技术公开了一种语音转写方法和装置、机器人。其中，该方法包括：获取语音信号的语谱图；将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络；输出文本数据。本发明专利技术解决了现有技术中的语音转写方式的实时性不高的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音转写方法和装置、机器人
本专利技术涉及人工智能领域，具体而言，涉及一种语音转写方法和装置、机器人。
技术介绍
人工智能的应用中，语音识别如今取得显著的进步，不管是英文、中文还是其他语种，机器的语音识别准确率在不断上升。其中，语音听写技术的发展最为迅速，目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用。但是语音转写目前还存在一定的难度，由于在产生录音文件的过程中使用者并没有估计到所录音会被用于语音识别，因此相比于语音听写，语音转写面临着方言、说话风格等难点。卷积神经网络CNN在2012年就被用于语音识别系统，但始终没有大的突破。由于其使用固定长度的帧拼接作为输入，无法看到足够长的语音上下文信息；另一个不足是将CNN作为一种特征提取器，因此所用的卷积层数很少，表达能力有限。目前最好的语音识别系统采用双向长短时记忆网络(LSTM，LongShortTermMemory),这种网络能够对语音的长时相关性进行建模，但是这一系统存在训练复杂度高、解码时延高的问题，在工业界的实时识别系统中很难应用。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音转写方法和装置、机器人，以至少解决现有技术中的语音转写方式的实时性不高的技术问题。根据本专利技术实施例的一个方面，提供了一种语音转写方法，包括：获取语音信号的语谱图；将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络；输出文本数据。可选地，每个卷积层和池化层对包括：一...

【技术保护点】
1.一种语音转写方法，其特征在于，包括：获取语音信号的语谱图；将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络，得到所述语音信号对应的文本数据；其中，所述深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络；输出所述文本数据。

【技术特征摘要】
1.一种语音转写方法，其特征在于，包括：获取语音信号的语谱图；将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络，得到所述语音信号对应的文本数据；其中，所述深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络；输出所述文本数据。2.根据权利要求1所述的方法，其特征在于，每个所述卷积层和池化层对包括：一个卷积层和一个池化层，且所述池化层的输入为所述卷积层的输出。3.根据权利要求1所述的方法，其特征在于，通过以下方式获得经训练后的深度全序列卷积神经网络：根据训练数据集对深度全序列卷积神经网络进行训练，得到所述训练后的深度全序列卷积神经网络；其中，所述训练数据集包括：多种语音信号的语谱图，以及与所述多种语音信号对应的多个文本数据。4.根据权利要求1所述的方法，其特征在于，将获取的所述语谱图输入到经训练后的深度全序列卷积神经网络，得到所述语音信号对应的文本数据包括：利用所述深度全序列卷积神经网络依次执行以下步骤：对所述语谱图进行图像识别，得到识别结果；对所述识别结果进行关键词抽取；基于抽取的所述关键词在预设的语料库中进行搜索，得到搜索结果；基于所述搜索结果结合所述语音信号所对应的领域得到所述文本数据。5.根据权利要求4所述的方法，其特征在于，基于所述搜索结果结合所述语音信号所在的领域得到所述文本数据包括：对所述搜索结果进行后处理，得到后处理结果；其中，所述后处理包括：对所述搜索结果进行排序、分类、筛选和提取；基于加权有限状态转换器的解码网络，依据所述后处理结果，在与所述语音信号所对应的领域内对所述关键词进行解码，得到所述文本数据。6.根据权利要求5所述的方法，其特征在于，在存在多个所述解码网络的情况下，基于加权有限状态转换器的解码网络，依据所述后处理结果，在与所述语音信号所对应的领域内对所述关键词进行解码，得到所述文本数据包括：将多个所述解码网络进行融合；基于融合后的解码网络，依据所述后处理结果，在与所述语音信号所对应的领域内对所述关键词进行解码，得到所述文本数据。7.根据权利要求1所述的方法，其特征在于，在输出所述文本数据之后，所述方法还包括：对输出的文本数据进行分句、分段；删除所述文本数据中的停顿词、语气词和重复词。8.根据权利要求7所述的方法，其特征在于，对输出的文本数据进行分句、分段包括：通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段；其中，所述两级级联双线长短时记忆网络模型包括：输入层、输出层，以及位于所述输入层和所述输出层之间的前向长短时记忆网络和后向长短时记忆网络。9.一种语音转写装置，其特征在于...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：深圳光启合众科技有限公司，深圳光启创新技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人