一种语音识别装置和方法制造方法及图纸

技术编号:20007024 阅读:34 留言:0更新日期:2019-01-05 18:39
本公开提供了一种语音识别装置,通过存储单元、运算单元和控制单元实现语音识别。

A Speech Recognition Device and Method

The present disclosure provides a speech recognition device which realizes speech recognition by a storage unit, an operation unit and a control unit.

【技术实现步骤摘要】
一种语音识别装置和方法
本公开涉及语音识别
,尤其涉及一种语音识别装置和方法。
技术介绍
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别(speechrecognition;语音辨识/言语辨别)技术,也被称为自动语音识别(英语:AutomaticSpeechRecognition,ASR)、电脑语音识别(英语:ComputerSpeechRecognition)或是语音转文本识别(英语:SpeechToText,STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。传统的语音识别引擎一般是实现声学模型、语言模型和解码器的硬件装置。声学模型可以计算输入语音信号的每帧的发音概率,语言模型可提供关于特定的单词、短语或句子的使用频率或特定的单词、短语或句子之间的连接性信息。解码器可基于考虑由声学模型和语言模型提供的各个信息,来计算并输出输入语音信号与特定的单词或句子的相似度。随着人工神经网络技术的发展,越来越多的人工神经网络技术被使用作为语音识别中的声学模型或者语言模型或者解码器。在实现本公开的过程中,申请人发现上述现有技术存在如下技术缺陷:(1)随着人工神经网络技术特别是人工神经网络中深度学习(deeplearning)技术的发展,当前用于语音识别领域中声学模型或者语言模型或者解码器的神经网络模型规模越来越大,语音识别过程中的计算量也越来越大。(2)计算量的几何倍数增长带来了语音识别设备的耗时、功耗、发热量的几何式增长。现有的计算硬件设备包括CPU、GPU、DSP、ASIC等很难满足大规模神经网络所需的计算量,即使计算量可以满足现有设备也有着识别延迟增加、以及识别装置的功耗过大、发热量过大等问题。这些问题直接限制了其在终端产品例如可穿戴设备、无线设备、智能手机、智能手表、智能眼镜、智能家居等以及云端产品例如数据中心、大型服务器等设备上的应用。
技术实现思路
(一)要解决的技术问题有鉴于此,本公开的主要目的在于提供一种语音识别装置及方法,解决现有技术中存在的运算量过大、延迟过大、功耗过高、散热过大等问题。(二)技术方案本公开提供了一种语音识别装置,包括:存储单元和神经网络运算单元;所述存储单元,用于接收语音信号,并作为输入数据存储;所述神经网络运算单元,用于通过执行神经网络运算和/或通用运算对所述输入数据进行处理,得到语音识别结果。在本公开的一些实施例中,所述神经网络运算单元包括:神经网络运算子单元和通用运算子单元;所述神经网络运算子单元用于执行神经网络运算;所述通用运算子单元用于执行通用运算。在本公开的一些实施例中,还包括:控制单元,用于控制所述神经网络运算单元进行语音识别。在本公开的一些实施例中,所述控制单元包括:指令缓存单元,用于存储待执行的指令;指令处理单元,用于从所述指令缓存单元获取指令并对所述指令进行译码;标量寄存器堆,用于存储所述指令对应的操作码和操作数;依赖关系处理单元,用于对所述指令及其对应的操作码和操作数进行判断,将所述指令提供给所述神经网络运算单元。在本公开的一些实施例中,所述指令为神经网络运算指令,所述指令被提供给所述神经网络运算子单元;或者,所述指令为通用运算指令,所述指令被提供给所述通用运算子单元。在本公开的一些实施例中,当判断结果为所述指令与前一指令存在依赖关系,所述指令被存储在存储队列单元,待前一指令执行完毕,所述存储队列单元中的所述指令提供给所述神经网络运算单元;当判断结果为所述指令与前一指令不存在依赖关系,所述指令直接被提供给所述神经网络运算单元。在本公开的一些实施例中,所述指令处理单元包括:取指模块,用于从所述指令缓存单元中获取指令;译码模块,用于对获取的所述指令进行译码;指令队列模块,用于对译码后的指令进行顺序存储。在本公开的一些实施例中,所述指令缓存单元是重排序缓存。在本公开的一些实施例中,还包括输入输出单元,所述存储单元通过所述输入输出单元读取数据并写回语音识别结果。在本公开的一些实施例中,所述存储单元是高速暂存存储器;所述输入输出单元是IO直接内存存取模块。在本公开的一些实施例中,所述神经网络运算子单元包括基于神经网络模型的预处理模块、声学模型模块、语言模型模块和解码器。在本公开的一些实施例中,所述预处理模块用于采用神经网络模型对输入数据进行预处理。在本公开的一些实施例中,所述声学模型模块用于采用神经网络模型作为声学模型计算语音到音节的概率。在本公开的一些实施例中,所述语言模型模块用于采用神经网络模型作为语言模型计算音节到字的概率。在本公开的一些实施例中,所述解码器用于采用神经网络模型进行解码以得到语音识别结果。在本公开的一些实施例中,所述神经网络模型是卷积神经网络、深度神经网络或递归神经网络。在本公开的一些实施例中,所述通用运算子单元包括基于非神经网络模型的预处理模块、声学模型模块、语言模型模块和解码器。在本公开的一些实施例中,所述预处理模块用于采用FFT、矩形窗或汉明窗对输入数据进行预处理。在本公开的一些实施例中,所述声学模型模块和所述语言模型模块用于采用隐马尔科夫模型、CTC模型或n-gram模型进行概率运算。在本公开的一些实施例中,所述解码器用于采用维特比算法、束搜索算法、A*算法进行解码以得到语音识别结果。在本公开的一些实施例中,还包括:通用运算单元,用于执行通用运算。在本公开的一些实施例中,还包括:语音收集单元,用于采集语音信号,并将语音信号传送至所述存储单元。在本公开的一些实施例中,所述神经网络运算子单元包括至少一个运算部件,所述运算部件包括至少一个乘法器、和/或至少一个加法器、和/或至少一个激活函数单元、和/或至少一个池化单元。在本公开的一些实施例中,所述至少一个加法器组成加法树。本公开还提供了一种芯片,包括任一上述语音识别装置。本公开还提供了一种芯片封装结构,包括上述芯片。本公开还提供了一种板卡,包括上述芯片封装结构。本公开还提供了一种电子装置,包括上述板卡。本公开还提供了一种语音识别方法,包括:存储单元将语音信号作为输入数据存储;神经网络运算单元执行神经网络运算和/或通用运算,对所述输入数据进行处理,得到语音识别结果。在本公开的一些实施例中,神经网络运算单元中的神经网络运算子单元执行所述神经网络运算,通用运算子单元执行所述通用运算。在本公开的一些实施例中,控制单元控制神经网络运算单元进行语音识别,得到语音识别结果。在本公开的一些实施例中,所述控制单元控制神经网络运算单元进行语音识别包括:存储待执行的指令;获取指令并对所述指令进行译码;存储所述指令对应的操作码和操作数;对所述指令及其对应的操作码和操作数进行判断,将所述指令提供给所述神经网络运算单元。在本公开的一些实施例中,所述指令为神经网络运算指令,所述指令被提供给所述神经网络运算子单元;或者,所述指令为通用运算指令,所述指令被提供给所述通用运算子单元。在本公开的一些实施例中,当判断结果为所述指令与前一指令存在依赖关系,所述指令被存储在存储队列单元,待前一指令执行完毕,所述存储队列单元中的所述指令提供给所述本文档来自技高网
...

【技术保护点】
1.一种语音识别装置,包括:存储单元和神经网络运算单元;所述存储单元,用于接收语音信号,并作为输入数据存储;所述神经网络运算单元,用于通过执行神经网络运算和/或通用运算对所述输入数据进行处理,得到语音识别结果。

【技术特征摘要】
1.一种语音识别装置,包括:存储单元和神经网络运算单元;所述存储单元,用于接收语音信号,并作为输入数据存储;所述神经网络运算单元,用于通过执行神经网络运算和/或通用运算对所述输入数据进行处理,得到语音识别结果。2.如权利要求1所述的语音识别装置,所述神经网络运算单元包括:神经网络运算子单元和通用运算子单元;所述神经网络运算子单元用于执行神经网络运算;所述通用运算子单元用于执行通用运算。3.如权利要求1或2所述的语音识别装置,还包括:控制单元,用于控制所述神经网络运算单元进行语音识别。4.如权利要求3所述的语音识别装置,所述控制单元包括:指令缓存单元,用于存储待执行的指令;指令处理单元,用于从所述指令缓存单元获取指令并对所述指令进行译码;标量寄存器堆,用于存储所述指令对应的操作码和操作数;依赖关系处理单元,用于对所述指令及其对应的操作码和操作数进行判断,将所述指令提供给所述神经网络运算单元。5.如权利要求4所述的语音识别装置,当判断结果为所述指令与前一指令存在依赖关系,所述指令被存储在存储队列单元,待前一指令执行完毕,所述存储队列单元中的所述指令提供给所述神经网络运算单元;当判断...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:上海寒武纪信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1