语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:19010325 阅读:43 留言:0更新日期:2018-09-22 10:03
本申请公开了一种语音识别方法、装置及设备,属于语音识别领域。所述方法包括:获取语音信息;通过加权有限状态机网络确定语音信息中的候选语音片段的起止位置;根据候选语音片段的起止位置在语音信息中截取该候选语音片段;将候选语音片段输入机器学习模型中,通过机器学习模型检测候选语音片段是否包含预设关键词。本申请通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验,确定候选语音片段是否包含预设关键词,解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题,提高了语音识别的准确率。

Speech recognition method, device, device and storage medium

The present invention discloses a speech recognition method, device and device, belonging to the field of speech recognition. The method includes: acquiring speech information; determining the starting and ending positions of candidate speech fragments in speech information by weighted finite state machine network; intercepting the candidate speech fragments in speech information according to the starting and ending positions of the candidate speech fragments; input the candidate speech fragments into the machine learning model and learning the candidate speech fragments through the machine model. Detecting whether the candidate voice segment contains default key words. In this paper, a machine learning model is used to verify the candidate speech fragments for coarse localization in weighted finite state machine networks, to determine whether the candidate speech fragments contain preset keywords, and to solve the problem that the non-semantic speech information may be recognized as semantic speech information in related technologies, which may lead to false awakening. The accuracy of speech recognition is high.

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请涉及语音识别领域,特别涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
语音唤醒,也被称为关键词唤醒(KeywordSpotting,KWS),是处于休眠或锁屏状态的电子设备通过识别用户语音,确定用户语音中包含预设关键词时,解除休眠和/或锁屏状态的功能,进而开启语音交互操作。在语音唤醒过程中,语音识别是较为关键的步骤。相关技术中典型的语音识别方法包括:对语音信息进行提取特征,通过加权有限状态机(WeightedFiniteStateTransducer,WFST)网络将语音信息转换为对应的文本信息,检测文本信息中是否包含预设关键词。在将语音信息转换为对应的文本信息的过程中,需要对语音信息进行语义识别。由于加权有限状态机网络的局限性,会将没有语义但和预设关键词相似的语音信息,例如噪声、背景音乐声等,识别为具有语义的语音信息,从而将电子设备误唤醒,导致识别准确率较低。
技术实现思路
本申请实施例提供了一种语音识别方法、装置及设备,用以解决相关技术中通过加权有限状态机网络识别语音信息准确率较低的问题。所述技术方案如下:一方面,提供了一种语音识别方法,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含预设关键词。一方面,提供了一种语音识别装置,所述装置包括:获取模块,用于获取语音信息;处理模块,用于通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含预设关键词。一方面,提供了一种语音识别设备,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述的语音识别方法。一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现如上述的语音识别方法。本申请实施例提供的技术方案带来的有益效果至少为:通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验,确定候选语音片段是否包含预设关键词,解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题,提高了语音识别的准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1A是本申请一个示例性的实施例提供的语音识别方法的实施环境图;图1B是本申请一个示例性的实施例提供的语音识别方法的实施环境图;图2是本申请一个示例性的实施例提供的语音识别方法的方法流程图;图3是本申请一个示例性的实施例提供的语音识别方法的方法流程图;图4是本申请一个示例性的实施例提供的语音信息分帧示意图;图5是本申请一个示例性的实施例提供的加权有限状态机网络的构架图;图6是本申请一个示例性的实施例提供的语音识别方法的方法流程图;图7A是本申请一个示例性的实施例提供的卷积神经网络的构架图;图7B是本申请一个示例性的实施例提供的语音识别方法的整体构架图;图8是本申请一个示例性的实施例提供的语音识别方法的方法流程图;图9是本申请一个示例性的实施例提供的语音识别方法的应用场景图;图10是本申请一个示例性的实施例提供的语音识别方法的应用场景图;图11是本申请一个示例性的实施例提供的语音识别装置的结构框图;图12是本申请一个示例性的实施例提供的语音识别设备的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。为了方便理解,下面对本申请实施例中涉及的名词进行解释。机器学习模型:是一种运算模型,由大量的节点(或称神经元)之间相互联接构成,每个节点对应一个策略函数,每两个节点间的连接代表一个对于通过该连接信号的加权值,称之为权重。样本输入机器学习模型的节点后,通过每个节点输出一个输出结果,该输出结果作为下一个节点的输入样本,机器学习模型通过样本最终输出结果对每个节点的策略函数和权重进行调整,该过程被称为训练。加权有限状态机网络:是表示有限个状态以及这些状态之间的转移和动作等行为的数学模型。本申请实施例中,加权有限状态机网络包括声学模型、词典和语言模型。声学模型:是根据语音信息输出对应的最大后验概率的隐藏状态的数学模型,隐藏状态可以是音素,也可以是比音素更小的语音单位。可选的,本申请实施例中的声学模型是隐马尔可夫-深度神经网络模型。音素:是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。隐马尔可夫模型(HiddenMarkovModel,HMM):是一种统计分析模型,用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,受状态影响的某些变量是可见的。多层感知机(MultilayerPerceptron,MLP):是一种前馈神经网络,将一组输入向量非线性映射到一组输出向量。多层感知机可以使用反向传播算法进行训练。深度神经网络(DeepNeuralNetwork,DNN):是一种机器学习模型,是包含超过两个隐藏层的多层感知机。除了输入节点外,每个节点都是一个带有非线性激活函数的神经元,与多层感知机一样,深度神经网络可以使用反向传播算法进行训练。卷积神经网络(ConvolutionalNeuralNetwork,CNN):是一种机器学习模型,包括至少两层级联的卷积层、顶端的全连接层(FullyConnectedLayers,FC)和软最大化函数(Softmax)组成,可选的,每一层卷积层后包括一层池化层。其通过共享参数降低模型的参数量,使之在图像和语音识别方面得到广泛应用。请参考图1A和图1B,其示出了本申请一个示例性实施例提供的语音识别方法的实施环境图。图1A是本申请实施例提供的第一种可能的实施环境,该实施环境包括:终端110以及服务器130。其中,终端110通过有线或无线网络和服务器130建立连接。在本实施例中,由终端110获取语音信息,由服务器130对语音信息进行识别并指示终端110解除休眠状态和/或锁屏状态。终端110的静音检测单元判断静音环境中是否有用户声音;若确定有用户声音,则激活录音单元对用户声音进行录音并得到相应的原始语音信号;将原始语音信号通过有线或无线网络发送至服务器130。服务器130对原始语音信号进行初步提取特征得到语音信息,检测语音信息中是否包含预设关键词;若语音信息中包含预设关键词,则在语音信息中截取候选语音片段,该候选语音片段是本文档来自技高网...
语音识别方法、装置、设备及存储介质

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含所述预设关键词。

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含所述预设关键词。2.根据权利要求1所述的方法,其特征在于,所述通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置,包括:将所述语音信息分帧,得到多帧语音片段;将所述多帧语音片段输入至所述加权有限状态机网络中,得到所述多帧语音片段对应的最大后验概率的语言信息;若所述语言信息中包含预设关键词,则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置;所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段。3.根据权利要求2所述的方法,其特征在于,所述加权有限状态机网络包括深度神经网络、隐马尔可夫模型、词典和语言模型,所述将所述多帧语音片段输入至加权有限状态机网络中,得到所述多帧语音片段对应的语言信息,包括:将所述多帧语音片段输入至所述深度神经网络中,得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率;根据所述每一帧语音片段和对应的隐藏状态之间后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态;根据所述每一帧语音片段对应的隐藏状态得到所述多帧语音片段对应的音素;根据所述多帧语音片段对应的音素,结合所述词典和所述语言模型得到所述多帧语音片段对应的最大后验概率的语言信息;其中,所述词典为所述音素和单词的对应关系,所述语言模型为所述单词与语法和/或句法的对应关系。4.根据权利要求3所述的方法,其特征在于,所述根据所述每一帧语音片段对应的隐藏状态的后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态,包括:通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换,得到所述每一帧语音片段对应的隐藏状态的发射概率;根据所述每一帧语音片段对应的隐藏状态的发射概率,所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率,通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。5.根据权利要求1至4任一项所述的方法,其特征在于,所述机器学习模型为卷积神经网络,所述将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词,包括:将所述候选语音片段输入所述卷积神经网络中;通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征;通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类,检测所述候选语音片段是否包含所述预设关键词。6.一种语音唤醒方法,其特征在于,所述方法包括:终端将获取到的语音信息发送至服务器;所述服务器检测所述语音信息中是否包含预设关键词;若所述语音信息中包含所述预设关键词,则所述服务器在所述语音信息中截取候选语音片段;所述候选语音片段是所述预设关键词对应的语音信息片段;所...

【专利技术属性】
技术研发人员:林诗伦张玺霖麻文华刘博李新辉卢鲤江修才
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1