The present invention discloses a speech recognition method, device and device, belonging to the field of speech recognition. The method includes: acquiring speech information; determining the starting and ending positions of candidate speech fragments in speech information by weighted finite state machine network; intercepting the candidate speech fragments in speech information according to the starting and ending positions of the candidate speech fragments; input the candidate speech fragments into the machine learning model and learning the candidate speech fragments through the machine model. Detecting whether the candidate voice segment contains default key words. In this paper, a machine learning model is used to verify the candidate speech fragments for coarse localization in weighted finite state machine networks, to determine whether the candidate speech fragments contain preset keywords, and to solve the problem that the non-semantic speech information may be recognized as semantic speech information in related technologies, which may lead to false awakening. The accuracy of speech recognition is high.
【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请涉及语音识别领域,特别涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
语音唤醒,也被称为关键词唤醒(KeywordSpotting,KWS),是处于休眠或锁屏状态的电子设备通过识别用户语音,确定用户语音中包含预设关键词时,解除休眠和/或锁屏状态的功能,进而开启语音交互操作。在语音唤醒过程中,语音识别是较为关键的步骤。相关技术中典型的语音识别方法包括:对语音信息进行提取特征,通过加权有限状态机(WeightedFiniteStateTransducer,WFST)网络将语音信息转换为对应的文本信息,检测文本信息中是否包含预设关键词。在将语音信息转换为对应的文本信息的过程中,需要对语音信息进行语义识别。由于加权有限状态机网络的局限性,会将没有语义但和预设关键词相似的语音信息,例如噪声、背景音乐声等,识别为具有语义的语音信息,从而将电子设备误唤醒,导致识别准确率较低。
技术实现思路
本申请实施例提供了一种语音识别方法、装置及设备,用以解决相关技术中通过加权有限状态机网络识别语音信息准确率较低的问题。所述技术方案如下:一方面,提供了一种语音识别方法,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含预设关键词。一方面,提供了一种语音识别装置,所述 ...
【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含所述预设关键词。
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信息;通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含所述预设关键词。2.根据权利要求1所述的方法,其特征在于,所述通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置,包括:将所述语音信息分帧,得到多帧语音片段;将所述多帧语音片段输入至所述加权有限状态机网络中,得到所述多帧语音片段对应的最大后验概率的语言信息;若所述语言信息中包含预设关键词,则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置;所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段。3.根据权利要求2所述的方法,其特征在于,所述加权有限状态机网络包括深度神经网络、隐马尔可夫模型、词典和语言模型,所述将所述多帧语音片段输入至加权有限状态机网络中,得到所述多帧语音片段对应的语言信息,包括:将所述多帧语音片段输入至所述深度神经网络中,得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率;根据所述每一帧语音片段和对应的隐藏状态之间后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态;根据所述每一帧语音片段对应的隐藏状态得到所述多帧语音片段对应的音素;根据所述多帧语音片段对应的音素,结合所述词典和所述语言模型得到所述多帧语音片段对应的最大后验概率的语言信息;其中,所述词典为所述音素和单词的对应关系,所述语言模型为所述单词与语法和/或句法的对应关系。4.根据权利要求3所述的方法,其特征在于,所述根据所述每一帧语音片段对应的隐藏状态的后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态,包括:通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换,得到所述每一帧语音片段对应的隐藏状态的发射概率;根据所述每一帧语音片段对应的隐藏状态的发射概率,所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率,通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。5.根据权利要求1至4任一项所述的方法,其特征在于,所述机器学习模型为卷积神经网络,所述将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词,包括:将所述候选语音片段输入所述卷积神经网络中;通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征;通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类,检测所述候选语音片段是否包含所述预设关键词。6.一种语音唤醒方法,其特征在于,所述方法包括:终端将获取到的语音信息发送至服务器;所述服务器检测所述语音信息中是否包含预设关键词;若所述语音信息中包含所述预设关键词,则所述服务器在所述语音信息中截取候选语音片段;所述候选语音片段是所述预设关键词对应的语音信息片段;所...
【专利技术属性】
技术研发人员:林诗伦,张玺霖,麻文华,刘博,李新辉,卢鲤,江修才,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。