关键词检测方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:26892971 阅读:10 留言:0更新日期:2020-12-29 16:14
本申请公开了一种关键词检测方法、装置、电子设备以及存储介质,包括:对待识别语音进行特征提取,得到语音特征;根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果;当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割;基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果;将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果,该方案在提高关键词检测效率的同时,还可以保证关键词检测的准确性。

【技术实现步骤摘要】
关键词检测方法、装置、电子设备以及存储介质
本专利技术涉及计算机
,具体涉及一种关键词检测方法、装置、电子设备以及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值,在实际应用中,将人工智能技术应用于关键词检测中,通过机器的推理与决策的功能可以获得与语音信息对应的文本信息,为用户带来了极大的便利。然而,目前关键词检测往往不能满足用户的需求,关键词检测的过程中经常出现延迟以及误识别等问题。
技术实现思路
本申请提供一种关键词检测方法、装置、电子设备以及存储介质,在提高关键词检测效率的同时,还可以保证关键词检测的准确性。本申请提供了一种关键词检测方法,包括:对待识别语音进行特征提取,得到语音特征;根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果;当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割;基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果;将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果。相应的,本申请还提供了一种关键词检测装置,包括:提取模块,用于对待识别语音进行特征提取,得到语音特征;第一检测模块,用于根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果;分割模块,用于当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割;第二检测模块,用于基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果;融合模块,用于将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果。可选的,在本申请的一些实施例中,所述第二检测模块包括:第一获取单元,用于根据所述预设声学模型,获取所述待识别语音中待识别词的音素信息;检测单元,用于基于所述音素信息、分割后语音特征以及预设关键词对所述待识别语音中的关键词进行检测,得到关键词检测结果。可选的,在本申请的一些实施例中,所述检测单元包括:转译子单元,用于根据分割后语音特征对所述待识别语音进行文本转译,得到所述待识别语音的语音文本;确定子单元,用于从所述语音文本中确定与所述音素信息对应的待识别词;选择子单元,用于在确定的待识别词中选择与预设关键词匹配的待识别词,得到目标关键词集合。可选的,在本申请的一些实施例中,所述选择子单元具体用于:计算确定的待识别词与预设关键词之间的关键词相似度;将关键词相似度大于预设值的待识别词确定为目标关键词,得到目标关键词集合。可选的,在本申请的一些实施例中,所述转译子单元具体用于:根据所述音素信息生成各分割后语音特征对应的音素序列;利用预设语言模型对所述音素序列进行识别,得到所述待识别语音的语音文本。可选的,在本申请的一些实施例中,所述第一检测模块包括:第二获取单元,用于获取预设声学模型以及预设音素库;识别单元,用于采用所述预设声学模型对所述语音特征进行识别,得到所述待识别语音中每个待识别词对应的音素信息;选择单元,用于从预设音素库中选择与所述音素信息匹配的音素,得到目标音素;生成单元,用于基于得到的目标音素,生成唤醒词集合。可选的,在本申请的一些实施例中,所述选择单元具体用于:从所述音素信息中提取所述待识别语音中每个待识别词对应的待识别音素;计算提取的待识别音素与预设音素库每个候选音素之间的相似度,得到音素相似度;将音素相似度大于预设音素相似度的候选音素,得到目标音素。可选的,在本申请的一些实施例中,所述分割模块具体用于:采集所述待识别语音中每一帧的语音帧信息,所述语音帧信息包括采集的语音帧以及所述语音帧对应的时间戳;检测所述待识别语音中每一帧所处的语音状态;将语音状态为激活状态的语音帧确定为目标语音帧;根据确定的目标语音帧及其对应的时间戳,对所述语音特征进行分割。本申请在对待识别语音进行特征提取,得到语音特征后,根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果,当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割,然后,基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果,最后,将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果,因此,本申请可以在提高关键词检测效率的同时,保证关键词检测的准确性。附图说明为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本申请提供的关键词检测方法的场景示意图;图1b是本申请提供的关键词检测方法的流程示意图;图2a是本申请提供的关键词检测方法的另一流程示意图;图2b是本申请提供的关键词检测系统的流程图;图2c是本申请提供的关键词检测方法中的神经网络训练方法;图3是本申请提供的关键词检测装置的结构示意图;图4是本申请提供的电子设备的结构示意图。具体实施方式下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提供一种关键词检测方法、装置、电子设备和存储介质。其中,该关键词检测装置具体可以集成在服务器中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不本文档来自技高网...

【技术保护点】
1.一种关键词识别方法,其特征在于,包括:/n对待识别语音进行特征提取,得到语音特征;/n根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果;/n当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割;/n基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果;/n将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果。/n

【技术特征摘要】
1.一种关键词识别方法,其特征在于,包括:
对待识别语音进行特征提取,得到语音特征;
根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测,得到唤醒词检测结果;
当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时,则基于所述待识别语音的语音状态对所述语音特征进行分割;
基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果;
将所述唤醒词检测结果以及关键词检测结果进行融合,得到所述待识别语音的关键词识别结果。


2.根据权利要求1所述的方法,其特征在于,所述基于分割后语音特征、所述预设声学模型以及预设关键词,对所述待识别语音中的关键词进行检测,得到关键词检测结果,包括:
根据所述预设声学模型,获取所述待识别语音中待识别词的音素信息;
基于所述音素信息、分割后语音特征以及预设关键词对所述待识别语音中的关键词进行检测,得到关键词检测结果。


3.根据权利要求2所述的方法,其特征在于,所述基于所述音素信息、分割后语音特征以及预设关键词对所述待识别语音中的关键词进行检测,得到关键词检测结果,包括:
根据分割后语音特征对所述待识别语音进行文本转译,得到所述待识别语音的语音文本;
从所述语音文本中确定与所述音素信息对应的待识别词;
在确定的待识别词中选择与预设关键词匹配的待识别词,得到目标关键词集合。


4.根据权利要求3所述的方法,其特征在于,所述在确定的待识别词中选择与预设关键词匹配的待识别词,得到目标关键词集合,包括:
计算确定的待识别词与预设关键词之间的关键词相似度;
将关键词相似度大于预设值的待识别词确定为目标关键词,得到目标关键词集合。


5.根据权利要求3所述的方法,其特征在于,所述根据分割后语音特征对所述待识别语音进行文本转译,得到所述待识别语音的语音文本,包括:
根据所述音素信息生成各分割后语音特征对应的音素序列;
利用预设语言模型对所述音素序列进行识别,得到所述待识别语音的语音文本。


6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述语音特征对所述待识别语音中的唤醒词进行检测,得到第一检测结果,包括:
获取预设声学模型...

【专利技术属性】
技术研发人员:吕志强黄申
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1