关键词检索方法、系统、移动终端及存储介质技术方案

技术编号:25047590 阅读:28 留言:0更新日期:2020-07-29 05:36
本发明专利技术提供了一种关键词检索方法、系统、移动终端及存储介质,该方法包括:获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;根据指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,将滑窗设置为当前声学状态;根据滑窗判断待检测语音中语音段的声学状态与指定声学状态是否匹配;若是,则对语音段进行音素状态转换,得到当前音素状态;根据指定音素状态判断当前音素状态对应的音素是否是关键词音素;若是,对语音段进行关键词标记,记录语音段的语音位置。本发明专利技术通过指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了关键词检索效率。

【技术实现步骤摘要】
关键词检索方法、系统、移动终端及存储介质
本专利技术属于信息检索
,尤其涉及一种关键词检索方法、系统、移动终端及存储介质。
技术介绍
语音关键词检索是从语料库中确定出现指定关键词的语音数据,并确定该指定关键词在对应的语音数据中出现的位置。现有技术中,语音关键词检索方案主要基于语音识别技术,即将待检索语音数据转换为文本内容,确定文本内容中是否出现指定关键词,若出现指定关键词,进一步确定指定关键词出现的位置。现有技术中的检索效果完全依赖于语音识别系统的识别效果,而训练一个大量词汇的语音识别系统需要大量的标注数据,由于公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切,考虑到特定语种熟悉人员相对有限,缺乏标注数据,因此,无法快速开发相应的语音识别系统,即无法利用主流的语音关键词检索方法进行关键词检索,降低了关键词检索的效率。
技术实现思路
本专利技术实施例的目的在于提供一种关键词检索方法、系统、移动终端及存储介质,旨在解决现有的关键词检索过程中,由于小语种或方言语种的标注数据较少所导致的关键词检索效率低下的问题。本专利技术实施例是这样实现的,一种关键词检索方法,所述方法包括:获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态;根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。更进一步的,所述获取待检测语音的当前声学状态的步骤包括:获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征,并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;对所述特征向量进行向量合并,得到所述当前声学状态。更进一步的,所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括:计算每个所述指定声学状态的长度,并将最大长度的所述指定声学状态设置所述滑窗的窗长。更进一步的,所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括:根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;判断所述语音声学状态与所述指定声学状态是否相同/相似;当判断到所述语音声学状态与所述指定声学状态相同/相似时,则判定对应所述语音段的声学状态与所述指定声学状态相匹配。更进一步的,所述对所述语音段进行音素状态转换,得到当前音素状态的步骤包括:将所述语音段转换为拼音,得到拼音串,并对所述拼音串内的辅音音素和元音音素进行分隔;对所述拼音串中相邻的音素进行组合,得到待检测音素对,并对所述待检测语音进行语音端点检测,得到端点检测结果;根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记,以得到所述当前音素状态。更进一步的,所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括:分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长;根据所述静音时长查询时长标识,并根据所述时长标识对所述待检测音素对进行时长标记。更进一步的,所述根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素的步骤包括:将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配;当所述指定音素对与所述待检测音素对匹配成功时,判断所述指定音素对和所述待检测音素对上的所述时长标识是否相同/相似;当判断到所述时长标识相同/相似时,则判定所述当前音素状态是所述关键词音素。本专利技术实施例的另一目的在于提供一种关键词检索系统,所述系统包括:样本信息获取模块,用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;滑窗设置模块,用于根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;声学状态匹配模块,用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;音素转换模块,用于当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;音素状态判断模块,用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。本专利技术实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的关键词检索方法。本专利技术实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的关键词检索方法的步骤。本专利技术实施例,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。附图说明图1是本专利技术第一实施例提供的关键词检索方法的流程图;图2是本专利技术第二实施例提供的关键词检索方法的流程图;图3是本专利技术第三实施例提供的关键词检索方法的流程图;图4是本专利技术第四实施例提供的关键词检索系统的结构示意图;图5是本专利技术第五实施例提供的移动终端的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦本文档来自技高网...

【技术保护点】
1.一种关键词检索方法,其特征在于,所述方法包括:/n获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;/n根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;/n根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;/n当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;/n根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;/n当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。/n

【技术特征摘要】
1.一种关键词检索方法,其特征在于,所述方法包括:
获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。


2.如权利要求1所述的关键词检索方法,其特征在于,所述获取待检测语音的当前声学状态的步骤包括:
获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征,并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;
对所述特征向量进行向量合并,得到所述当前声学状态。


3.如权利要求1所述的关键词检索方法,其特征在于,所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括:
计算每个所述指定声学状态的长度,并将最大长度的所述指定声学状态设置所述滑窗的窗长。


4.如权利要求1所述的关键词检索方法,其特征在于,所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括:
根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;
判断所述语音声学状态与所述指定声学状态是否相同/相似;
当判断到所述语音声学状态与所述指定声学状态相同/相似时,则判定对应所述语音段的声学状态与所述指定声学状态相匹配。


5.如权利要求1所述的关键词检索方法,其特征在于,所述对所述语音段进行音素状态转换,得到当前音素状态的步骤包括:
将所述语音段转换为拼音,得到拼音串,并对所述拼音串内的辅音音素和元音音素进行分隔;
对所述拼音串中相邻的音素进行组合,得到待检测音素对,并对所述待检测语音进行语音端点检测,得到端点检测结果;
根据所述端...

【专利技术属性】
技术研发人员:张广学肖龙源李稀敏刘晓葳叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1