关键词检索方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:35992390 阅读:9 留言:0更新日期:2022-12-17 23:07
本公开提供一种关键词检索方法、装置、电子设备以及存储介质,涉及语音识别的技术领域,具体涉及语音关键词检索技术领域,可应用于客服业务质检等场景。方案包括:对语音数据进行解码,得到语音数据的文本和解码帧数据,解码帧数据包括文本中每个文字对应的解码帧;针对文本中每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息;对文本进行关键词检索,响应于文本包含有预设的目标关键词,基于目标关键词中的文字的时间信息确定目标关键词的时间信息;生成包含目标关键词和目标关键词的时间信息的检索结果。上述方法在不引入过多的额外模型的基础上,即可准确地获取到目标关键词的时间信息。词的时间信息。词的时间信息。

【技术实现步骤摘要】
关键词检索方法、装置、电子设备以及存储介质


[0001]本公开涉及语音识别的
,具体涉及语音关键词检索
,可应用于客服业务质检等场景。

技术介绍

[0002]在一些针对语音数据的关键词检索的业务中,通常是基于语音识别技术获取语音数据的文本,之后通过预设的关键词识别方式确定文本中是否包含目标关键词。一旦发现文本包含目标关键词,工作人员需要播放语音数据的音频,以便复核语音数据是否存在与目标关键词匹配的语音内容。
[0003]为了能够方便工作人员快速地在语音数据中定位到目标关键词对应的语音段,相关技术可以在获取到语音数据的文本之后,基于语音数据中说话人的平均语速来估计文本中每个文字的时间信息,但是这种方式获取到的时间信息的准确度较低;或者,相关技术还可以引入对齐模型来估计文本中每个文字的时间信息,但是这种方式需要引入新的模型,会显著地增加成本。

技术实现思路

[0004]本公开提供了一种关键词检索方法、装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种关键词检索方法,所述方法包括:
[0006]对语音数据进行解码,得到语音数据的文本和解码帧数据,其中,解码帧数据包括文本中每个文字对应的解码帧;
[0007]针对文本中每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息;
[0008]对文本进行关键词检索,响应于文本包含有预设的目标关键词,基于目标关键词中的文字的时间信息确定目标关键词的时间信息
[0009]生成包含目标关键词和目标关键词的时间信息的检索结果。
[0010]在本公开实施例中,针对文本中的每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息,包括:
[0011]针对文本中的每个文字,从该文字的解码帧中确定出该文字的代表解码帧,其中,代表解码帧为包含该文字的音素的概率最高的解码帧;
[0012]基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息。
[0013]在本公开实施例中,基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息,包括:
[0014]基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间;
[0015]基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间
戳,计算该文字的结束时间;
[0016]其中,该文字为文本中的第一个文字的情况下,该文字的前一个文字的代表解码帧为解码帧数据中的第一解码帧,第一解码帧在该文字的代表解码帧之前;
[0017]该文字为文本中的最后一个文字的情况下,该文字的后一个文字的代表解码帧为解码帧数据中的第二解码帧,第二解码帧在该文字的代表解码帧之后。
[0018]在本公开实施例中,基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间,包括:
[0019]计算该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值,作为该文字的开始时间。
[0020]在本公开实施例中,基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳,计算该文字的结束时间,包括:
[0021]计算该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳的平均值,作为该文字的结束时间。
[0022]在本公开实施例中,基于目标关键词中的文字的时间信息确定目标关键词的时间信息,包括:
[0023]将目标关键词中的首位文字的开始时间,作为目标关键词的开始时间;
[0024]将目标关键词中的末位文字的结束时间,作为目标关键词的结束时间。
[0025]在本公开实施例中,解码帧数据中的每个解码帧的时间戳,是基于该解码帧的帧号和该解码帧的时长计算得到的;
[0026]解码帧数据中的每个解码帧的时长,为该解码帧所对应的所有语音帧的时长之和。
[0027]在本公开实施例中,语音数据是通过语音识别模型进行解码的;
[0028]解码帧数据中的每个解码帧对应的语音帧的数量,与语音识别模型中的卷积神经网络的层数和每层卷积神经网络的步长成正比。
[0029]根据本公开的第二方面,提供了一种关键词检索装置,关键词检索装置包括语音解码模块、时间信息计算模块、关键词检索模块和检索结果生成模块。
[0030]语音解码模块用于对语音数据进行解码,得到语音数据的文本和解码帧数据,其中,解码帧数据包括文本中每个文字对应的解码帧;
[0031]时间信息计算模块用于针对文本中的每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息;
[0032]关键词检索模块用于对文本进行关键词检索,响应于文本包含有预设的目标关键词,基于目标关键词中的文字的时间信息确定目标关键词的时间信息;
[0033]检索结果生成模块用于生成包含目标关键词和目标关键词的时间信息的检索结果。
[0034]在本公开实施例中,时间信息计算模块在用于针对文本中的每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息时,具体用于:
[0035]针对文本中的每个文字,从该文字的解码帧中确定出该文字的代表解码帧,其中,代表解码帧为包含该文字的音素的概率最高的解码帧;
[0036]基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息。
[0037]在本公开实施例中,时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息时,具体用于:
[0038]基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间;
[0039]基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳,计算该文字的结束时间;
[0040]其中,该文字为文本中的第一个文字的情况下,该文字的前一个文字的代表解码帧为解码帧数据中的第一解码帧,第一解码帧在该文字的代表解码帧之前;
[0041]该文字为文本中的最后一个文字的情况下,该文字的后一个文字的代表解码帧为解码帧数据中的第二解码帧,第二解码帧在该文字的代表解码帧之后。
[0042]在本公开实施例中,时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间时,具体用于:
[0043]计算该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值,作为该文字的开始时间。
[0044]在本公开实施例中,时间信息计算模块在用于基于该文字的代表解码帧的时间戳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词检索方法,所述方法包括:对语音数据进行解码,得到所述语音数据的文本和解码帧数据,其中,所述解码帧数据包括所述文本中每个文字对应的解码帧;针对所述文本中每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息;对所述文本进行关键词检索,响应于所述文本包含有预设的目标关键词,基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息;生成包含所述目标关键词和所述目标关键词的时间信息的检索结果。2.根据权利要求1所述的方法,其中,所述针对所述文本中的每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息,包括:针对所述文本中的每个文字,从该文字的解码帧中确定出该文字的代表解码帧,其中,所述代表解码帧为包含该文字的音素的概率最高的解码帧;基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息。3.根据权利要求2所述的方法,其中,所述基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳,计算该文字的时间信息,包括:基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间;基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳,计算该文字的结束时间;其中,该文字为所述文本中的第一个文字的情况下,该文字的前一个文字的代表解码帧为所述解码帧数据中的第一解码帧,所述第一解码帧在该文字的代表解码帧之前;该文字为所述文本中的最后一个文字的情况下,该文字的后一个文字的代表解码帧为所述解码帧数据中的第二解码帧,所述第二解码帧在该文字的代表解码帧之后。4.根据权利要求3所述的方法,其中,所述基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳,计算该文字的开始时间,包括:计算该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值,作为该文字的开始时间。5.根据权利要求3所述的方法,其中,所述基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳,计算该文字的结束时间,包括:计算该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳的平均值,作为该文字的结束时间。6.根据权利要求3所述的方法,其中,所述基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息,包括:将所述目标关键词中的首位文字的开始时间,作为所述目标关键词的开始时间;将所述目标关键词中的末位文字的结束时间,作为所述目标关键词的结束时间。7.根据权利要求1

6中任一项所述的方法,其中,所述解码帧数据中的每个解码帧的时间戳,是基于该解码帧的帧号和该解码帧的时长计算得到的;所述解码帧数据中的每个解码帧的时长,为该解码帧所对应的所有语音帧的时长之
和。8.根据权利要求7所述的方法,其中,所述语音数据是通过语音识别模型进行解码的;所述解码帧数据中的每个解码帧对应的语音帧的数量,与所述语音识别模型中的卷积神经网络的层数和每层所述卷积神经网络的步长成正比。9.一种关键词检索装置,所述装置包括:语音解码模块,用于对语音数据进行解码,得到所述语音数据的文本和解码帧数据,其中,所述解码帧数据包括所述文本中每个文字对应的解码帧;时间信息计算模块,用于针对所述文本中的每个文字,基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳,计算该文字的时间信息;关键词检索模块,用于对所述文本进行关键词检索,响应于所述文本包含有预设的目标关键词,基于所述目标关键词中的...

【专利技术属性】
技术研发人员:张辉熊新雷周羊黄宇鑫陈泽裕文灿
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1