语谱图生成方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:39002672 阅读:10 留言:0更新日期:2023-10-07 10:34
本申请公开了一种语谱图生成方法、装置、设备及计算机可读存储介质;具体的,对目标语音段的语音信号进行分帧处理后,非连续抽取多帧目标语音信号;对多帧目标语音信号对应的频域信号的幅度值,生成每帧目标语音信号对应的归一化幅度谱,并对归一化幅度谱进行对数运算,得到每帧目标音频信号对应的对数幅度谱,从而生成目标语音段的目标语谱图。由此可得,本方案可先对目标语音段分帧处理后的语音信号进行非连续抽帧,然后计算抽取的每帧语音信号的语谱图像素集,将多个语音信号的语谱图像素集按照时间顺序拼接成目标语音段的目标语谱图;以此,降低了语谱图的计算量,提升了语谱图生成的效率,保证了语谱图的质量。保证了语谱图的质量。保证了语谱图的质量。

【技术实现步骤摘要】
语谱图生成方法、装置、设备及计算机可读存储介质


[0001]本申请涉及计算机
,具体涉及一种语谱图生成方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]语谱图的显示效果对声纹特征的鉴别有重大影响,在声纹检测中,可以利用语谱图中的一些特征,如共振峰、谱线等,来进行分析和识别,并且声纹中的一些特征与语谱图中的频率分布、能量分布等指标密切相关,因此,质量好的语谱图可以方便鉴定人员对声纹特征进行快速准确的定位,质量差的语谱图有可能会掩盖某些声纹特征,给鉴定人员带来困扰,所以,需要不断优化语音段的参数,才能生成高质量的语谱图。相关技术可以通过人工调整的方式,利用参数调整软件对语音段参数进行调整,从而生成高质量的语谱图。
[0003]然而,相关技术虽然可以生成语谱图,但是相关技术过于依赖于技术人员的经验,且需要不断地对语谱图参数进行手动调整,增加了语谱图生成的复杂度和难度,从而降低了语谱图生成的效率,不利于维护语谱图的质量。

技术实现思路

[0004]本申请实施例提供一种语谱图生成方法、装置、设备及计算机可读存储介质,可自动调整语谱图参数,生成高质量语谱图,降低语谱图生成的复杂度和难度,提高语谱图生成的效率。
[0005]本申请实施例提供一种语谱图生成方法,包括:
[0006]获取目标语音段的语音信号,对所述语音信号进行分帧处理,得到多帧语音信号,并从所述多帧语音信号中非连续抽取多帧目标语音信号;
[0007]对所述多帧目标语音信号进行频域转换,得到多帧频域信号,并根据所述多帧频域信号的幅度值,生成所述每帧目标语音信号对应的目标幅度谱;
[0008]对所述每帧目标音频信号对应的目标幅度谱进行归一化处理,得到归一化幅度谱,并对所述归一化幅度谱进行对数运算,得到所述每帧目标音频信号对应的对数幅度谱;
[0009]根据所述每帧目标语音信号对应的对数幅度谱,生成所述目标语音段的目标语谱图。
[0010]相应的,本申请实施例提供一种语谱图生成装置,包括:
[0011]获取单元,用于获取目标语音段的语音信号,对所述语音信号进行分帧处理,得到多帧语音信号,并从所述多帧语音信号中非连续抽取多帧目标语音信号;
[0012]转换单元,用于对所述多帧目标语音信号进行频域转换,得到多帧频域信号,并根据所述多帧频域信号的幅度值,生成所述每帧目标语音信号对应的目标幅度谱;
[0013]运算单元,用于对所述每帧目标音频信号对应的目标幅度谱进行归一化处理,得到归一化幅度谱,并对所述归一化幅度谱进行对数运算,得到所述每帧目标音频信号对应的对数幅度谱;
[0014]生成单元,用于根据所述每帧目标语音信号对应的对数幅度谱,生成所述目标语音段的目标语谱图。
[0015]在一些实施例中,所述语谱图生成装置还包括确定单元,用于:
[0016]根据预设图像分辨率,确定目标抽帧数;
[0017]获取单元,包括:
[0018]从所述多帧语音信号中非连续抽取所述目标抽帧数对应的多帧目标语音信号

[0019]在一些实施例中,转换单元,还用于:
[0020]根据所述多帧频域信号的幅度值,计算所述多帧频域信号的平均幅度值;
[0021]将每帧频域信号的幅度值与所述平均幅度值相减,得到每帧目标语音信号对应的目标幅度谱。
[0022]在一些实施例中,运算单元,还用于:
[0023]获取所述每帧目标语音信号对应的目标幅度谱中每个频率点的幅度值;
[0024]根据所述每个频率点的幅度值与对应帧长的比值,创建所述每帧目标语音信号对应的归一化幅度谱。
[0025]在一些实施例中,生成单元,还用于:
[0026]基于所述每帧目标语音信号对应的对数幅度谱,获取最大对数幅度值;
[0027]按照所述最大对数幅度值,对所述每帧目标语音信号对应的对数幅度谱中的频率幅度进行平移处理,得到所述每帧目标语音信号对应的目标对数幅度谱;
[0028]将所述每帧目标语音信号对应的目标对数幅度谱转换为对应的语谱图;
[0029]将多个所述语谱图按照时序关系进行拼接处理,得到所述目标语音段的目标语谱图。
[0030]在一些实施例中,生成单元,还用于:
[0031]将所述目标对数幅度谱转换为可视化图像;
[0032]根据所述每帧目标语音信号在对应的目标对数幅度谱中的波动范围,在所述可视化图像中映射出不同的颜色,得到所述每帧目标语音信号对应的语谱图。
[0033]在一些实施例中,所述语谱图生成装置还包括更新单元,用于:
[0034]若所述目标语音段发生更新,则对更新后的目标语音段的语音信号进行分帧处理,得到多帧待确认语音信号;
[0035]根据所述多帧目标语音信号对所述从所述多帧待确认语音信号进行去重处理,得到候选语音信号;
[0036]根据所述候选语音信号,计算所述候选语音信号对应的候选语谱图;
[0037]利用所述候选语谱图更新目标语谱图,得到所述更新后的目标语音段的目标语谱图。
[0038]此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序实现本申请实施例提供的语谱图生成方法中的步骤。
[0039]此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的任一种语谱图生成方法中的步骤。
[0040]此外,本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所提供的任一种语谱图生成方法中的步骤。
[0041]本申请实施例获取目标语音段的语音信号,对语音信号进行分帧处理,得到多帧语音信号,并从多帧语音信号中非连续抽取多帧目标语音信号;对多帧目标语音信号进行频域转换,得到多帧频域信号,并根据多帧频域信号的幅度值,生成每帧目标语音信号对应的目标幅度谱;对每帧目标音频信号对应的目标幅度谱进行归一化处理,得到归一化幅度谱,并对归一化幅度谱进行对数运算,得到每帧目标音频信号对应的对数幅度谱;根据每帧目标语音信号对应的对数幅度谱,生成目标语音段的目标语谱图。由此可得,本方案可先对目标语音段分帧处理后的语音信号进行非连续抽帧,将抽取的语音信号进行频域转换,得到对应的频域信号,然后计算抽取的每帧语音信号的语谱图像素集,将多个语音信号的语谱图像素集按照时间顺序拼接成目标语音段的目标语谱图;以此,最大限度的降低了语谱图的计算量,同时通过对语音信号的调整,保证语谱图的质量,降低了语谱图生成的复杂度和难度,提高了语谱图生成的效率。
附图说明
[0042]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语谱图生成方法,其特征在于,包括:获取目标语音段的语音信号,对所述语音信号进行分帧处理,得到多帧语音信号,并从所述多帧语音信号中非连续抽取多帧目标语音信号;对所述多帧目标语音信号进行频域转换,得到多帧频域信号,并根据所述多帧频域信号的幅度值,生成所述每帧目标语音信号对应的目标幅度谱;对所述每帧目标音频信号对应的目标幅度谱进行归一化处理,得到归一化幅度谱,并对所述归一化幅度谱进行对数运算,得到所述每帧目标音频信号对应的对数幅度谱;根据所述每帧目标语音信号对应的对数幅度谱,生成所述目标语音段的目标语谱图。2.根据权利要求1所述的方法,其特征在于,所述从所述多帧语音信号中非连续抽取多帧目标语音信号之前,还包括:根据预设图像分辨率,确定目标抽帧数;所述从所述多帧语音信号中非连续抽取多帧目标语音信号,包括:从所述多帧语音信号中非连续抽取所述目标抽帧数对应的多帧目标语音信号。3.根据权利要求1所述的方法,其特征在于,所述根据所述多帧频域信号的幅度值,生成每帧目标语音信号对应的目标幅度谱,包括:根据所述多帧频域信号的幅度值,计算所述多帧频域信号的平均幅度值;将每帧频域信号的幅度值与所述平均幅度值相减,得到每帧目标语音信号对应的目标幅度谱。4.根据权利要求1所述的方法,其特征在于,所述对所述每帧目标音频信号对应的目标幅度谱进行归一化处理,得到归一化幅度谱,包括:获取所述每帧目标语音信号对应的目标幅度谱中每个频率点的幅度值;根据所述每个频率点的幅度值与对应帧长的比值,创建所述每帧目标语音信号对应的归一化幅度谱。5.根据权利要求1所述的方法,其特征在于,所述根据所述每帧目标语音信号对应的对数幅度谱,生成所述目标语音段的目标语谱图,包括:基于所述每帧目标语音信号对应的对数幅度谱,获取最大对数幅度值;按照所述最大对数幅度值,对所述每帧目标语音信号对应的对数幅度谱中的频率幅度进行平移处理,得到所述每帧目标语音信号对应的目标对数幅度谱;将所述每帧目标语音信号对应的目标对数幅度谱转换为对应的语谱图;将多个所述语谱图按照时序关...

【专利技术属性】
技术研发人员:丁俊豪谢单辉陈东鹏
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1