音频切分方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号:33385189 阅读:15 留言:0更新日期:2022-05-11 22:59
本申请公开了一种音频切分方法、装置、电子设备、存储介质及产品,属于音频处理技术领域。该方法从第一对话对象与第二对话对象的音频中切分出第一音频和第二音频,然后将第一音频和第二音频分别切分为多个第一音频片段和多个第二音频片段,通过多个第二音频片段中每相邻两个第二音频片段的时间信息来确定两个对话对象对话过程中第一对话对象对应的音频片段,由于相邻两个第二音频片段之间的时间信息可以表示第一对话对象与第二对话对象进行有效对话的时间信息,因此,根据该时间信息可以从多个第一音频片段中准确确定出第一对话对象对应的多个第三音频片段,这样就可以根据两个对话对象的对话内容准确切分第一音频,从而提高音频切分的准确率。而提高音频切分的准确率。而提高音频切分的准确率。

【技术实现步骤摘要】
音频切分方法、装置、电子设备、存储介质及产品


[0001]本申请涉及音频处理
,特别涉及一种音频切分方法、装置、电子设备、存储介质及产品。

技术介绍

[0002]目前,在智能客服外呼过程中或者在智能客服服务过程中,经常会出现智能客服与用户对话的情况。这种情况下,智能客服需要基于用户说话的内容,识别出用户所提出的问题,然后根据该问题检索答案,再根据该答案来回复用户所提出的问题。为了统计智能客服识别问题的准确率,从而确定智能客服解决用户所提出的问题的解决率,需要先从用户与智能客服对话的完整音频中切分出用户对应的音频,再从用户对应的音频中切分出用户与智能客服对话的每一个音频片段,根据切分后的音频片段来统计该准确率,进而确定解决率。
[0003]相关技术中,对于用户对应的音频,根据预先设置的静音采样点阈值,确定该音频包括的每个音频帧为静音帧或者非静音帧,然后按照静音帧和非静音帧的顺序,将相邻两个静音段之间的多个非静音帧组成音频片段,最终得到多个音频片段。其中,静音帧用于表示该音频帧处于静音状态,非静音帧用于表示该音频帧处于非静音状态,静音段为由多个静音帧组成的音频片段。
[0004]但按照相关技术中的方法对音频的切分是依据静音段的位置来做的,将相邻两个静音段之间的区域切分为一个音频片段,而无法按照用户与智能客服的对话内容准确切分音频,这样就会造成切分的音频片段的对话内容不连续,导致音频切分的准确性差。

技术实现思路

[0005]本申请实施例提供了一种音频切分方法、装置、电子设备、存储介质及产品,可以提高音频切分的准确性。所述技术方案如下:
[0006]一方面,提供了一种音频切分方法,所述方法包括:
[0007]从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,所述第一音频与所述第一对话对象对应,所述第二音频与所述第二对话对象对应;
[0008]基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,基于所述第二音频中每个第二音频帧的语音状态将所述第二音频切分为多个第二音频片段,所述语音状态包括静音状态和非静音状态;
[0009]基于所述多个第二音频片段中每相邻两个第二音频片段的时间信息,将所述多个第一音频片段合并,得到多个第三音频片段;
[0010]基于所述多个第三音频片段的时间信息,重新切分所述第一音频。
[0011]在一种可能的实现方式中,所述基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,包括:
[0012]对于每个第一音频帧,若所述第一音频帧的语音状态与其相邻的第一音频帧的语
音状态不同,基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,所述时间节点用于表示一个音频片段的开始时间或结束时间;
[0013]基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段。
[0014]在另一种可能的实现方式中,所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,包括:
[0015]获取第一数组,所述第一数组是基于第一音频帧的数量生成的,所述第一数组中的元素值与第一音频帧一一对应,所述第一数组中所述第一音频帧的元素值为默认值;
[0016]基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值;
[0017]基于重新确定的所述第一音频帧的元素值,确定一时间节点。
[0018]在另一种可能的实现方式中,
[0019]所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值,包括:
[0020]若所述第一音频帧为所述第一音频中第一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;
[0021]若所述第一音频帧为所述第一音频中最后一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;
[0022]若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为静音状态,所述第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;
[0023]若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为非静音状态,所述第一音频帧的后一个第一音频帧的语音状态为静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;
[0024]若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持所述第一数组中所述第一音频帧的元素值不变。
[0025]在另一种可能的实现方式中,所述基于重新确定的所述第一音频帧的元素值,确定一时间节点,包括:
[0026]若重新确定的所述第一音频帧的元素值为第一数值,将所述第一音频帧的时间确定为一个音频片段的开始时间;
[0027]若重新确定的所述第一音频帧的元素值为第二数值,将所述第一音频帧的时间确定为一个音频片段的结束时间。
[0028]在另一种可能的实现方式中,所述基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段,包括:
[0029]按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时
间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;
[0030]对于每个第四音频片段,若所述第四音频片段对应的第一帧数差值小于帧数截断阈值,将所述第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,所述第一帧数差值为所述第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,所述帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值;
[0031]若所述第一帧数差值大于或等于所述帧数截断阈值,且所述前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,将所述前一个第四音频片段作为一个第一音频片段,所述最短帧数阈值用于表示作为一个有效的音频片段包括的帧数;
[0032]若所述第一帧数差值大于或等于所述帧数截断阈值,且所述第二帧数差值小于或等于所述最短帧数阈值,丢弃所述前一个第四音频片段;
[0033]依次遍历本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频切分方法,其特征在于,所述方法包括:从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,所述第一音频与所述第一对话对象对应,所述第二音频与所述第二对话对象对应;基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,基于所述第二音频中每个第二音频帧的语音状态将所述第二音频切分为多个第二音频片段,所述语音状态包括静音状态和非静音状态;基于所述多个第二音频片段中每相邻两个第二音频片段的时间信息,将所述多个第一音频片段合并,得到多个第三音频片段;基于所述多个第三音频片段的时间信息,重新切分所述第一音频。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,包括:对于每个第一音频帧,若所述第一音频帧的语音状态与其相邻的第一音频帧的语音状态不同,基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,所述时间节点用于表示一个音频片段的开始时间或结束时间;基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,包括:获取第一数组,所述第一数组是基于第一音频帧的数量生成的,所述第一数组中的元素值与第一音频帧一一对应,所述第一数组中所述第一音频帧的元素值为默认值;基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值;基于重新确定的所述第一音频帧的元素值,确定一时间节点。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值,包括:若所述第一音频帧为所述第一音频中第一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;若所述第一音频帧为所述第一音频中最后一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为静音状态,所述第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为非静音状态,所述第一音频帧的后一个第一音频帧的语音状态为静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个
第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持所述第一数组中所述第一音频帧的元素值不变。5.根据权利要求3或4所述的方法,其特征在于,所述基于重新确定的所述第一音频帧的元素值,确定一时间节点,包括:若重新确定的所述第一音频帧的元素值为第一数值,将所述第一音频帧的时间确定为一个音频片段的开始时间;若重新确定的所述第一音频帧的元素值为第二数值,将所述第一音频帧的时间确定为一个音频片段的结束时间。6.根据权利要求2所述的方法,其特征在于,所述基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段,包括:按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;对于每个第四音频片段,若所述第四音频片段对应的第一帧数差值小于帧数截断阈值,将所述第四音频片段与其前一个第四音频片...

【专利技术属性】
技术研发人员:李良斌陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1