当前位置: 首页 > 专利查询>北京大学专利>正文

一种音频拼接方法、电子设备及存储介质技术

技术编号:38097714 阅读:27 留言:0更新日期:2023-07-06 09:13
本发明专利技术提供了一种音频拼接方法、电子设备及存储介质,用于对依序安装在设定位置的Zm个智能设备获取目标对象的音频片段进行拼接,从而获得目标对象的最终音频,所述方法包括如下步骤:获取智能设备采集目标对象音频信息的时间段列表和对应的原始音频片段列表,获取第一重合音频片段和第二重合音频片段,进行噪声检测获取中间音频片段和备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段裁剪,并和中间音频片段对应的原始音频片段进行拼接,从而获取最终音频,使得无重合的目标对象的最终音频更加完整,语义更通顺、清晰。清晰。清晰。

【技术实现步骤摘要】
一种音频拼接方法、电子设备及存储介质


[0001]本专利技术涉及音频处理
,特别是涉及一种音频拼接方法、电子设备及存储介质。

技术介绍

[0002]在音频处理场景中,经常需要获取很多视频中属于某个目标对象的音频部分,并对该音频部分进行拼接,获取目标对象的完整音频,然而,在实际应用场景中,音频部分中音频信息会比较复杂,比如环境中的各种噪声等,现有技术中,获取针对目标对象的一段完整录音,往往在拼接时会出现重复片段,或有些音频片段噪声比较大甚至在去噪后仍有噪声,且在拼接后的音频中容易出现语义不清晰、语义上下矛盾等问题。

技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:一种音频拼接方法,用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:S610,获取智能设备采集目标对象音频信息的时间段列表ZB={ZB1,ZB2,

ZB
Zi<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频拼接方法,其特征在于,用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:S610,获取智能设备采集目标对象音频信息的时间段列表ZB={ZB1,ZB2,

,ZB
Zi


,ZB
Zm
}和对应的原始音频片段列表ZA={ZA1,ZA2,

,ZA
Zi


,ZA
Zm
},其中,ZB
Zi
是第Zi个智能设备采集目标对象音频信息的时间段,ZA
Zi
是第Zi个智能设备获取的目标对象对应的原始音频片段,Zi的取值范围是1到Zm,且任意两个相邻的ZB
Zi
和ZB
Zi+1
有重合时间段Zb
Zi
;S620,获取ZA
Zi
在Zb
Zi
时间段的第一重合音频片段ZA
Zi
Zb
Zi
和ZA
Zi+1
在Zb
Zi
时间段的第二重合音频片段ZA
Zi+1
Zb
Zi
;S630,将ZA
Zi
Zb
Zi
和ZA
Zi+1
Zb
Zi
进行噪声检测,获取ZA
Zi
Zb
Zi
和ZA
Zi+1
Zb
Zi
的噪音值,当ZA
Zi
Zb
Zi
的噪音值不大于ZA
Zi+1
Zb
Zi
中的噪音值时,将ZA
Zi
Zb
Zi
作为中间音频片段ZC
Zi
,ZA
Zi+1
Zb
Zi
作为备用音频片段ZH
Zi
,否则,将ZA
Zi+1
Zb
Zi
作为中间音频片段ZC
Zi
,将ZA
Zi
Zb
Zi
作为备用音频片段ZH
Zi
;S640,将ZC
Zi
对应的原始音频片段进行语义检测获取第一语义检测值,且当第一语义检测值大于第一预设阈值,执行S650,否则,执行S660,其中,所述第一语义检测值是在基于ZC
Zi
对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值;S650,对ZH
Zi
对应的原始音频片段裁减掉ZH
Zi
,且将裁减掉ZH
Zi
后的原始音频片段与ZC
Zi
对应的原始音频片段按照时间段顺序进行拼接,从而获取最终音频;S660,对ZH
Zi
对应的原始音频片段进行去噪声处理,且对ZH
Zi
对应的去噪后的原始音频片段进行语义检测,获取第二语义检测值,其中,所述第二语义检测值是在基于去噪后的ZH
Zi
对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值;S670,当第二语义检测值大于第一预设阈值,对ZC
Zi
对应的原始音频片段裁减掉ZC
Zi
,且将裁减掉ZC
Zi
后的原始音频片段与ZH
Zi
对应的去噪后的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。2.根据权利要求1所述的音频拼接方法,其特征在于,获取第Zi个智能设备采集目标对象音频信息的时间段包括如下步骤:S601,获取第Zi个智能设备的最大录音距离;S602,获取第Zi个智能设备在最大录音距离时的视频帧,并基于所述视频帧获取目标比例Zp,所述目标比例Zp=ZS2/ZS1,ZS1是第Zi个智能设备在最大录音距离时获取的视频帧包括的像素个数,ZS2是第Zi个智能设备在最大录音距离时,视频帧中用于表征且包含目标对象的包围盒所包括的像素个数;S603,基于目标比例Zp,获取第Zi个智能设备采集目标对象音频信息的时间段ZB
Zi
=(Zt
Zi,1
,Zt
Zi,2
),其中,Zt
Zi,1
是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最早时间,Zt
Zi,2
是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满...

【专利技术属性】
技术研发人员:李昌晋曹喜信曹昕妍
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1