音频定位的方法、装置、终端设备及服务器制造方法及图纸

技术编号:24942003 阅读:31 留言:0更新日期:2020-07-17 21:50
本公开关于一种音频定位的方法、装置、终端设备及服务器。该方法包括:当检测到用户的直播互动操作时,采集第一预设时长的直播音频;将所述直播音频划分为多个子直播音频;针对每个子直播音频,确定该子直播音频对应的音频指纹集合;根据该子直播音频对应的音频指纹集合和服务器发送的各基准直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频;如果所述直播音频包含的各子直播音频对应的目标直播音频的直播起止时段存在连续性,则根据各目标直播音频的直播起止时段,确定所述直播音频对应的直播起止时段,并作为用户的直播互动操作对应的直播互动时段。基于本公开可以基于音频指纹技术实现直播场景中音频定位。

【技术实现步骤摘要】
音频定位的方法、装置、终端设备及服务器
本公开涉及音频识别
,尤其涉及一种音频定位的方法、装置、终端设备及服务器。
技术介绍
音频指纹技术(Audiofingerprintingtechnology)是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹技术作为内容自动识别技术的的核心算法,已广泛应用于音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。目前的音频指纹技术主要应用于音乐搜索场景中。对于直播场景中,由于音频具有实时性。相应的,音频对于的音频指纹的生成、比对和检测也具有实时性。因此,亟需一种基于音频指纹技术实现直播场景中音频定位的方案。
技术实现思路
本公开提供一种音频定位的方法、装置、终端设备及服务器,以基于音频指纹技术实现直播场景中音频定位。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种音频定位的方法,所述方法应用于终端设备,所述方法包括:当检测到用户的直播互动操作时,采集第一预设时长的直播本文档来自技高网...

【技术保护点】
1.一种音频定位的方法,其特征在于,所述方法应用于终端设备,所述方法包括:/n当检测到用户的直播互动操作时,采集第一预设时长的直播音频;/n将所述直播音频划分为多个子直播音频;/n针对每个子直播音频,确定该子直播音频对应的音频指纹集合;/n根据该子直播音频对应的音频指纹集合和服务器发送的各基准直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频;/n如果所述直播音频包含的各子直播音频对应的目标直播音频的直播起止时段存在连续性,则根据各目标直播音频的直播起止时段,确定所述直播音频对应的直播起止时段,并作为用户的直播互动操作对应的直播互动时段。/n

【技术特征摘要】
1.一种音频定位的方法,其特征在于,所述方法应用于终端设备,所述方法包括:
当检测到用户的直播互动操作时,采集第一预设时长的直播音频;
将所述直播音频划分为多个子直播音频;
针对每个子直播音频,确定该子直播音频对应的音频指纹集合;
根据该子直播音频对应的音频指纹集合和服务器发送的各基准直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频;
如果所述直播音频包含的各子直播音频对应的目标直播音频的直播起止时段存在连续性,则根据各目标直播音频的直播起止时段,确定所述直播音频对应的直播起止时段,并作为用户的直播互动操作对应的直播互动时段。


2.根据权利要求1所述的方法,其特征在于,所述将所述直播音频划分为多个子直播音频,包括:
根据所述直播音频对应的第一起始时刻和预设的音频划分步幅,确定各子直播音频对应的第二起始时刻;
根据各子直播音频对应的第二起始时刻和预设的子直播音频的时长,将所述直播音频划分为多个子直播音频。


3.根据权利要求1所述的方法,其特征在于,所述针对每个子直播音频,确定该子直播音频对应的音频指纹集合,包括:
针对每个子直播音频,在该子直播音频对应的频谱图中,确定该子直播音频对应的能量峰值点集合;
根据所述能量峰值点集合中各能量峰值点的频率和所述各能量峰值点之间的时间差,计算所述各能量峰值点对应的音频指纹,组成该子直播音频对应的音频指纹集合。


4.根据权利要求1所述的方法,其特征在于,所述根据该子直播音频对应的音频指纹集合和服务器发送的各基准直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频,包括:
针对该子直播音频对应的音频指纹集合中的每个音频指纹,在服务器发送的各基准直播音频对应的音频指纹集合中,确定音频指纹集合包含该音频指纹的基准直播音频,作为该子直播音频对应的候选直播音频;
按照重复次数由高到低的顺序,在该子直播音频对应的候选直播音频中,选择预设数目个候选直播音频,作为该子直播音频对应的目标直播音频。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取终端设备的当前时间和直播延迟时间;
根据所述当前时间和直播延迟时间,确定直播时间,并根据所述直播时间和第二预设时长,确定定位时段;
在服务器发送的各基准直播音频中,将直播起止时段位于所述定位时段内的基准直播音频,确定为定位直播音频;
所述根据该子直播音频对应的音频指纹集合和服务器发送的各基准直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频,包括:
根据该子直播音频对应的音频指纹集合和各定位直播音频对应的音频指纹集合,确定该子直播音频对应的目标直播音频。


6.一种音频定位的方法,其特征在于,所述方法应用于服务器,所述方法包括:
在直播互动时段内,周期性获取预设时长的基准直播音频和所述基准直播音频对应的直播起止时段,所述直播起止时段为直播互动的开始时刻至结束时刻之间的时间段;
针对每个基准直播音频,确定该基准直播音频对应的音频指纹集合;
接收终端设备发送的直播...

【专利技术属性】
技术研发人员:郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1