音频处理的方法、装置、终端及计算机可读存储介质制造方法及图纸

技术编号:21895760 阅读:28 留言:0更新日期:2019-08-17 16:02
本申请公开了一种音频处理的方法、装置、终端及计算机可读存储介质,属于音频处理技术领域。所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段替换的开始时间点;基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点;基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换。采用本申请,可以有效解决相关技术中截取的音频片段会发生错乱的技术问题。

Audio Processing Method, Device, Terminal and Computer Readable Storage Media

【技术实现步骤摘要】
音频处理的方法、装置、终端及计算机可读存储介质
本申请涉及音频处理
,具体涉及一种音频处理的方法、装置、终端及计算机可读存储介质。
技术介绍
在对音频进行音频处理的过程中,有时需要在音频中截取相应的音频片段,然后,基于截取的音频片段进行后续处理,比如进行替换掉这一音频片段的处理。例如,如果在人声音频的录制过程中,用户录制到了第四句,此时,用户觉得第三句和第四句没有唱好,则可以拖拽歌词到第三句的起点位置,重新录制第三句和第四句。此时相应的处理为在原人声音频中截取第三句和第四句对应的音频片段,并将其替换为重新录制的音频片段。再例如,在生成合唱音频的过程中,从用户的人声音频中截取相应音频片段,然后使用这些音频片段替换初始合唱音频中的音频片段,最终生成合唱音频。在从人声音频中截取音频片段时,首先需要确定截取音频片段的开始时间。相关技术中确定截取音频片段的开始时间点的方法为,用户选取人声音频对应的歌词中的目标句之后,从人声音频对应的歌词信息中获取目标句的开始时间点,将该开始时间点确定为用户截取音频片段的开始时间点。在实现本申请的过程中,专利技术人发现相关技术至少存在以下问题:有时歌词中的目标句的开始时间点,与人声音频中目标句对应的音频片段的开始时间点并不一致,此时将歌词中的目标句的开始时间点作为截取音频片段的开始时间点,会使得截取得到的音频片段发生错乱,即得到的音频片段会不完整或过多。
技术实现思路
为了解决相关技术中存在的技术问题,本申请实施例提供了一种音频处理的方法、装置、终端及计算机可读存储介质。所述音频处理的方法、装置、终端及计算机可读存储介质的技术方案如下:第一方面,提供了一种音频处理的方法,所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段替换的开始时间点;基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点;基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换。可选的,所述确定用户输入的对所述目标音频进行片段替换的开始时间点,包括:确定用户在目标音频的歌词中选取的第一目标句的开始时间点,将所述第一目标句的开始时间点确定为对所述目标音频进行片段替换的开始时间点。可选的,所述基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点,包括:确定所述各语音端点的端点类型,其中,所述端点类型包括起点类型和结束点类型;确定属于起点类型的距所述开始时间点最近的第一语音端点;如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点;如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点。可选的,所述确定所述各语音端点的端点类型之后,还包括:基于所述目标音频中属于起点类型的每个语音端点之前预设时长内的音频片段的能量特征,确定属于起点类型的每个语音端点的第一可信度,其中,所述第一可信度表征属于起点类型的每个语音端点为句起始点的语音端点的概率;所述如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点,包括:如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,且所述第一语音端点的第一可信度大于第二预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点;所述如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点,包括:如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,或,所述第一语音端点的第一可信度小于第二预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点。可选的,所述基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换,包括:将所述目标音频中所述实际开始时间点之后的音频片段,替换为所述重新录制的音频片段。可选的,所述方法还包括:确定用户输入的对所述目标音频进行片段替换的结束时间点;基于所述结束时间点和各语音端点,确定对所述目标音频进行片段替换的实际结束时间点;基于所述实际开始时间点和所述实际结束时间点和重新录制的音频片段,对所述目标音频进行片段替换。可选的,所述确定用户输入的对所述目标音频进行片段替换的结束时间点,包括:确定用户在目标音频的歌词中选取的第二目标句的结束时间点,将所述第二目标句的结束时间点确定为所述对所述目标音频进行片段替换的结束时间点。可选的,所述基于所述结束时间点和各语音端点,确定对所述目标音频进行片段替换的实际结束时间点,包括:确定所述各语音端点的端点类型,其中,所述端点类型包括起点类型和结束点类型;确定属于结束点类型的距所述结束时间点最近的第二语音端点;如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点;如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点。可选的,所述确定所述各语音端点的端点类型之后,还包括:基于所述目标音频中属于结束点类型的每个语音端点之后预设时长内的音频片段的能量特征,确定属于结束点类型的每个语音端点的第二可信度,其中,所述第二可信度表征属于结束点类型的每个语音端点为句结束点的语音端点的概率;所述如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点,包括:如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,且所述第二语音端点的第二可信度大于第二预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点;所述如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点,包括:如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,或,所述第二语音端点的第二可信度小于第二预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点。可选的,所述基于所述实际开始时间点和所述实际结束时间点和重新录制的音频片段,对所述目标音频进行片段替换,包括:将所述目标音频中所述实际开始时间点和所述实际结束时间点之间的音频片段,替换为所述重新录制的音频片段。可选的,所述方法还包括:基于所述实际开始时间点和所述实际结束时间点,在所述目标音频中截取第一音频片段;获取合唱音频,基于所述实际开始时间点和所述实际结束时间点,将所述第一音频片段添加到所述合唱音频中。第二方面,提供了又一种音频处理的方法,所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段截取的开始时间点和结束时间点;基于所述开始时间点、所述结束时间点和各语音端点,确定对所述目标音频进行片段截取的实际开始时间点和实际结束时间点;基于所述实际开始时间点和所述实际结束时本文档来自技高网...

【技术保护点】
1.一种音频处理的方法,其特征在于,所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段替换的开始时间点;基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点;基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换。

【技术特征摘要】
1.一种音频处理的方法,其特征在于,所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段替换的开始时间点;基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点;基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换。2.根据权利要求1所述的方法,其特征在于,所述确定用户输入的对所述目标音频进行片段替换的开始时间点,包括:确定用户在目标音频的歌词中选取的第一目标句的开始时间点,将所述第一目标句的开始时间点确定为对所述目标音频进行片段替换的开始时间点。3.根据权利要求1所述的方法,其特征在于,所述基于所述开始时间点和各语音端点,确定对所述目标音频进行片段替换的实际开始时间点,包括:确定所述各语音端点的端点类型,其中,所述端点类型包括起点类型和结束点类型;确定属于起点类型的距所述开始时间点最近的第一语音端点;如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点;如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点。4.根据权利要求3所述的方法,其特征在于,所述确定所述各语音端点的端点类型之后,还包括:基于所述目标音频中属于起点类型的每个语音端点之前预设时长内的音频片段的能量特征,确定属于起点类型的每个语音端点的第一可信度,其中,所述第一可信度表征属于起点类型的每个语音端点为句起始点的语音端点的概率;所述如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点,包括:如果所述第一语音端点距所述开始时间点的时长小于第一预设阈值,且所述第一语音端点的第一可信度大于第二预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述第一语音端点;所述如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点,包括:如果所述第一语音端点距所述开始时间点的时长不小于第一预设阈值,或,所述第一语音端点的第一可信度小于第二预设阈值,则确定对所述目标音频进行片段替换的实际开始时间点为所述开始时间点。5.根据权利要求1所述的方法,其特征在于,所述基于所述实际开始时间点和重新录制的音频片段,对所述目标音频进行片段替换,包括:将所述目标音频中所述实际开始时间点之后的音频片段,替换为所述重新录制的音频片段。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定用户输入的对所述目标音频进行片段替换的结束时间点;基于所述结束时间点和各语音端点,确定对所述目标音频进行片段替换的实际结束时间点;基于所述实际开始时间点和所述实际结束时间点和重新录制的音频片段,对所述目标音频进行片段替换。7.根据权利要求6所述的方法,其特征在于,所述确定用户输入的对所述目标音频进行片段替换的结束时间点,包括:确定用户在目标音频的歌词中选取的第二目标句的结束时间点,将所述第二目标句的结束时间点确定为所述对所述目标音频进行片段替换的结束时间点。8.根据权利要求6所述的方法,其特征在于,所述基于所述结束时间点和各语音端点,确定对所述目标音频进行片段替换的实际结束时间点,包括:确定所述各语音端点的端点类型,其中,所述端点类型包括起点类型和结束点类型;确定属于结束点类型的距所述结束时间点最近的第二语音端点;如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点;如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点。9.根据权利要求8所述的方法,其特征在于,所述确定所述各语音端点的端点类型之后,还包括:基于所述目标音频中属于结束点类型的每个语音端点之后预设时长内的音频片段的能量特征,确定属于结束点类型的每个语音端点的第二可信度,其中,所述第二可信度表征属于结束点类型的每个语音端点为句结束点的语音端点的概率;所述如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点,包括:如果所述第二语音端点距所述结束时间点的时长小于第一预设阈值,且所述第二语音端点的第二可信度大于第二预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述第二语音端点;所述如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点,包括:如果所述第二语音端点距所述结束时间点的时长不小于第一预设阈值,或,所述第二语音端点的第二可信度小于第二预设阈值,则确定对所述目标音频进行片段替换的实际结束时间点为所述结束时间点。10.根据权利要求6所述的方法,其特征在于,所述基于所述实际开始时间点和所述实际结束时间点和重新录制的音频片段,对所述目标音频进行片段替换,包括:将所述目标音频中所述实际开始时间点和所述实际结束时间点之间的音频片段,替换为所述重新录制的音频片段。11.一种音频处理的方法,其特征在于,所述方法包括:对目标音频进行语音端点检测,确定所述目标音频的各语音端点;确定用户输入的对所述目标音频进行片段截取的开始时间点和结束时间点;基于所述开始时间点、所述结束时间点和各语音端点,确定对所述目标音频进行片段截取的实际开始时间点和实际结束时间点;基于所述实际...

【专利技术属性】
技术研发人员:刘东平张志鹏王足娇李佳林
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1