一种单声道通话录音的智能分轨方法、装置和系统制造方法及图纸

技术编号:30965175 阅读:23 留言:0更新日期:2021-11-25 20:33
本发明专利技术公开了一种单声道通话录音的智能分轨方法、装置和系统,用于对单声道通话录音中多人语音进行分离,其中方法包括对通话录音的音频数据进行预备处理,得到预备处理后的音频数据;对预备处理后的音频数据进行帧属性检测,判断所述音频数据中每一帧的帧属性信息;根据所述音频数据中每一帧的帧属性信息确定所述音频数据中的语音起始点,删除语音起始点之前的音频数据得到纯语音音频数据;将所述纯语音音频数据输入分轨模型,得到所述纯语音音频数据的分轨信息。采用该技术方案先进行语音起始点检测,剔除干扰仅保留纯语音部分,然后分离出实际的各说话人角色,以供后续ASR正确识别。识别。识别。

【技术实现步骤摘要】
一种单声道通话录音的智能分轨方法、装置和系统


[0001]本专利技术涉及计算机信息处理领域,具体而言,涉及一种单声道通话录音的智能分轨方法、装置和系统。

技术介绍

[0002]对传统的电话进行通话录音时,通话录音通常为双声道,再进行内容还原时容易区分不同声道对应的人声角色。随着互联网技术的发展,网络电话、语音会议逐渐开始普及,再网络电话和语音会议中为了降低对网络速率的要求,提升通话质量,往往使用的是单声道,如果进行通话录音也以单声道的形式记录的。
[0003]如果将这样的单声道录音直接输入语音识别(ASR)系统,由于只有一个声道,无法从识别结果中还原出各话语的说话人,只是单纯地堆砌文本。而且通常情况下通话开始前还会有彩铃、播报音等等非通话内容的语音信息,会对识别过程造成干扰,降低识别准确率。

技术实现思路

[0004]本专利技术旨在解决现有网络电话、语音会议的通话录音通常是单声道通话录音,输入ASR系统无法区分说话人角色,而且识别准确率低的问题。
[0005]为了解决上述技术问题,本专利技术第一方面提出一种单声道本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种单声道通话录音的智能分轨方法,用于对单声道通话录音中多人语音进行分离,其特征在于,方法包括:对通话录音的音频数据进行预备处理,得到预备处理后的音频数据;对预备处理后的音频数据进行帧属性检测,得到所述音频数据中每一帧的帧属性信息;根据所述音频数据中每一帧的帧属性信息确定所述音频数据中的语音起始点,删除语音起始点之前的音频数据得到纯语音音频数据;将所述纯语音音频数据输入分轨模型,得到所述纯语音音频数据的分轨信息。2.如权利要求1所述的智能分轨方法,其特征在于,所述对通话录音的音频数据进行预备处理具体包括:对所述通话录音的音频数据进行格式转化;对格式转化后的音频数据进行分帧处理;将分帧处理后的音频数据输入声学特征提取模型提取音频数据中每一帧的声学特征。3.如权利要求2所述的智能分轨方法,其特征在于,对预备处理后的音频数据进行帧属性检测具体包括:将所述音频数据中每一帧的声学特征输入帧属性检测模型,得到所述音频数据中每一帧的帧属性信息,所述帧属性检测模型为基于深度学习的C

GRU神经网络模型。4.如权利要求3所述的智能分轨方法,其特征在于,所述帧属性包括该帧为音乐帧的概率以及该帧为有声帧的概率。5.如权利要求4所述的智能分轨方法,其特征在于,根据所述音频数据中每一帧的帧属性信息确定所述音频数据中的语音起始点具体包括:预先设置音乐帧概率阈值Vm,有声帧概率阈值Vs,以及滑动窗口大小W;若连续W个帧满足该帧的音乐帧概率大于Vm,并且该帧的有声帧概率大于Vs,则所述连续W个帧中的第一个帧为语音起始点。6.如权利要求5所述的智能分轨方法,其特征在于,将所述纯语音音频数据输入分轨模型,得到所述纯语音音频数据的分轨信...

【专利技术属性】
技术研发人员:孔醍郑渊中朱小波钟雨崎叶峰
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1