网络通话方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23769062 阅读:44 留言:0更新日期:2020-04-11 21:40
本申请提供了一种网络通话方法、装置、计算机设备及存储介质,属于音频数据处理领域。方法包括:对采集到的音频信号进行时频变换,得到音频信号的多个频域信息;根据所述多个频域信息确定与所述音频信号对应的目标码率;基于目标码率对音频信号进行编码,基于编码后的音频信号进行网络通话。本申请不采用固定的编码码率对音频信号进行处理,而是使用能够达到特定语音质量的音频信号训练过后的码率预测模型基于不同的音频信号进行码率预测,预测的码率更加符合实际情况,基于预测的码率对音频信号进行码率控制,可以提高网络通话的质量。

Network call method, device, computer equipment and storage medium

【技术实现步骤摘要】
网络通话方法、装置、计算机设备及存储介质
本申请涉及音频数据处理领域,特别涉及一种网络通话方法、装置、计算机设备及存储介质。
技术介绍
随着网络技术的进步,越来越多的人会通过网络进行通话,而网络通话质量的高低一方面取决于当前网络的连接质量,另一方面也取决于对音频信号进行编码的码率高低。由于网络的连接质量一般是不可控的,相关技术中,往往在网络通话启动前就基于一些实验经验值对音频编码器设置相关的参数,使得音频编码器以固定码率对音频信号进行编码,相关技术中的网络通话过程参见图1。但是,以固定码率对音频信号进行编码无法保证编码后的音频信号能够以较好的质量呈现给接收方,网络通话的效果不佳。
技术实现思路
本申请实施例提供了一种网络通话方法、装置、计算机设备及存储介质,可以解决相关技术中网络通话的效果不佳的问题。所述技术方案如下:一方面,提供了一种网络通话方法,所述方法包括:对采集到的音频信号进行时频变换,得到所述音频信号的多个频域信息;根据所述多个频域信息确定与所述音频信号对应的目标码率;基于所述目标码率对所述音频信号进行编码,基于编码后的音频信号进行网络通话。一方面,提供了一种网络通话装置,所述装置包括:变换模块,用于对采集到的音频信号进行时频变换,得到所述音频信号的多个频域信息;第一确定模块,用于根据所述多个频域信息确定与所述音频信号对应的目标码率;编码模块,用于基于所述目标码率对所述音频信号进行编码;通话模块,用于基于编码后的音频信号进行网络通话。在一种可能的实施方式中,所述训练模块包括:第一变换单元,用于对所述多个样本音频信号进行时频变换,得到多个样本频域信息;输入单元,用于将所述多个样本频域信息输入到初始模型中;预测单元,用于由所述初始模型基于所述多个样本频域信息进行码率预测,输出多个与所述多个样本频域信息对应的预测码率;第一调整单元,用于基于所述样本码率和所述预测码率的差别信息,调整所述初始模型的模型参数,直至所述初始模型的模型参数符合目标截止条件时,停止训练所述初始模型,将训练后的初始模型作为所述码率预测模型。在一种可能的实施方式中,所述变换模块包括:第一划分单元,用于将所述音频信号划分为多个音频帧,其中,在时间上相邻两个音频帧有重合部分;加窗单元,用于对每个音频帧进行加窗处理,得到多个加窗后的音频帧;第二变换单元,用于对所述多个加窗后的音频帧进行傅里叶变换,得到所述多个频域信息。在一种可能的实施方式中,所述第二变换单元,包括:变换子单元,用于对所述多个加窗后的音频帧进行傅里叶变换,得到每个音频帧的线性频域参数;第一得到子单元,用于基于所述每个音频帧的线性频域参数,得到所述每个音频帧的线性频域功率谱值;第二得到子单元,用于基于所述每个音频帧的线性频域功率谱值,得到多个巴克域功率谱值;运算子单元,用于对所述多个巴克域功率谱值进行对数运算,得到所述多个频域信息。在一种可能的实施方式中,所述确定单元包括:码率小组划分子单元,用于在所述多个第一码率中,将码率相同的第一码率划分成一个码率小组;码率小组确定子单元,用于获取每个码率小组中包含所述第一码率的数量,将包含所述第一码率的数量最多的码率小组,确定为所述目标码率小组;目标码率确定子单元,用于将所述目标码率小组中包含的所述第一码率确定为所述目标码率。在一种可能的实施方式中,所述变换模块还用于从所述音频信号中提取人声信号,对所述人声信号进行时频变换,得到所述人声信号的多个频域信息,将所述人声信号的多个频域信息作为所述音频信号的多个频域信息,或,识别所述音频信号中人声的起始时间点和结束时间点,对所述起始时间点和所述结束时间点之间的音频信号进行时频变换,得到所述音频信号的多个频域信息。一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述网络通话方法所执行的操作。一方面,提供了一种存储介质,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现所述网络通话方法所执行的操作。本申请不采用固定的编码码率对音频信号进行处理,而是使用训练过后的码率预测模型来基于不同的音频信号进行码率预测,也不会直接采用码率预测模型预测的码率对音频数据进行码率控制,而是从第一码率中确定目标码率,基于目标码率对音频信号进行码率控制,提高网络通话的质量。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是相关技术中的网络通话的发送端和接收端结构示意图;图2是巴克域和线性频率的对应关系图;图3是直方图示例图;图4是本申请实施例的实施环境示意图;图5是本申请实施例提供的一种网络通话方法流程图;图6是本申请实施例提供的一种网络通话方法的流程图;图7是本申请实施例提供的一种训练码率预测模型的流程图;图8是本申请实施例提供的一种训练码率预测模型的构造图;图9是本申请实施例提供的一种网络通话方法的装置结构图;图10是本申请实施例提供的一种计算机设备的结构图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(machinelearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机本文档来自技高网...

【技术保护点】
1.一种网络通话方法,其特征在于,所述方法包括:/n对采集到的音频信号进行时频变换,得到所述音频信号的多个频域信息;/n根据所述多个频域信息确定与所述音频信号对应的目标码率;/n基于所述目标码率对所述音频信号进行编码,基于编码后的音频信号进行网络通话。/n

【技术特征摘要】
1.一种网络通话方法,其特征在于,所述方法包括:
对采集到的音频信号进行时频变换,得到所述音频信号的多个频域信息;
根据所述多个频域信息确定与所述音频信号对应的目标码率;
基于所述目标码率对所述音频信号进行编码,基于编码后的音频信号进行网络通话。


2.根据权利要求1所述的方法,其特征在于,所述根据所述多个频域信息确定与所述音频信号对应的目标码率包括:
将所述多个频域信息输入到码率预测模型中,由所述码率预测模型输出使网络通话的语音质量符合目标语音质量条件的多个第一码率;
从所述多个第一码率中将符合目标条件的第一码率确定为所述目标码率。


3.根据权利要求2所述的方法,其特征在于,所述从所述多个第一码率中将符合目标条件的第一码率确定为所述目标码率包括:
在所述多个第一码率中,将码率相同的第一码率划分成一个码率小组;
获取每个码率小组中包含所述第一码率的数量,将包含所述第一码率的数量最多的码率小组,确定为所述目标码率小组;
将所述目标码率小组中包含的所述第一码率确定为所述目标码率。


4.根据权利要求2所述的方法,其特征在于,所述将所述多个频域信息输入到码率预测模型中之前,所述方法还包括:
基于样本数据集进行模型训练,得到所述码率预测模型,其中,所述样本数据集包括多个样本音频信号以及所述多个样本音频信号对应的样本码率,其中,所述多个样本音频信号均符合相同的语音质量条件。


5.根据权利要求4所述的方法,其特征在于,所述基于样本数据集进行模型训练,得到所述码率预测模型之前,所述方法还包括:
基于所述多个样本音频信号对应的样本码率,对所述多个样本音频信号进行编码后再解码,得到多个样本解码音频信号;
基于所述多个样本音频信号与所述多个样本解码音频信号,确定所述多个样本音频信号的语音质量。


6.根据权利要求4所述的方法,其特征在于,所述基于样本数据集进行模型训练,得到所述码率预测模型包括:
对所述多个样本音频信号进行时频变换,得到多个样本频域信息;
将所述多个样本频域信息输入到初始模型中;
由所述初始模型基于所述多个样本频域信息进行码率预测,输出多个与所述多个样本频域信息对应的预测码率;
基于所述样本码率和所述预测码率的差别信息,调整所述初始模型的模型参数,直至所述初始模型的模型参数符合目标截止条件时,停止训练所述初始模型,将训练后的初始模型作为所述码率预测模型。


7.根据权利要求1所述的方法,其特征在于,所述对采集到的音频信号进行时频变换,得到多个频域信息,包括:
将所述音频信号划分为多个音频帧,其中,在时间上相邻两个音频帧有重合部分;
对每个音频帧进行加窗处理,得到多个加窗后的音频帧;
对所述多个加窗后的音频帧进行傅里叶变换,得到所述多个频域信息。


8.根据权利要求7所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:梁俊斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1