一种参会者语音的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32465772 阅读:11 留言:0更新日期:2022-02-26 09:03
本申请提供了一种参会者语音的确定方法、装置、电子设备及存储介质,方法包括:获取会议期间产生的待分离音频,对待分离音频进行有效语音检测去噪后,确定出包含人声的有效音频;将有效音频输入至预先训练好的语音标签确定模型之中,输出有效音频的参会者标签序列;其中,参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;参会者标签用来指示对应的音频时间上的说话者;根据参会者标签序列中的每一个音频时间所对应的参会者标签信息,确定在有效语音中每个时间节点对应的参会者信息;基于有效语音中每个时间节点对应的参会者信息,对有效音频进行语音分离,确定出每一参会者的多条语音,提高了语音确定的效率以及准确性。效率以及准确性。效率以及准确性。

【技术实现步骤摘要】
一种参会者语音的确定方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其是涉及一种参会者语音的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,对于语音分离算法的精度要求越来越高,因为在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能准确将其中的目标语音分离出来,将会严重影响到后端的应用,出现目标语音不清晰、语义识别不准或记录不准确的问题。
[0003]现阶段,一般采用基于无监督聚类的语音分离算法进行语音分离,但是这种方法在面对大数据量语音文件时会导致更容易受到噪声信息的干扰,导致最终语音分离的准确率降低。所以,如何快速准确的确定出分离语音成为了亟需解决的问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种参会者语音的语音确定方法、装置、电子设备及存储介质,通过将有效音频输入到语音标签确定模型之中,在语音标签确定模型之中快速准确地确定出有效音频所对应的参会者标签序列,利用参会者标签序列之中的每个时间点所对应的参会者信息对有效音频进行语音分离,从而确定出每一个参会者的多条语音,提高了语音确定的效率以及准确性。
[0005]本申请实施例提供了一种参会者语音的确定方法,所述确定方法包括:获取会议期间产生的待分离音频,对所述待分离音频进行有效语音检测去噪后,确定出包含人声的有效音频;将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者;根据所述参会者标签序列中的每一个音频时间所对应的参会者标签信息,确定在所述有效语音中每个时间节点对应的参会者信息;基于有效语音中每个时间节点对应的参会者信息,对所述有效音频进行语音分离,确定出每一参会者的多条语音。
[0006]在一种可能的实施方式中,将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者,包括:将所述有效音频输入至预先训练好的语音标签确定模型之中,基于所述有效音频中的各个参会者的声音特征,确定出参会者特征向量序列;对所述有效音频按照预设时间间隔进行语音特征提取,确定出语音特征观测序
列;基于隐藏序列以及参会者特征向量序列对语音特征观测序列进行人声预测,确定出所述有效音频中每一时间节点所对应的参会者标签;按照各个时间节点的顺序,将各个时间节点对应的参会者标签按序排列,得到所述参会者标签序列。
[0007]在一种可能的实施方式中,所述基于所述有效音频中的各个参会者的声音特征,确定出参会者特征向量序列,包括:针对于每一所述参会者,基于该参会者的均值向量、高斯均值超矢量以及全局差异空间矩阵,确定出该参会者的均值向量所对应的参会者特征向量;基于多个所述参会者特征向量,确定出参会者特征向量序列。
[0008]在一种可能的实施方式中,所述基于隐藏序列以及参会者特征向量序列对语音特征观测序列进行人声预测,确定出所述有效音频中每一音频所对应的参会者标签,包括:基于所述隐藏序列以及所述参会者特征向量序列,确定出所述语音特征观测序列相对应的所述隐藏序列的条件分布概率;基于所述语音特征观测序列相对应的所述隐藏序列的条件分布概率,确定出有效音频中每一音频所对应的参会者标签。
[0009]在一种可能的实施方式中,所述基于所述隐藏序列以及所述参会者特征向量序列,确定出所述语音特征观测序列相对应的所述隐藏序列的条件分布概率,包括:基于散度计算确定出所述隐藏序列以及所述参会者特征向量序列的初始条件概率分布函数;基于初始条件概率分布函数、随便变量联合概率分布函数,确定出所述隐藏序列的条件分布概率函数以及参会者特征向量序列的条件分布概率函数;基于所述隐藏序列的条件分布概率函数以及参会者特征向量序列的条件分布概率函数,确定出第一概率分布期望值以及第二概率分布期望值;基于所述第一概率分布期望值和所述第二概率分布期望值,确定出目标损失函数;对所述目标损失函数进行迭代更新,确定出所述隐藏序列以及参会者特征向量序列的目标条件分布概率函数,基于所述目标条件分布概率函数确定出语音特征观测序列相对于隐藏序列的条件分布概率。
[0010]在一种可能的实施方式中,所述基于所述语音特征观测序列相对应的所述隐藏序列的条件分布概率,确定出有效音频中每一音频所对应的参会者标签,包括:当确定出语音特征观测序列相对于隐藏序列的条件分布概率之后,基于语音特征观测序列,确定出目标隐藏序列;其中所述目标隐藏序列与语音特征观测序列的匹配程度优于所述隐藏序列与语音特征观测序列的匹配程度;针对于所述目标隐藏序列中的每一个特征元素,对该特征元素所对应的多个参会者标签的进行打分处理,确定出多个测评分数,将测评分数最大值所对应的参会者标签确定为该特征元素的参会者标签。
[0011]本申请实施例还提供了一种参会者语音的确定装置,所述确定装置包括:音频处理模块,用于获取会议期间产生的待分离音频,对所述待分离音频进行有
效语音检测去噪后,确定出包含人声的有效音频;语音标签确定模块,用于将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者;信息确定模块,用于根据所述参会者标签序列中的每一个音频时间所对应的参会者标签信息,确定在所述有效语音中每个时间节点对应的参会者信息;语音确定模块,用于基于有效语音中每个时间节点对应的参会者信息,对所述有效音频进行语音分离,确定出每一参会者的多条语音。
[0012]在一种可能的实施方式中,语音标签确定模块在用于所述将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者时,语音标签确定模块还用于:将所述有效音频输入至预先训练好的语音标签确定模型之中,基于所述有效音频中的各个参会者的声音特征,确定出参会者特征向量序列;对所述有效音频按照预设时间间隔进行语音特征提取,确定出语音特征观测序列;基于隐藏序列以及参会者特征向量序列对语音特征观测序列进行人声预测,确定出所述有效音频中每一时间节点所对应的参会者标签;按照各个时间节点的顺序,将各个时间节点对应的参会者标签按序排列,得到所述参会者标签序列。
[0013]本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种参会者语音的确定方法,其特征在于,所述确定方法包括:获取会议期间产生的待分离音频,对所述待分离音频进行有效语音检测去噪后,确定出包含人声的有效音频;将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者;根据所述参会者标签序列中的每一个音频时间所对应的参会者标签信息,确定在所述有效语音中每个时间节点对应的参会者信息;基于有效语音中每个时间节点对应的参会者信息,对所述有效音频进行语音分离,确定出每一参会者的多条语音。2.根据权利要求1所述的确定方法,其特征在于,将所述有效音频输入至预先训练好的语音标签确定模型之中,输出所述有效音频的参会者标签序列;其中,所述参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;所述参会者标签用来指示对应的音频时间上的说话者,包括:将所述有效音频输入至预先训练好的语音标签确定模型之中,基于所述有效音频中的各个参会者的声音特征,确定出参会者特征向量序列;对所述有效音频按照预设时间间隔进行语音特征提取,确定出语音特征观测序列;基于隐藏序列以及参会者特征向量序列对语音特征观测序列进行人声预测,确定出所述有效音频中每一时间节点所对应的参会者标签;按照各个时间节点的顺序,将各个时间节点对应的参会者标签按序排列,得到所述参会者标签序列。3.根据权利要求2所述的确定方法,其特征在于,所述基于所述有效音频中的各个参会者的声音特征,确定出参会者特征向量序列,包括:针对于每一所述参会者,基于该参会者的均值向量、高斯均值超矢量以及全局差异空间矩阵,确定出该参会者的均值向量所对应的参会者特征向量;基于多个所述参会者特征向量,确定出参会者特征向量序列。4.根据权利要求2所述的确定方法,其特征在于,所述基于隐藏序列以及参会者特征向量序列对语音特征观测序列进行人声预测,确定出所述有效音频中每一音频所对应的参会者标签,包括:基于所述隐藏序列以及所述参会者特征向量序列,确定出所述语音特征观测序列相对应的所述隐藏序列的条件分布概率;基于所述语音特征观测序列相对应的所述隐藏序列的条件分布概率,确定出有效音频中每一音频所对应的参会者标签。5.根据权利要求4所述的确定方法,其特征在于,所述基于所述隐藏序列以及所述参会者特征向量序列,确定出所述语音特征观测序列相对应的所述隐藏序列的条件分布概率,包括:基于散度计算确定出所述隐藏序列以及所述参会者特征向量序列的初始条件概率分布函数;基于初始条件概率分布函数、随便变量联合概率分布函数,确定出所述隐藏序列的条
件分布概率函数以及参会者特征向量序列的条件分布概率函数;基于所述隐藏序列的条件分布概率函数以及参会者特征向量序列的条件分布概率函数,确定出第一概率分布期望值以及第二概率分布期望值;基于所述第一概率分布期望值和所述第二概率分布期望值,确定出目标损失函数;对所述目标损失...

【专利技术属性】
技术研发人员:史王雷王秋明
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1