支持插话式内容的说话人日志制造技术

技术编号:39640291 阅读:11 留言:0更新日期:2023-12-09 11:05
公开了用于支持插话式内容的说话人日志的实施例

【技术实现步骤摘要】
【国外来华专利技术】支持插话式内容的说话人日志
[0001]相关申请的交叉引用
[0002]本申请要求于
2021
年4月
30
日提交的美国临时申请
63/182,338
的优先权



[0003]本公开总体上涉及音频信号处理,并且更具体地涉及说话人日志
(speaker diarization)。

技术介绍

[0004]说话人日志是将包含多个个体言语的输入音频流划分成与每个说话人相关联的同质片段的过程

说话人日志用于许多应用中,如了解录音对话

为视频加字幕等

说话人日志不同于说话人标识或说话人分离,因为说话人日志不需要说话人语音的“指纹”或对输入音频流中存在的说话人数量有先验了解

另外,说话人日志不同于源分离,因为说话人日志通常不应用于重叠言语


技术实现思路

[0005]公开了用于支持插话式内容的说话人日志的实施例

[0006]在一些实施例中,一种方法包括:利用至少一个处理器接收包括一个或多个话语的媒体数据;利用所述至少一个处理器将所述媒体数据分成多个块;利用所述至少一个处理器对所述多个块中与单个说话人相关联的每个块的片段进行标识;利用所述至少一个处理器根据机器学习模型提取所标识片段的嵌入,其中,提取所标识片段的嵌入进一步包括统计地组合所提取的对应于与单个说话人相关联的相应连续话语的所标识片段的嵌入;利用所述至少一个处理器将所标识片段的所述嵌入聚类成簇;利用至少一个处理器根据所述聚类的结果为所标识片段的所述嵌入中的每个嵌入分配说话人标签;以及利用所述至少一个处理器部分地基于所述说话人标签输出与所述媒体数据相关联的说话人日志信息

[0007]在一些实施例中,在将所述媒体数据分成多个块之前,对所述媒体数据执行空间转换

[0008]在一些实施例中,对所述媒体数据执行所述空间转换包括:将所述媒体数据的第一多个通道转换成与所述第一多个通道不同的第二多个通道;以及将所述媒体数据分成多个块包括独立地将所述第二多个通道中的每个通道分成块

[0009]在一些实施例中,根据确定所述媒体数据对应于第一媒体类型,由第一训练数据集生成所述机器学习模型;并且根据确定所述第一媒体数据对应于与所述第一媒体类型不同的第二媒体类型,由与所述第一训练数据集不同的第二训练数据集生成所述机器学习模型

[0010]在一些实施例中,在聚类之前并且根据确定满足优化标准,进一步优化所提取的所标识片段的嵌入

[0011]在一些实施例中,在聚类之前并且根据确定不满足优化标准,放弃进一步优化所
提取的所标识片段的嵌入

[0012]在一些实施例中,优化所提取的所标识片段的嵌入包括:执行对所提取的嵌入进行降维或对所提取的嵌入进行嵌入优化中的至少一者

[0013]在一些实施例中,嵌入优化包括:训练所述机器学习模型以使所提取的所标识片段的嵌入之间的可分离性最大化;以及通过将用于使所提取的所标识片段的嵌入之间的所述可分离性最大化的所述机器学习模型应用于所提取的所标识片段的嵌入来更新所述所提取的嵌入

[0014]在一些实施例中,所述聚类包括:对于每个标识的片段:确定所述片段的相应长度;根据确定所述片段的相应长度大于阈值长度,根据第一聚类过程分配与所述相应标识的片段相关联的嵌入;以及根据确定所述片段的相应长度不大于阈值长度,根据与所述第一聚类过程不同的第二聚类过程分配与所述相应标识的片段相关联的嵌入

[0015]在一些实施例中,前述方法中的任一方法进一步包括:部分地基于确定与所述媒体数据相关联的不同说话人的数量从多个聚类过程中选择第一聚类过程

[0016]在一些实施例中,所述第一聚类过程包括谱聚类

[0017]在一些实施例中,所述媒体数据包括多个相关文件

[0018]在一些实施例中,所述方法进一步包括:将多个所述相关文件选择作为所述媒体数据,其中,选择所述多个相关文件是部分地基于以下各项中的至少一项:与所述多个相关文件相关联的内容相似度;与所述多个相关文件相关联的元数据相似度;或者与处理特定一组文件的请求相对应的接收数据

[0019]在一些实施例中,所述机器学习模型是根据由所述多个相关音频文件中的每个文件共享的一个或多个属性而从多个机器学习模型中选择的

[0020]在一些实施例中,所述方法进一步包括:计算声纹嵌入与每个簇的质心之间的声纹距离度量;计算从每个质心到属于所述簇的每个嵌入的距离;针对每个簇计算所述嵌入与所述簇的所述质心的距离的概率分布;针对每个概率分布,计算所述声纹距离属于所述概率分布的概率;对所述概率进行排序;基于所述排序为所述簇中的一个簇分配声纹;以及将与所述声纹相关联的说话人身份与所述说话人日志信息进行组合

[0021]在一些实施例中,所述概率分布被建模为折叠高斯分布

[0022]在一些实施例中,所述方法进一步包括:将每个概率与置信度阈值进行比较;以及基于所述比较确定与概率相关联的说话人是否说话

[0023]在一些实施例中,前述方法中的任一方法进一步包括部分地基于所分配的说话人标签生成与所述媒体数据相关联的一个或多个分析文件或可视化

[0024]在一些实施例中,一种非暂态计算机可读存储介质存储用于由电子设备的至少一个处理器执行的至少一个程序,所述至少一个程序包括用于执行上述方法中的任一方法的指令

[0025]在一些实施例中,一种系统包括:至少一个处理器;以及存储器,所述存储器耦接到所述至少一个处理器,所述存储器存储用于由所述至少一个处理器执行的至少一个程序,所述至少一个程序包括用于执行上述方法中的任一方法的指令

[0026]本文公开的特定实施例提供了以下优点中的至少一个或多个:
1)
优化了说话人日志的架构,与现有架构的标准日志结构相比有所改进;
2)
引入了预处理步骤,以在转换为单
声道之前利用立体声文件中存在的空间信息;
3)
引入了嵌入优化步骤,以最大化嵌入分离并基于多头注意力架构或
VBx
聚类改进聚类;
4)
引入了谱聚类作为流水线中的改进部件;
5)
引入了双重聚类步骤,以提高聚类的可靠性并改善说话人短片段的误分类;
6)
能够对任意长度的文件执行日志处理,从而降低内存占用和处理负荷;
7)
能够对不同的文件执行日志处理,从而允许对插话式内容执行日志处理;
8)
统计数据生成

误差量化和可视化,以便于评估日志成功率;以及
9本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种方法,包括:利用至少一个处理器接收包括一个或多个话语的媒体数据;利用所述至少一个处理器将所述媒体数据分成多个块;利用所述至少一个处理器对所述多个块中与单个说话人相关联的每个块的片段进行标识;利用所述至少一个处理器根据机器学习模型提取所标识片段的嵌入,其中,提取所标识片段的嵌入进一步包括统计地组合所提取的对应于与单个说话人相关联的相应连续话语的所标识片段的嵌入;利用所述至少一个处理器将所标识片段的所述嵌入聚类成簇;利用所述至少一个处理器根据所述聚类的结果为所标识片段的所述嵌入中的至少一个嵌入分配说话人标签;以及利用所述至少一个处理器部分地基于所述说话人标签输出与所述媒体数据相关联的说话人日志信息
。2.
如权利要求1所述的方法,进一步包括:在将所述媒体数据分成多个块之前,利用所述至少一个处理器对所述媒体数据执行空间转换
。3.
如权利要求2所述的方法,其中,对所述媒体数据执行所述空间转换包括:将所述媒体数据的第一多个通道转换成与所述第一多个通道不同的第二多个通道;并且将所述媒体数据分成多个块包括独立地将所述第二多个通道中的每个通道分成块
。4.
如权利要求1至3中任一项所述的方法,进一步包括:根据确定所述媒体数据对应于第一媒体类型,由第一训练数据集生成所述机器学习模型;以及根据确定所述第一媒体数据对应于与所述第一媒体类型不同的第二媒体类型,由与所述第一训练数据集不同的第二训练数据集生成所述机器学习模型
。5.
如权利要求1至4中任一项所述的方法,进一步包括:在聚类之前并且根据确定满足优化标准,进一步优化所提取的所标识片段的嵌入
。6.
如权利要求5所述的方法,进一步包括:在聚类之前并且根据确定不满足优化标准,放弃进一步优化所提取的所标识片段的嵌入
。7.
如权利要求5至6中任一项所述的方法,其中,优化所提取的所标识片段的嵌入包括:执行对所提取的嵌入进行降维或对所提取的嵌入进行嵌入优化中的至少一者
。8.
如权利要求7所述的方法,其中,嵌入优化包括:训练所述机器学习模型以使所提取的所标识片段的嵌入之间的可分离性最大化;以及通过将用于使所提取的所标识片段的嵌入之间的所述可分离性最大化的所述机器学习模型应用于所提取的所标识片段的嵌入来更新所提取的嵌入
。9.
如权利要求1至8中任一项所述的方法,其中,所述聚类包括:对于每个标识的片段:确定所述片段的相应长度;
根据确定所述片段的相应长度大于阈值长度,根据第一聚类过程分配与相应标识的片段相关联的嵌入;以及根据确定所述片段的相应长度不大于阈值长度,根据与所述第一聚类过程不同的第二聚类过程分配与所述相应标识的片段相关联的嵌入
。10.
如权利要求1至9中任一项所述的方法,进一步包括:部分地基于确定与所述媒体数据相关联的不同说话人的数量从多个聚类过程中选择第一聚类过程
。11.
如权利要求1至
10
中任一项所述的方法,其中,所述第一聚类过程包括谱聚类
。12.
如权利要求1至
10
中任一项所述的方法,其中,所述媒体数据包括多个相关文件
。13.
如权利要求
12
所述...

【专利技术属性】
技术研发人员:A
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1