【技术实现步骤摘要】
【国外来华专利技术】支持插话式内容的说话人日志
[0001]相关申请的交叉引用
[0002]本申请要求于
2021
年4月
30
日提交的美国临时申请
63/182,338
的优先权
。
[0003]本公开总体上涉及音频信号处理,并且更具体地涉及说话人日志
(speaker diarization)。
技术介绍
[0004]说话人日志是将包含多个个体言语的输入音频流划分成与每个说话人相关联的同质片段的过程
。
说话人日志用于许多应用中,如了解录音对话
、
为视频加字幕等
。
说话人日志不同于说话人标识或说话人分离,因为说话人日志不需要说话人语音的“指纹”或对输入音频流中存在的说话人数量有先验了解
。
另外,说话人日志不同于源分离,因为说话人日志通常不应用于重叠言语
。
技术实现思路
[0005]公开了用于支持插话式内容的说话人日志的实施例
。
[0006]在一些实施例中,一种方法包括:利用至少一个处理器接收包括一个或多个话语的媒体数据;利用所述至少一个处理器将所述媒体数据分成多个块;利用所述至少一个处理器对所述多个块中与单个说话人相关联的每个块的片段进行标识;利用所述至少一个处理器根据机器学习模型提取所标识片段的嵌入,其中,提取所标识片段的嵌入进一步包括统计地组合所提取的对应于与单个说话人相关联的相应连续话语的所标识片段的嵌入;利用所述至少一个处理器将所标 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种方法,包括:利用至少一个处理器接收包括一个或多个话语的媒体数据;利用所述至少一个处理器将所述媒体数据分成多个块;利用所述至少一个处理器对所述多个块中与单个说话人相关联的每个块的片段进行标识;利用所述至少一个处理器根据机器学习模型提取所标识片段的嵌入,其中,提取所标识片段的嵌入进一步包括统计地组合所提取的对应于与单个说话人相关联的相应连续话语的所标识片段的嵌入;利用所述至少一个处理器将所标识片段的所述嵌入聚类成簇;利用所述至少一个处理器根据所述聚类的结果为所标识片段的所述嵌入中的至少一个嵌入分配说话人标签;以及利用所述至少一个处理器部分地基于所述说话人标签输出与所述媒体数据相关联的说话人日志信息
。2.
如权利要求1所述的方法,进一步包括:在将所述媒体数据分成多个块之前,利用所述至少一个处理器对所述媒体数据执行空间转换
。3.
如权利要求2所述的方法,其中,对所述媒体数据执行所述空间转换包括:将所述媒体数据的第一多个通道转换成与所述第一多个通道不同的第二多个通道;并且将所述媒体数据分成多个块包括独立地将所述第二多个通道中的每个通道分成块
。4.
如权利要求1至3中任一项所述的方法,进一步包括:根据确定所述媒体数据对应于第一媒体类型,由第一训练数据集生成所述机器学习模型;以及根据确定所述第一媒体数据对应于与所述第一媒体类型不同的第二媒体类型,由与所述第一训练数据集不同的第二训练数据集生成所述机器学习模型
。5.
如权利要求1至4中任一项所述的方法,进一步包括:在聚类之前并且根据确定满足优化标准,进一步优化所提取的所标识片段的嵌入
。6.
如权利要求5所述的方法,进一步包括:在聚类之前并且根据确定不满足优化标准,放弃进一步优化所提取的所标识片段的嵌入
。7.
如权利要求5至6中任一项所述的方法,其中,优化所提取的所标识片段的嵌入包括:执行对所提取的嵌入进行降维或对所提取的嵌入进行嵌入优化中的至少一者
。8.
如权利要求7所述的方法,其中,嵌入优化包括:训练所述机器学习模型以使所提取的所标识片段的嵌入之间的可分离性最大化;以及通过将用于使所提取的所标识片段的嵌入之间的所述可分离性最大化的所述机器学习模型应用于所提取的所标识片段的嵌入来更新所提取的嵌入
。9.
如权利要求1至8中任一项所述的方法,其中,所述聚类包括:对于每个标识的片段:确定所述片段的相应长度;
根据确定所述片段的相应长度大于阈值长度,根据第一聚类过程分配与相应标识的片段相关联的嵌入;以及根据确定所述片段的相应长度不大于阈值长度,根据与所述第一聚类过程不同的第二聚类过程分配与所述相应标识的片段相关联的嵌入
。10.
如权利要求1至9中任一项所述的方法,进一步包括:部分地基于确定与所述媒体数据相关联的不同说话人的数量从多个聚类过程中选择第一聚类过程
。11.
如权利要求1至
10
中任一项所述的方法,其中,所述第一聚类过程包括谱聚类
。12.
如权利要求1至
10
中任一项所述的方法,其中,所述媒体数据包括多个相关文件
。13.
如权利要求
12
所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。