讲话者归属的记录稿生成制造技术

技术编号:32439607 阅读:15 留言:0更新日期:2022-02-26 07:59
一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由生成讲话者归属词语假设流的讲话者标识算法,对每个音频流执行讲话者识别;将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签序列,创建最佳的讲话者归属的文字记录稿。最佳的讲话者归属的文字记录稿。最佳的讲话者归属的文字记录稿。

【技术实现步骤摘要】
【国外来华专利技术】讲话者归属的记录稿生成

技术介绍

[0001]提前计划的会议可以利用在会议之前或在会议开始时设置的一个或多个会议工具来记录对话,并生成讲话者(speaker)归属的(attributed)记录稿(transcript)。这种现有的会议工具可以包括在位于会议桌上的设备的不同侧具有多个固定讲话者的设备。该设备可以具有塔状或圆锥状形状,并且可以具有可以被用于标识和追踪会议中的人的摄像机。语音(speech)到文本算法可以被用于创建记录稿。音频波束形成可以与固定讲话者的已知位置以及与会者的视频一起使用,以在记录稿中归属于语音。

技术实现思路

[0002]一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流,包括由一个或多个处理器执行的操作。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为针对每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由讲话者标识算法对每个音频流执行讲话者识别,讲话者标识算法生成讲话者归属词语假设流;将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签的序列,来创建最佳的讲话者归属的文字记录稿。
附图说明
[0003]图1是根据示例实施例的多个用户之间的会议的透视图。
[0004]图2是根据示例实施例的用于在会议中使用的用户设备的框图。<br/>[0005]图3是图示了根据示例实施例的在具有关联分布式设备的两个用户之间发起智能会议的方法的流程图。
[0006]图4是图示了根据示例实施例的通过使用会议码将分布式设备添加到智能会议的方法的流程图。
[0007]图5是图示了根据示例实施例的将其他设备添加到智能会议的计算机实现的方法。
[0008]图6是图示了根据示例实施例的检测到正在发生临时会议的计算机实现的方法的流程图。
[0009]图7是图示了根据示例实施例的响应于用户离开会议从用户设备和其他设备移除音频通道的计算机实现的方法的流程图。
[0010]图8是图示了根据示例实施例的认证设备以将来自设备的音频流添加到由会议服务器实例处理的音频通道的计算机实现的方法的流程图。
[0011]图9是根据示例实施例的用于为多个用户之间的会议生成记录稿的系统的高级流程框图。
[0012]图10是图示了根据示例实施例的包括来自分布式设备的音频流的信息的分布式会议服务器处理的详细流程框图。
[0013]图11是图示了根据示例实施例的在智能会议期间同步从多个分布式设备接收的多个音频通道的计算机实现的方法的流程图。
[0014]图12是图示了根据示例实施例的在分布式设备智能会议中分离重叠语音的计算机实现的方法的流程图。
[0015]图13是图示了根据示例实施例的在处理期间在多个所选点处融合音频流的计算机实现的方法13的流程图。
[0016]图14A和图14B图示了根据示例实施例的示例环境捕获设备。
[0017]图15图示了根据示例实施例的麦克风阵列的示例放置。
[0018]图16图示了根据示例实施例的具有环境捕获设备的AI系统。
[0019]图17是图示了根据示例实施例的减少通过网络发送给会议服务器以用于生成记录稿的音频流的数量的计算机实现的方法的流程图。
[0020]图18是图示了根据示例实施例的用于使用来自分布式设备的视频和音频通道、视听数据两者以提供更好的讲话者标识的计算机实现的方法的流程图。
[0021]图19是图示了根据示例实施例的用于基于用户偏好定制输出的计算机实现的方法的流程图。
[0022]图20是实现一个或多个示例实施例的计算机系统的示意性框图。
具体实施方式
[0023]在以下描述中,参照形成其一部分并且通过图示的方式示出可以被实践的具体实施例的附图。这些实施例以足够细节描述以使本领域技术人员能够实践本专利技术,并且要理解的是,其他实施例可以被利用,并且结构、逻辑和电气改变可以在不脱离本专利技术的范围的情况下进行。因此,示例实施例的以下描述不是限制意义的,并且本专利技术的范围由所附权利要求限定。
[0024]在一个实施例中,本文描述的功能或算法可以在软件中实现。该软件可以包括存储在计算机可读介质或计算机可读存储设备上的计算机可执行指令,诸如一个或多个非瞬态存储器或其他类型的基于硬件的存储设备,无论是本地的还是联网的。进一步地,这种功能对应于模块,该模块可以是软件、硬件、固件或其任何组合。多个功能可以在一个或多个模块中根据需要执行,并且所描述的实施例仅是示例。软件可以在数字信号处理器、ASIC、微处理器或者在计算机系统(诸如个人计算机、服务器或其他计算机系统)上操作,将这种计算机系统转变为专门编程的机器的其他类型的处理器上执行。
[0025]功能性可以被配置为使用例如软件、硬件、固件等来执行操作。例如,短语“被配置为”可以指要实现关联功能性的硬件元件的逻辑电路结构。短语“被配置为”还可以指要实现固件或软件的关联功能性的编码设计的硬件元件的逻辑电路结构。术语“模块”是指可以使用任何合适的硬件(例如处理器等)、软件(例如应用等)、固件或者硬件、软件和固件的任何组合来实现的结构元件。术语“逻辑”涵盖用于执行任务的任何功能性。例如,流程图中图示的每个操作都对应于用于执行该操作的逻辑。操作可以使用软件、硬件、固件等来执行。术语“组件”、“系统”等可以指执行中的计算机相关实体、硬件和软件、固件或其组合。组件
可以是在处理器上运行的过程、对象、可执行文件、程序、函数、子例程、计算机或者软件和硬件的组合。术语“处理器”可以指硬件组件,诸如计算机系统的处理单元。
[0026]此外,所要求保护的主题可以被实现为方法、装置或制品,其使用标准编程和工程技术来生产软件、固件、硬件或其任何组合以控制计算设备实现所公开的主题。本文使用的术语“制品”旨在涵盖从任何计算机可读存储设备或介质可访问的计算机程序。计算机可读存储介质可以包括但不限于磁性存储设备,例如硬盘、软盘、磁条、光盘、压缩盘(CD)、数字通用盘(DVD)、智能卡、闪存设备等。相比之下,计算机可读介质(即,不是存储介质)可以附加地包括通信介质,诸如用于无线信号的传输介质等。
[0027]被称为用户的个人可以在任何时间开始对话或会议。如果会议已经被安排,则布置可以被进行以记录对话并创建对话的记录稿以供稍后参考。然而,临时会议通常不涉及这种准备。停止会议或以其他方式花时间设置一种方法来记录对话并布置要被创建的记录稿可能会分散注意力,或者在会议期间可能不会被考虑。另外,临时会议通常在会议室外发生。在这种情况下,专门为会议设计的记录设备不可用。
[0028]在对话期间,对话的音频可以由用户可以携带的设备捕获,称为分布式设备。所捕获的音频信号可以通过无线通道被传输给会议系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理由多个分布式设备在会议期间捕获的音频流的计算机实现的方法,包括由一个或多个处理器执行的操作,所述操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为针对每个音频流的假设;对准所述假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由讲话者标识算法对每个音频流执行讲话者识别,所述讲话者标识算法生成讲话者归属词语假设流;将具有关联的讲话者标签后验概率的讲话者假设和针对每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的所述词语和讲话者混淆网络彼此对准,以合并所述后验概率并且对准词语和讲话者标签;以及通过读出具有最高后验概率的词语和讲话者标签的序列,来创建最佳的讲话者归属的文字记录稿。2.根据权利要求1所述的方法,其中所述操作在被应用于所述音频流的连续时间窗口上被执行,使得所述处理被递增地执行以支持所述讲话者归属词语识别假设的实时产生。3.根据权利要求2所述的方法,其中所述讲话者和/或词语假设流源自输入音频流的多个部分组合,所述多个部分组合经由N个音频流中的K个音频流的融合,其中K&lt;N。4.根据权利要求2所述的方法,其中所述讲话者和/或词语假设流源自声学模型的多个部分组合,所述多个部分组合被应用于N个音频流中的K个音频流,所述N个音频流又得自原始音频信号或音频信号的融合。5.根据权利要求2所述的方法,其中基于与针对每个音频流生成的所述词语假设相关联的时间标记,所述词语和讲话者假设在时间上...

【专利技术属性】
技术研发人员:吉冈拓也A
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1