传送标识当前说话者的元数据制造技术

技术编号:16708282 阅读:63 留言:0更新日期:2017-12-02 23:38
一种计算机系统可以传送标识当前说话者的元数据。该计算机系统可以接收表示当前说话者的语音的音频数据,基于该音频数据来生成当前说话者的音频指纹,以及通过将当前说话者的音频指纹与包含在说话者指纹存储库中的已存储音频指纹进行比较来执行自动说话者识别。计算机系统可以向观察者的客户端设备传送指示当前说话者未被识别的数据,并且从观察者的客户端设备接收标识当前说话者的标记信息。计算机系统可以将当前说话者的音频指纹和标识当前说话者的元数据存储在说话者指纹存储库中,并且向观察者的客户端设备或者不同观察者的客户端设备中的至少一个客户端设备传送标识当前说话者的元数据。

【技术实现步骤摘要】
【国外来华专利技术】传送标识当前说话者的元数据
技术介绍
基于网络的会议服务可以包括诸如互联网语音协议(VoIP)音频会议、视频会议、即时消息传送和桌面共享之类的特征,以允许在线会议的参与者实时地进行通信并且同时查看在通信会话期间呈现的文档和/或在通信会话期间呈现的文档上工作。当参加在线会议时,会议发起者或被邀请方可以使用个人计算机、移动设备和/或座机电话连接至基于web的会议服务,并且可以被提示提供帐户信息或身份,以及在一些情况下,会议标识符。在线会议的参与者可以在不同时间充当发言人或参加者,并且可以通过说话、收听、聊天、呈现共享文档和/或查看共享文档进行交流和协作。
技术实现思路
提供以下
技术实现思路
以简化形式介绍下文在具体实施方式中进一步描述的一些概念的选择。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。在各种实现方式中,一种计算机系统可以传送标识当前说话者的元数据。该计算机系统可以接收表示当前说话者的语音的音频数据,基于该音频数据来生成当前说话者的音频指纹,以及通过将当前说话者的音频指纹与包含在说话者指纹存储库中的、已存储音频指纹进行比较来执行自动的说话者识别。计算机系统可以向观察者的客户端设备传送指示当前说话者未被识别的数据,并且从观察者的客户端设备接收标识当前说话者的标记信息。计算机系统可以将当前说话者的音频指纹和标识当前说话者的元数据存储在说话者指纹存储库中,并且向观察者的客户端设备中的至少一个客户端设备或者不同观察者的客户端设备传送标识当前说话者的元数据。通过阅读以下具体实施方式和对附图的观察,这些和其他特征和优点将变得明显。应当理解,前面的
技术实现思路
、以下的具体实施方式和附图仅是说明性的,而非对所要求保护的各个方面的限制。附图说明图1图示了可以实现所描述的主题的各方面的示例性操作环境的实施例。图2A至图2D图示了根据所描述的主题的各方面的示例性用户界面的实施例。图3图示了根据所描述的主题的各方面的示例性操作环境的实施例。图4图示了根据所描述的主题的各方面的示例性过程的实施例。图5图示了可以实现所描述的主题的各方面的示例性操作环境的实施例。图6图示了可以实现所描述的主题的各方面的示例性计算机系统的实施例。图7图示了可以实现所描述的主题的各方面的示例性移动计算设备的实施例。图8图示了可以实现所描述的主题的各方面的示例性计算环境的实施例。具体实施方式下文结合附图提供的详细描述旨在作为示例的描述,而不旨在表示当前示例可以被构造或使用的唯一形式。该描述阐述了示例的功能以及用于构建和操作示例的步骤的顺序。然而,相同或等同的功能和顺序可以通过不同的示例来实现。对于“一个实施例”、“实施例”、“示例实施例”、“一个实现方式”、“实现方式”、“一个示例”、“示例”等的引用指示所描述的实施例、实现方式或示例可以包括特定特征、结构或特性,但是每个实施例、实现方式或示例可以不一定包括特定特征、结构或特性。而且,这样的短语不一定指代相同的实施例、实现方式或示例。进一步地,当结合实施例、实现方式或示例描述特定特征、结构或特性时,应当领会,可以结合其他实施例、实现方式或示例来实现这样的特征、结构或特性,而不管是否明确地描述。阐述许多具体细节以便提供对所描述的主题的一个或多个方面的透彻理解。然而,应当领会,可以在没有这些具体细节的情况下实践这些方面。尽管某些部件以框图形式示出以描述一个或多个方面,但是应当理解,由单个部件执行的功能性可以由多个部件执行。类似地,单个部件可以被配置成执行被描述为由多个部件执行的功能性。现在参考附图更详细地描述本专利技术公开的各个方面,其中自始至终,同样的附图标记通常指代同样的或对应的元件。附图和具体实施方式不旨在将所要求保护的主题限制于所描述的特定形式。相反,意图是涵盖落入所要求保护的主题的精神和范围内的所有变型、等同物和备选物。图1图示了作为可以实现所描述的主题的各方面的示例性操作环境的实施例的操作环境100。应当领会,所描述的主题的各方面可以通过各种类型的操作环境、计算机网络、平台、框架、计算机体系结构和/或计算设备来实现。操作环境100的实现方式可以在被配置成根据所描述的主题的各方面来执行各种步骤、方法和/或功能性的计算设备和/或计算机系统的上下文中进行描述。应当领会,计算机系统可以由一个或多个计算设备来实现。还可以在“计算机可执行指令”的上下文中描述操作环境100的实现方式,该计算机可执行指令被执行以根据所描述的主题的各方面执行各种步骤、方法和/或功能性。通常,计算设备和/或计算机系统可以包括一个或多个处理器和存储设备(例如,存储器和磁盘驱动器)以及各种输入设备、输出设备、通信接口和/或其他类型的设备。计算设备和/或计算机系统还可以包括硬件和软件的组合。应当领会,各种类型的计算机可读存储介质可以是计算设备和/或计算机系统的一部分。如本文中所使用的,术语“计算机可读存储介质”和“计算机可读存储媒体”不意味且明确地排除传播的信号、经调制的数据信号、载波或任何其他类型的暂态计算机可读介质。在各种实现方式中,计算设备和/或计算机系统可以包括被配置成执行计算机可执行指令的处理器以及存储计算机可执行指令的计算机可读存储介质(例如,存储器和/或附加硬件存储装置),该计算机可执行指令被配置成执行根据所描述的主题的各方面的各种步骤、方法和/或功能性。计算机可执行指令可以以诸如通过计算机程序(例如,客户端程序和/或服务器程序)、软件应用程序(例如,客户端应用和/或服务器应用)、软件代码、应用代码、源代码、可执行文件、可执行部件、程序模块、例程、应用编程接口(API)、功能、方法、对象、属性、数据结构、数据类型等之类的各种方式来体现和/或实现。计算机可执行指令可以存储在一个或多个计算机可读存储介质上,并且可以由一个或多个处理器、计算设备和/或计算机系统执行以执行特定任务或者根据所描述的主题的各方面实现特定数据类型。如所示出的,操作环境100可以包括客户端设备101至105,其例如由适合于执行根据所描述的主题的各方面的操作的各种类型的计算设备实现。在各种实现方式中,客户端设备101至105可以通过网络106彼此和/或与计算机系统110进行通信。网络106可以由任何类型的网络或网络组合来实现,包括但不限于:诸如因特网的广域网(WAN)、局域网(LAN)、对等(P2P)网络、电话网络、私有网络、公共网络、分组网络、电路交换网络、有线网络和/或无线网络。客户端设备101至105和计算机系统110可以使用各种通信协议(例如,因特网通信协议、WAN通信协议、LAN通信协议、P2P协议、电话协议和/或其他网络通信协议)、各种认证协议(例如,Kerberos认证、NTLAN管理器(NTLM)认证、摘要认证和/或其他认证协议)和/或各种数据类型(基于web的数据类型、音频数据类型、视频数据类型、图像数据类型、消息传送数据类型、信令数据类型和/或其他数据类型)经由网络106进行通信。计算机系统110可以由一个或多个计算设备实现,诸如服务器计算机,其被配置成根据所描述的主题的各方面提供各种类型的服务和/或数据存储。示例性服务器计算机可以包括但不限于web服务器、前端服务器、应用服务器、数据库服本文档来自技高网
...
传送标识当前说话者的元数据

【技术保护点】
一种用于传送标识当前说话者的元数据的计算机系统,所述计算机系统包括:处理器,被配置成执行计算机可执行指令;以及存储器,存储计算机可执行指令,所述计算机可执行指令被配置成:基于表示所述当前说话者的语音的音频数据,来生成所述当前说话者的音频指纹;通过将所述当前说话者的所述音频指纹与被包含在说话者指纹存储库中的已存储音频指纹进行比较,来执行自动说话者识别;向观察者的客户端设备传送指示所述当前说话者未被识别的数据;从所述观察者的所述客户端设备接收标识所述当前说话者的标记信息;将所述当前说话者的所述音频指纹和标识所述当前说话者的元数据存储在所述说话者指纹存储库中;以及向所述观察者的所述客户端设备或不同观察者的客户端设备中的至少一个客户端设备,传送标识所述当前说话者的所述元数据。

【技术特征摘要】
【国外来华专利技术】2015.03.20 US 14/664,0471.一种用于传送标识当前说话者的元数据的计算机系统,所述计算机系统包括:处理器,被配置成执行计算机可执行指令;以及存储器,存储计算机可执行指令,所述计算机可执行指令被配置成:基于表示所述当前说话者的语音的音频数据,来生成所述当前说话者的音频指纹;通过将所述当前说话者的所述音频指纹与被包含在说话者指纹存储库中的已存储音频指纹进行比较,来执行自动说话者识别;向观察者的客户端设备传送指示所述当前说话者未被识别的数据;从所述观察者的所述客户端设备接收标识所述当前说话者的标记信息;将所述当前说话者的所述音频指纹和标识所述当前说话者的元数据存储在所述说话者指纹存储库中;以及向所述观察者的所述客户端设备或不同观察者的客户端设备中的至少一个客户端设备,传送标识所述当前说话者的所述元数据。2.根据权利要求1所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令被配置成:通过基于由大多数观察者所提供的身份而标识所述当前说话者,来解决冲突的标记信息。3.根据权利要求1或2所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令被配置成:从信息源取回用于所述当前说话者的附加信息;以及传送在标识所述当前说话者的所述元数据中的所述附加信息。4.根据权利要求1至3中的任一项所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令被配置成:生成增强音频数据,所述增强音频数据包括表示所述当前说话者的语音的所述音频数据和标识所述当前说话者的所述元数据。5.根据权利要求4所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令被配置成:存储所述增强音频数据;接收指示所识别的说话者的查询;从所述增强音频数据搜索标识所述所识别的说话者的元数据;以及输出所述增强音频数据的部分,所述增强音频数据的所述部分表示所述所识别的说话者的语音。6.根据权利要求1至5中的任一项所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令被配置成:生成具有多个说话者的会话的转录,其中由所识别的说话者所说出的语音的文本与所述所识别的说话者的标识符相关联;存储所述转录;接收指示所述所识别的说话者的查询;从所述转录中搜索所述所识别的说话者的所述标识符;以及输出所述转录的部分,所述转录的所述部分包括由所述所识别的说话者说出的语音文本。7.根据权利要求1至6中的任一项所述的计算机系统,其中所述存储器还存储计算机可执行指令,所述计算机可执行指令...

【专利技术属性】
技术研发人员:G·卡施坦B·施莱辛格H·菲特斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1