使用自然语言处理生成主题索引制造技术

技术编号:17144341 阅读:33 留言:0更新日期:2018-01-27 16:38
公开了用于为会话事件生成主题索引并且基于主题索引生成内容项的系统和方法。方法包括由处理设备从对应于会话事件的第一内容项中提取多个主题,并且生成会话事件的主题索引。主题索引将多个主题中的每一个与来自第一内容项的内容片段相关联。方法还包括识别多个主题内的一个或多个主题的子集,并且生成包括主题子集的一个或多个主题中的每一个的相应内容片段的第二内容项。

Using Natural Language Processing to generate subject index

A system and method for generating subject indexes for session events and generating content items based on a topic index is disclosed. The method includes extracting multiple topics from the processing device from the first content item corresponding to the session event and generating the subject index of the session event. The theme index associates each of the multiple topics with the content fragments from the first content item. The method also includes identifying a subset of one or more topics within multiple themes, and generating second content items containing one or more of the corresponding content fragments of each theme in the theme subset.

【技术实现步骤摘要】
【国外来华专利技术】使用自然语言处理生成主题索引
本公开涉及会议领域,并且具体地涉及生成会话事件的主题索引。
技术介绍
诸如互联网上的媒体协作(例如,视频会议、远程医疗等)的会话事件正变得越来越普遍,因为利用宽带连接的宽带接入和应用激增。支持会话事件的应用可以是基于浏览器的,也可以独立于浏览器运行。
技术实现思路
以下呈现本公开的各个方面的简要总结以便提供对这些方面的基本理解。该总结不是本公开的广泛概述。其意图既不是识别本公开的关键或重要元素,也不是描述本公开的具体实施方式的任何范围或权利要求的任何范围。其唯一目的是以简化的形式呈现本公开的一些概念,作为稍后呈现的更详细的描述的序言。在本公开的一个方面中,一种方法包括:由处理设备从对应于会话事件的第一内容项中提取多个主题,并且生成该会话事件的主题索引。该主题索引将所述多个主题中的每一个与来自第一内容项的内容片段相关联。该方法还包括识别所述多个主题内的一个或多个主题的子集,并且生成包括该主题子集的所述一个或多个主题中的每一个的相应内容片段的第二内容项。公开了用于执行上述方法以及这里描述的各种实施方式的操作的计算设备。还公开了存储用于执行与上述方法和本文描述的各种实施方式相关联的操作的指令的计算机可读介质。附图说明在附图中,通过示例而非限制的方式来示出本公开,其中:图1示出根据本公开的实施方式的示例系统架构;图2是示出根据本公开的实施方式的会议平台和内容索引组件的框图;图3A是示出根据本公开的实施方式的包括主题索引的内容项记录的框图;图3B是示出根据本公开的实施方式的主要主题索引的框图;图4是示出根据本公开的实施方式的媒体协作服务/应用的示例性图形用户界面窗口的框图;图5是示出根据本公开的实施方式的用于生成会话事件的主题索引的方法的流程图;图6是示出根据本公开的实施方式的媒体协作界面的框图;图7A是示出根据本公开的实施方式的使用主题索引用于从第一媒体项生成第二媒体项的框图;图7B是示出根据本公开的实施方式的使用主题索引用于从多个媒体项生成媒体项的框图;图8是示出根据本公开的实施方式的用于排名主题的方法的流程图;和图9是示出根据本公开的实施方式的示例性计算机系统的框图。具体实施方式本公开的方面和实施方式涉及基于自然语言处理技术来生成用于会话事件的主题索引。所公开的系统和方法可以应用于实况内容、预先记录的内容和媒体协作。实况内容是指实时广播或流传输的内容(例如,有或没有无意的延迟,或者创建内容的指定时间限制内(例如,小于50微秒))。预先记录的内容是指从其创建时间起以有意延迟进行广播或流传输的内容(例如,在内容创建和内容广播或流传输之间没有指定的时间限制)。媒体协作(例如,音频和/或视频会议、音频和/或视频聊天、音频和/或视频会议室、音频和/或视频聊天室等)是指参与者/用户之间的通信,其中内容/媒体流(例如,实况音频和/或视频内容,记录的音频和/或视频内容等)由一个或多个参与者/用户的设备传送,并且可以被组合成合成内容/媒体流。如本文所使用的,术语“会话事件”是指在两个或更多个用户之间进行的会话,其中会话的口头语言和/或书面语言使用两个或更多个用户的相应客户端设备在两个或更多个用户之间交换。会话事件可以包括实况或预先记录的内容,并且可以以诸如视频和/或音频会议、基于文本的聊天、幻灯片放映演示、在线讲座/研讨会、短消息服务通信、音频通信等的媒体协作的形式。如本文所使用的,术语“内容项”包括音频剪辑、电影剪辑、电视剪辑和音乐视频以及诸如视频博客的内容、短的原始视频、图片、照片、其他多媒体内容等。内容项还可以指代其他类型的内容,包括产品的表示(例如,来自在线商家的产品列表)、文章(例如,评论、新闻文章、产品描述等)、聊天会话、幻灯片演示或可以使用显示器和/或音频设备呈现的任何其他类型的背景数据。这里在各种实施方式中描述了允许使用自然语言处理(NLP)技术从会话事件中提取主题的技术。NLP用于从与会话事件(例如,实况视频/音频流、预先记录的视频/音频流、基于文本的会话等)相关联的内容中执行主题提取。例如,可以使用各种知识提取技术将说出或键入的语言解析为概念主题。主题可用于生成主题索引,主题索引又可以用于查找与会话事件相关联的内容的感兴趣部分。主题还可以用于为会话事件的集合建立“主要”主题索引,使得关键字搜索可以返回到与感兴趣的主题相关的视频和/或视频的部分。此外,主题索引可用于生成内容推荐、生成会话事件的突出显示、多个会话事件的剪辑等。这里描述的一些实施方式可以被集成到在各种客户端设备上操作的用户界面中。用户界面可以在一个部分中显示视频内容,并且还显示索引主题的列表。对于实况视频流,当NLP从视频流中提取主题时,该列表可以实时更新。在一些实施方式中,会话事件的用户/参与者可以点击列表中的主题,这可能导致视频流从对应于讨论主题时的时间开始。相应地,实施方式提供了若干优点,包括但不限于在会话事件发生时实时地对会话事件进行索引,在没有来自编辑者的输入的情况下自动索引和识别会话事件的部分,并且利用来自会话事件参与者的直接或间接反馈以促进索引。图1示出了根据本公开的实施方式的示例系统架构100。系统架构100包括客户端设备110A-110Z、网络105、数据存储106、会议服务器120、自然语言处理(NLP)服务器130和自然语言数据库140。系统架构100的各种设备可以经由网络105彼此连接。在一个实施方式中,网络105可以包括公共网络(例如,互联网)、专用网络(例如,局域网(LAN)或广域网WAN))、有线网络(例如,以太网)、无线网络(例如,802.11网络或Wi-Fi网络)、蜂窝网络(例如,长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其组合。在一个实施方式中,数据存储106可以是存储器(例如,随机存取存储器)、高速缓存、驱动器(例如,硬盘驱动器)、闪存驱动器、数据库系统或能够存储数据的另一类型的组件或者设备。数据存储106还可以包括也可以跨越多个计算设备(例如,多个服务器计算机)的多个存储组件(例如,多个驱动器或多个数据库)。在一些实施方式中,数据存储106可以是基于云的。系统架构100的一个或多个设备可以利用数据存储106来存储公共和私有数据,并且数据存储106可以被配置为为私有数据提供安全存储。数据存储106可以是客户端设备110A-110Z、会议服务器120和NLP服务器130中的任何一个之间的一部分或在客户端设备110A-110Z、会议服务器120和NLP服务器130中的任何之间分布。在一个实施方式中,客户端设备110A-110Z可以包括诸如个人计算机(PC)、膝上型计算机、移动电话、智能电话、平板计算机、上网本计算机等的一个或多个计算设备。客户端设备110A-110Z也可以被称为“用户设备”或“移动设备”。个人用户可以与一个或多个客户端设备(例如,一个或多个客户端设备110A-110Z)相关联(例如拥有和/或使用)。客户端设备110A-110Z可以由在不同地理位置处的不同用户拥有和使用。参与媒体协作(例如,视频会议)的用户在这里可以被称为“会议参与者”。客户端设备110A-110Z可以分别实现用户界面111A-111Z。用户界面111A-111Z本文档来自技高网...
使用自然语言处理生成主题索引

【技术保护点】
一种方法,包括:由处理设备从对应于第一会话事件的第一内容项中提取多个主题;由所述处理设备生成所述第一会话事件的第一主题索引,其中所述第一主题索引将所述多个主题中的每一个与来自所述第一内容项的内容片段相关联;由所述处理设备识别所述多个主题内的一个或多个主题的第一子集;和由所述处理设备生成包括所述第一子集的所述一个或多个主题中的每一个的相应内容片段的第二内容项。

【技术特征摘要】
【国外来华专利技术】2015.08.24 US 14/833,5991.一种方法,包括:由处理设备从对应于第一会话事件的第一内容项中提取多个主题;由所述处理设备生成所述第一会话事件的第一主题索引,其中所述第一主题索引将所述多个主题中的每一个与来自所述第一内容项的内容片段相关联;由所述处理设备识别所述多个主题内的一个或多个主题的第一子集;和由所述处理设备生成包括所述第一子集的所述一个或多个主题中的每一个的相应内容片段的第二内容项。2.根据权利要求1所述的方法,还包括:从客户端设备接收包括至少一个主题指示符的内容请求,其中识别主题的所述第一子集包括基于所述至少一个主题指示符来识别主题的所述第一子集;和将所述第二内容项传送到所述客户端设备。3.根据权利要求1所述的方法,从客户端设备接收包括主题指示符和讲话者的标识符的内容请求,其中识别主题的所述第一子集包括基于所述主题指示符和所述讲话者的标识符来识别主题的所述第一子集;和将所述第二内容项传送到所述客户端设备。4.根据权利要求1所述的方法,其中所述第一内容项是实况视频广播,并且其中所述方法还包括:在所述实况视频广播期间从多个用户接收反馈;和基于所述反馈为所述多个主题中的每一个主题生成分数,其中识别主题的所述第一子集包括对于所述多个主题中的每一个主题:响应于确定该主题的相应分数满足评分条件,在主题的所述第一子集中包括该主题,其中满足所述评分条件包括以下中的至少一个:满足阈值排名或排名在阈值排名之上。5.根据权利要求1所述的方法,还包括:将所述第一主题索引添加到主题索引数据库中,所述主题索引数据库中的每个主题索引对应于多个会话事件中的一个,其中所述多个会话事件中的每一个都可通过所述会话事件的至少一个相应主题来搜索。6.根据权利要求5所述的方法,还包括:接收一个或多个主题指示符;基于所述一个或多个主题指示符来识别所述多个会话事件的第二子集;和对于所述第二子集中的每个会话事件,识别对应于所述一个或多个主题指示符的一个或多个内容片段,其中生成所述第二内容项包括从所述一个或多个内容片段中生成所述第二内容项。7.根据权利要求1所述的方法,其中在所述第一会话事件期间实时生成所述第一主题索引。8.根据权利要求1所述的方法,其中所述会话事件是实况视频记录、预先记录的视频、视频聊天、视频会议或基于文本的聊天中的一个。9.一种系统,包括:存储器;和处理设备,所述处理设备通信地耦合到所述存储器,其中所述处理设备用于:从对应于第一会话事件的第一内容项中提取多个主题;为所述第一会话事件生成第一主题索引,其中所述第一主题索引将所述多个主题中的每一个与来自所述第一内容项的内容片段相关联;识别所述多个主题内的一个或多个主题的第一子集;和生成包括所述第一子集的所述一个或多个主题中的每一个的相应内容片段的第二内容项。10.根据权利要求9所述的系统,其中所述处理设备还用于:从客户端设备接收包括至少一个主题指示符的内容请求,其中识别主题的所述第一子集包括基于所述至少一个主题指示符来识别主题的所述第一子集;和将所述第二内容项传送到所述客户端设备。11.根据权利要求9所述的系统,其中所述处理设备还用于:从客户端设备接收包括主题指示符和讲话者的标识符的内容请求,其中为了识别主题的所述第一子集,所述处理设备还基于所述主题指示符和所述讲话者的所述标识符来识别主题的所述第一子集;和将所述...

【专利技术属性】
技术研发人员:布赖恩·大卫·马什
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1