上下文敏感短语标识制造技术

技术编号:16976740 阅读:40 留言:0更新日期:2018-01-07 10:56
本公开的实施例涉及用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括处理器,作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令;侦听器部件,被配置为从至少一个源接收文本信息;上下文分析器,被耦合到侦听器部件并且被配置为生成相对于文本信息的上下文信息;内容分析器,被耦合到侦听器部件并且被配置为从文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员;以及索引部件,被配置为对过滤后的内容进行索引。本公开的实施例还涉及用于提供与上下文敏感短语的交互的计算设备。

【技术实现步骤摘要】
【国外来华专利技术】上下文敏感短语标识
技术介绍
世界各地的人们不断地向诸如社交媒体站点、博客、新闻来源等的各种站点贡献内容。然而,难以标识针对特定上下文的对话或内容的某些方面。上面的讨论仅被提供用于一般背景信息,而非旨在用于帮助确定所要求保护的主题的范围。
技术实现思路
提供了一种用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令的处理器。侦听器部件被配置为从至少一个源接收文本信息。上下文分析器被耦合到侦听器部件,并且被配置为生成相对于文本信息的上下文信息。内容分析器被耦合到侦听器部件,并且被配置为从文本信息标识n元语法集合,并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员。索引部件被配置为对过滤后的内容进行索引。提供本
技术实现思路
以便以简化的形式介绍概念的选择,这些概念在下面的具体实施方式中进一步描述。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在
技术介绍
中指出的任何或所有缺点的实现。附图说明图1是根据一个实施例的短语标识架构的框图。图2是根据一个实施例的从各种面向公众的站点对内容进行分析和索引的方法的流程图。图3是根据一个实施例的用于从各种面向公众的站点搜索内容索引的方法的流程图。图4是示出被部署在云计算架构中的图1所示的架构的框图。图5-7示出可以在先前图中讨论的架构中使用的移动设备的各种示例。图8是可以在先前图中陈述的架构的各种部分中使用的计算环境的一个示例的框图。具体实施方式目前可以基于训练后的语言模型来从文本提取关键短语。然而,这样的技术在计算上是密集的,并且不适合于处理大量的流社交媒体内容。此外,社交媒体内容越来越成为最相关的内容中的一些,该最相关的内容用于非常快速和动态地标识跟踪这样的内容的事件或主题。图1是短语标识架构100的一个示例的框图。架构100说明性地包括计算系统102和面向公众的站点或源104的集合。作为示例,面向公众的站点104提供由计算系统102分析和索引的内容源。面向公众的站点104可以包括但不限于社交网络106、社区站点108、博客110、新闻媒体站点112以及各种各样的其他面向公众的站点114。社交网络106包括但不限于以下网络,诸如facebook.com、instagram.com、Google+、twitter.com以及现在知道的或稍后开发的允许和支持大量用户之间的交互的其他站点或网络。社区站点108包括但不限于围绕用户社区的感兴趣的特定主题而形成的个人电子公告牌或其他形式的消息站点。此外,社区站点108还可以包括地理社区以及例如城市感兴趣的站点。博客110可以包括但不限于由个人或相对较小的个人群体定期更新并且以非正式或对话风格书写的任何站点。新闻媒体站点112包括但不限于任何电子新闻媒体或渠道站点,无论是国际、国家、地区或地方。其他面向公众的站点114包括但不限于任何公开可用的电子信息源。在一个实施例中,这样的站点包括以相对非结构化格式提供的任何定期更新的电子信息源。计算系统102说明性地包括监测由面向公众的站点104生成的信息的社交侦听器部件116。计算系统102还包括处理器118和用户界面部件120,用户界面部件120通过用户输入机构124生成用户界面显示122。在一个实施例中,处理器118是计算系统102的功能部件,并且被配置为执行用于处理文本信息的指令。用户126说明性地与用户输入机构124交互或致动用户输入机构124,以便控制和操纵计算系统102。计算系统102也可以包括其他项目128。计算系统102提供用于对从面向公众的站点104接收的内容标识针对特定上下文(包括整个上下文)的对话(例如,主题)的关键方面的框架。在本示例中,对话的关键方面包括在上下文内出现的关键词或短语集合(一个或多个)(例如“CEO退休”、“麻疹爆发”、“电池着火”)。上下文可以是但不限于文本关键词、社交媒体源、地理区域、时间段、作者等中的一个或多个组合。由计算系统102提供的框架能够处理来自面向公众的站点104的非常大量的流社交媒体或其他内容,并且允许用户(例如,用户126)随后在动态地定义的上下文中标识关键对话短语。如上所述,从站点104生成的信息被提供给社交侦听器部件116。内容分析器130被配置为分析从面向公众的站点104提供的内容,并且上下文分析器132被配置为标识该内容的上下文。该信息可以被提供给数据收集部件134,并且使用索引部件138在数据存储库136中被索引。数据存储库136说明性地存储短语索引140,短语索引140对从面向公众的站点104提供的内容标识的短语进行索引。使用短语索引140,搜索部件142可以基于从用户126接收的查询来执行搜索,以标识针对用户定义的上下文的对话的关键方面。例如,对于特定的关键字集合,用户126可能希望从特定社交媒体源上下文和/或地理区域上下文查找来自面向公众的站点104的对话的关键方面。图2是根据一个实施例的从各种面向公众的站点对内容进行分析和索引的方法200的流程图。为了说明而不是限制,方法200将在架构100的上下文中进行描述。在框202,社交侦听器部件116从面向公众的站点104接收内容。例如,可以从社交网络106或新闻媒体站点112接收文档。在一个示例中,所接收的内容可以包括非结构化文本内容。在另一示例中,所接收的内容可以包括非文本内容,诸如图像、音频和/或视频内容。在框203,标识与所接收的内容相关联的一个或多个上下文。例如,框203可以由上下文分析器132执行。上下文的示例包括但不限于内容中的文本关键字、从其接收内容的特定社交媒体源、内容起源于其的地理区域、内容的作者、以及内容被创作的时间段的组合。在框204,对在框202接收的内容执行处理以标识短语。例如,对于非文本内容,可以对内容执行光学字符识别206和/或语音识别208以获得内容的文本表示。此外,处理可以包括从内容去除停止词的文本标记化210、格式分析212和/或停止词消除214。在一个实施例中,文本标记化210可以采用中断或空格来将文本流分解为单词或其他有意义的块。格式分析212可以检查文本的格式参数,以便标识更重要的文本。这样的格式参数可以包括以下特征,诸如大写、文本是粗体和/或斜体、文本是否被突出显示或具有不同的颜色等。去除停止词214从文本去除了来自预定义停止词集合中的单词。停止词是非常普遍的并且具有相对小的有意义价值的单词。这样的停止词的示例包括“该(the)、是(is)、在(at)、哪个(which)、和(and)、或(or)”等。除了去除停止词之外,框214还可以去除具有URL格式的文本。停止词的列表是预定义的,并且可以基于所使用的特定语言而变化。在框216,执行语言模型处理以生成n元语法以从内容中的序列中的单词中标识短语。根据本文中描述的各种实施例,这样的n元语法可以包括一元语法、二元语法和三元语法。然而,也可以采用更大的n元语法。在框218,将一个或多个过滤器应用于所标识的短语以去除不常见的短语。在一个实施例中,这样的过滤采用概率数据结构来有效地本文档来自技高网...
上下文敏感短语标识

【技术保护点】
一种用于处理来自至少一个文本信息源的文本信息的计算设备,所述计算设备包括:处理器,作为所述计算设备的功能部件并且被配置为执行用于处理所述文本信息的指令;侦听器部件,被配置为从所述至少一个源接收所述文本信息;上下文分析器,被耦合到所述侦听器部件并且被配置为生成相对于所述文本信息的上下文信息;内容分析器,被耦合到所述侦听器部件并且被配置为从所述文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,所述概率数据结构确定给定元素是否为集合的成员;以及索引部件,被配置为对所述过滤后的内容进行索引。

【技术特征摘要】
【国外来华专利技术】2015.03.12 US 62/131,932;2015.08.26 US 14/836,3611.一种用于处理来自至少一个文本信息源的文本信息的计算设备,所述计算设备包括:处理器,作为所述计算设备的功能部件并且被配置为执行用于处理所述文本信息的指令;侦听器部件,被配置为从所述至少一个源接收所述文本信息;上下文分析器,被耦合到所述侦听器部件并且被配置为生成相对于所述文本信息的上下文信息;内容分析器,被耦合到所述侦听器部件并且被配置为从所述文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,所述概率数据结构确定给定元素是否为集合的成员;以及索引部件,被配置为对所述过滤后的内容进行索引。2.根据权利要求1所述的计算设备,其中所述侦听器部件是社交侦听器部件并且其中所述至少一个文本信息源包括社交网络。3.根据权利要求1所述的计算设备,其中所述侦听器部件被配置为从所述至少一个文本信息源接收文本信息流。4.根据权利要求1所述的计算设备,其中所述概率数据结构包括布隆过滤器。5.根据权利要求4所述的计算设备,其中所述布隆过滤器包括多个层,其中第一层为对第二层的输入。6.根据权利要求4所述的计算设备,其中所述计算设备被配置为重置所述布隆过滤器。7.根...

【专利技术属性】
技术研发人员:T·卡普勒B·凯夫尔P·J·斯腾加德
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1