用于从网络数据中生成词汇的系统和方法技术方案

技术编号:7705381 阅读:230 留言:0更新日期:2012-08-25 04:19
在一个示例中提供了一种方法,该方法包括接收在网络环境中传播的数据,并将数据分离成一个或者多个字段。评估这些字段中的至少一些以便识别这些字段内的名词和名词短语。该方法还包括基于白名单和黑名单识别在名词和名词短语内所选择的词。白名单包括要被加标记的多个指定的词,黑名单包括将不被加标记的多个拒绝的词。为所选择的加标记的名词和名词短语而生成合成物。如果合成物准许则将合成物合并在白名单中。

【技术实现步骤摘要】
【国外来华专利技术】
本公开一般地涉及通信领域,更具体地,涉及从网络数据中生成词汇。
技术介绍
在当今社会,通信领域变得越来越重要。尤其,有效率地收集、关联和组织信息的能力对于组件制造商、系统设计者以及网络操作者的造成显著障碍。该障碍由于过多的贫乏的语言模式、俚语和不适当的语法甚至变得更困难在当今公司环境中全部这些好像是普遍存在的。因为新的通信平台和技术变得可用,应当开发新的协议以便优化这些新兴的协议的使用。在内容(寻求智能地组织该内容)在网络中传播的数据监视情形中出现了ー些问题。附图说明为了提供本公开和特征以及它们的优势的更完整的理解,參考了与附图相结合的如下说明,其中相同的參考数字表示相同的部分,其中图I是依据一个实施例的用于从网络数据生成词汇的通信系统的简化的框图;图2是依据一个实施例的可以出现在通信系统中的示例提取的简化的框图;以及图3是图示了与通信系统相关联的一系列示例步骤的简化的流程图。具体实施方式概览在一个示例中提供了ー种方法,该方法包括接收在网络环境中传播的数据和将数据分离为ー个或者多个字段。评估这些字段中的至少ー些以便识别这些字段内的名词和名词短语。该方法还包括基于白名单和黑名单识别在名词和名词短语内所选择的单词。白名单包括要被加标记的多个指定的单词,并且黑名单包括将不被加标记的多个拒绝的单词。为所选择的被加标记的名词和名词短语而生成合成物。如果合成物被准许,则将合成物合并在白名单中。在更具体的实施例中,这些字段包括题目字段、概念字段、文本字段以及作者字段。该方法可以将与该数据相关联的文档分离为第一段和第二段,该第一段包括概念字段,该第二段包括其他字段。因此,可以基于在数据中检查到的停止单词的配置的列表将数据中的一个或者多个词移除。还可以基干与多个终端用户相关联的数据集合建议将词包括在白名单中或者黑名单中。示例实施例图I是用于从网络数据中生成词汇的通信系统10的简化框图。图I可以包括终端用户12,该终端用户操作被配置为与互联网协议(IP)网络14连接的计算机设备。另外,设置了管理员20,其中管理员20有通过IP网络18与该架构连接的能力。还提供了与图I相结合的一个示例工作流程30,当通过通信系统10接收到并且智能地处理了文件(及其内容)时,该示例工作流程跟踪该文档(及其内容)。通信系统10还可以包括网络协作平台(NCP) 32,其包括白名单/黑名单添加模块34、反馈环模块36以及管理员建议接ロ 38。图I还包括中央引擎40,其包括轻量级目录访问协议(LDAP)元件42、词汇馈送器模块44、流元件50、新兴词汇主题元件46以及表格写服务元件48。图I还包括网络探测器54,其包括先进先出(FIFO)元件56、文本提取模块58、黑名单60、文本类型过滤器62、名词短语提取器模块64、白名单66、文档分离器元件68以及清除主题模块70。可以将多个网络探測器54设置在网络内的多个位置,该设备可以基于寻求对多少信息加标记,多种网络元件的容量等。注意转到本公开的示例实施例的示例流程和基础设施之前,提供了该架构的工作流程的简要概览。一些自动词汇产生协议试图解决手动建立词汇的问题。大部分方法是耗时,不灵活并且难以管理的(例如,在针对白名単、黑名单等添加/刪除/修改条目的上下文中)。通信系统10可以提供能够为通过给定的网络的内容提供有效的标签添加的架构。该架构提供了灵活性,这是因为该架构可以被配置为保护雇员隐私和敏感内容,例如,其中仅仅匹配受控的商业词汇的内容可以被提取和合适地索引。 另外,通信系统10提供了词汇建立机制,该机制与演进的商业方言联合。这意味着(在一般意义上),受控的词汇是自动地并且快速地随新的/浮现的商业内容来演进的活动的实体。本架构的ー个方面包括名词短语提取组件,可以将其与过滤机制和流访问计数一起来提供以恢复受欢迎的和/或新词汇条目。在示例实现,前提可以包括令该架构建议潜在词汇候选的单词和短语。可以给予多单词短语比单个单词术语更大的权重。将这些单词包括在白名单中还是黑名单中的决定取决于词汇管理员。管理员还可以通过标记单词以供添加到管理员停止单词的列表中,决定这些单词是否应当永远不引起他的注意。这可以采取反馈环的形式,例如,从NCP用户接ロ到网络探測器/中央引擎(依赖停止单词移除组件可以驻留的位置)。在示例实施例中,仅将词汇的某个数据字段(例如,单词)加标记。如本说明书中在这里使用的,术语“数据”意味着包括在网络环境中传播的任何合适格式的任何信息(视频、文本、音频、多媒体、语音等)。可以将特定的字段设置在反映具体网络内容的白名单中。在示例实现中,管理员20可以开发某个表示隐私问题,特权内容等的字段,使得最終的文档或者文件的合成物将反映能够在公司(潜在地公开)环境中的雇员间共享的信息。在某实现中,该文档的合成物(即,数据)可以帮助识别与具体主题领域相关联的专家;然而,存在通信系统10可以应用到其中的无数的更多的应用。如本说明书中在这里使用的,术语“合成物”可以为任何的对象、位置、数据库、资料库、服务器、文件、表格等,其可以将通过通信系统10生成的结果提供给管理员20。转到图I的基础设施,IP网络14和18表示用于接收和发送通过通信系统10的信息分组的互连通信路径的一系列点或者节点。IP网络14和18提供服务器(和或終端用户)之间的通信接ロ,它可以是任何的局域网(LAN)、无线LAN(WLAN)、城域网(MAN)、虚拟LAN(VLAN)、虚拟专用网(VPN)、广域网(WAN),或者便利在网络环境中通信的任何其它的适当的架构或者系统。在本公开的具体实施例中IP网络14和18可以实现的TCP/IP通信语言协议;然而,或者IP网络14和18可以实现用于发送和接收在通信系统10中的数据分组的任何其它的合适的通信协议。注意网络探測器54可以容易地成为本架构的某实施例中的服务器的一部分。在示例实现中,网络探測器 54是便利或者帮助协作词汇建立操作的网络元件,如在这里说明的。如本说明书中在这里使用的,术语“网络元件”意味着包括网络装置、服务器、路由器、开关、网关、桥、负载均衡器、防火墙、处理器、模块、或者任何其它的合适的设备、组件、元件或者可操作的物体以在网络环境中交換信息。此外,网络元件可以包括任何合适的硬件、软件、组件、模块、接ロ或者便利了它们的操作的物体。这可以将允许有效的数据或者信息交换的适当的算法和通信协议包括在内。在示例实现中,网络探測器54包括软件(例如,如名词短语提取器模块64的一部分)以实现词汇建立操作,如本公开中在这里概述的。在其它实施例中,可以向任何前述元件外部地设置该特征,或者将该特征包括在一些其它网络设备中以实现预期的功能。或者,为了实现操作ー些元件可以包括能够协作的软件(或者互补软件),如这里概述的。在其它实施例中,任何的图I的设备还可以包括任何合适的算法、硬件、软件、组件、模块、接ロ或者便利了这些词汇建立操作的物体。參考图2和图3以下将详细描述通信系统10的更多的可操作能力。转到图2,图2是网络探測器80的示例实现的简化框图,其使用名词短语提取器模块84处理ー些示例文档。网络探測器80在该具体地配置中包括存储器元件86和处理器88。在用于讨论目的简化示例的操作中,可以在网络探测本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2009.09.30 US 12/571,3901.ー种方法,包括 接收在网络环境中传播的数据; 将所述数据分离为ー个或者多个字段; 评估所述字段的至少ー些字段以便识别在所述字段中的名词和名词短语; 基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词; 生成被加标记的选择的名词和名词短语的合成物;以及 如果所述合成物被准许,则将所述合成物加入到所述白名单中。2.依据权利要求I所述的方法,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。3.依据权利要求2所述的方法,还包括 将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。4.依据权利要求I所述的方法,还包括 基于被配置的在所述数据中识别的停止单词的列表,移除所述数据中的ー个或者多个;ロO5.依据权利要求I所述的方法,还包括 基干与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。6.依据权利要求I所述的方法,还包括 识别所述数据中的主题范围;以及 向管理实体提供所述主题范围用于包括在所述合成物中。7.依据权利要求I所述的方法,还包括 基干与所述数据相关联的文档类型过滤所述数据。8.ー种被编码在ー个或者多个有形介质中的逻辑,所述ー个或者多个有形介质包括用于执行的代码,所述代码当被处理器执行时可操作执行以下操作 接收在网络环境中传播的数据; 将所述数据分离为ー个或者多个字段; 评估所述字段的至少ー些字段以便识别在所述字段中的名词和名词短语; 基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词; 生成被加标记的选择的名词和名词短语的合成物;以及 如果所述合成物被准许,则将所述合成物加入到所述白名单中。9.依据权利要求8所述的逻辑,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。10.依据权利要求9所述的逻辑,所述处理器进ー步可操作为执行以下操作 将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。11.依据权利要求8所述的逻辑,所述处理器进ー步可操作为执行以下操作基于被配置的在所述数据中识别的停止单词的列表,移除所述数据中的ー个或者多个词。12.依据权利要求8所述的逻辑,所述处理器进ー步可操作为执行以下操作 基干与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。13.依据权利要求8所述的逻辑,所述处理器进ー步可操作为执行以下操作 识别所述数据中的主题范围;以及 向管理实体提供所述主题范围用于包括在所述合成物中。14.依据权利要求8所述的逻辑,所述处理器进ー步可操作为执行以下操作 基干与所述数据相关联的文档类型过滤所述数据。15.ー种装置,包括 存储器元件; 可操作以执行指令的处理器;以及 被配置为与所述存储器元件和所述处理器相接ロ...

【专利技术属性】
技术研发人员:山格维鲁·阿木盖姆萨蒂施·K·甘努维吉尔·N·米哈罗维斯阿舒拓史·A·马勒高恩卡克利斯汀·波斯索纳利·M·萨姆布斯妮塔沙·瓦利亚奎·张
申请(专利权)人:思科技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1