当前位置: 首页 > 专利查询>微软公司专利>正文

用基于图表的分级来分级文本中单词和概念的方法和系统技术方案

技术编号:2858411 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术是用于从文本语料库中识别感兴趣的单词,文本段或者概念的一种方法和系统。构建覆盖文本语料库的图表。图表包括节点和连接,其中节点表示单词或者概念,节点间的连接表示有方向的关系名称。随后对于图表中的每个节点计算一个得分。也可以对图表中较大的子图表部分计算得分(比如元组)。得分被用于识别图表中期望的子图表部分,那些子图表部分被称作图表片段。

【技术实现步骤摘要】

本专利技术涉及识别和检索文本,尤其涉及通过生成覆盖文本资料的图表和对图表的部分计分以从较大的文本资料语料库中识别和检索感兴趣的文本部分(或文本段)。
技术介绍
有各种各样的应用得益于在较大文本语言资料库中识别感兴趣的文本的能力。例如,文档群集(clustering)和文档概要两者都尝试识别与文档相关联的概念。那些概念被用来将文档群集成各群集,或概括文档。实际上,已经尝试自动群集文档和概括整个文档群集,以在稍后的处理中使用(例如信息检索)。现有的系统已经尝试基于它们与文档的概念或主题如何相关来排序句子。这些句子然后被压缩,有时候被些许重写以获取摘要。在过去,已经以许多种不同方法尝试了句子排序。一些现有的系统基于动词特异性以尝试排序句子。其他方法使用基于文档中句子位置和句子中所识别实体的频率的试探法来尝试排序句子。所有这样的现有系统都有一定的缺点。例如,所有这样的现有系统都是大量消耗资源的。这些系统简单地从正在被概括的文档中提取单词和句子片断。这些单词和单词顺序不会被改变。相反,如同写在原始的文档中那样,用出现在原始文档中的原始顺序,简单地提供这些单词或句子片段用作文档摘要。当然,这对人类而言,来译解这样的文本片段是困难的。此外,大多数现有的方法已经通过基于检索词频率对文本中的每个单词计算一个得分来识别感兴趣的单词和文本片段。为了计算该得分,在现有系统中主要使用的技术是检索词频率*逆文档频率(tf*idf)函数,在本领域中该函数是众所周知的并备有证明文件的。一些现有的系统使用(tf*idf)函数的较小的变异,但是使用(tf*idf)函数类的所有算法都是基于单词的。在另一个
,图表被建立以对网页进行分级。使用中心和权限(hub andauthorities)算法以对图表分级,该算法使用网页作为图表中的节点,并使用到网页的链接作为图表中的连接。该图表算法还没有被应用于图表文本。
技术实现思路
本专利技术是用于从文本语料库中识别感兴趣的单词、文本段或者概念的一种方法和系统。图表被建立以覆盖文本语料库。图表包括节点和连接,其中节点表示单词或者概念,节点间的连接表示有方向的关系名称。随后对于图表中的每个节点计算一个得分。也可以对图表中较大的子图表部分计算得分(比如元组)。得分被用于识别图表中需要的子图表部分,那些子图表部分被称作图表片段。在一种实施例中,文本输出是从识别的图表片段中生成的。该图表片段被提供给一文本生成组件,它生成指示提供给它的图标片段的文本输出。附图说明图1是一种能在其中使用本专利技术的说明性环境的框图。图2是一种依照本专利技术的系统的实施例的框图。图3是一个流程图,示出了图2中示出的系统的操作的一种实施例。图4示出了对一示例输入文本生成的示例性图表。具体实施例方式本专利技术涉及从较大文本语料库中识别感兴趣的单词,文本段和概念。在更详细地描述本专利技术之前,将描述一种在其中能使用本专利技术的说明性环境。图1示出了适合在其中实现本专利技术的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本专利技术的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有任何依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本专利技术的众所周知的计算系统、环境和/或配置包括但不限于,个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。本专利技术可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本专利技术也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。参考图1,用于实现本专利技术的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件包括,但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为夹层(Mezzanine)总线。计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质,包括易失和非易失介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。系统存储器130包括易失和/或非易失存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储介质。仅作示例,图1示出了对不可移动、非易失磁介质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。上述讨论并在图1中示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和本文档来自技高网
...

【技术保护点】
一种识别由文本输入表示的感兴趣的特征的方法,其特征在于,它包括:构建一对应于所述文本输入的图表;对所述图表的子图表分量计分;基于所述得分识别感兴趣的图表片段;以及基于所识别的图表片段执行文本操纵。

【技术特征摘要】
US 2004-3-2 60/549,775;US 2004-4-15 10/825,6421.一种识别由文本输入表示的感兴趣的特征的方法,其特征在于,它包括构建一对应于所述文本输入的图表;对所述图表的子图表分量计分;基于所述得分识别感兴趣的图表片段;以及基于所识别的图表片段执行文本操纵。2.如权利要求1所述的方法,其特征在于,构建图表包括用由连接来连接的节点构建图表。3.如权利要求2所述的方法,其特征在于,所述节点对应于所述文本输入中的单词或由所述文本输入表示的概念。4.如权利要求3所述的方法,其特征在于,构建图表还包含生成连接作为有向语义关系名称。5.如权利要求4所述的方法,其特征在于,构建图表还包含为所述文本输入生成一组抽象分析。6.如权利要求5所述的方法,其特征在于,生成一组抽象分析包含基于所述文本输入生成一组有向非循环图表;以及将所述定向非循环图表组彼此连接。7.如权利要求2所述的方法,其特征在于,构建图表包含对所述文本输入中的文本部分生成一句法分析;从所述句法分析中生成一依赖性结构;从所述句法分析中生成所述图表。8.如权利要求2所述的方法,其特征在于,构建图表包含识别节点为邻近的或协同定位的单词;以及识别节点间的连接。9.如权利要求8所述的方法,其特征在于,识别连接包含任意地分配连接的方向性。10.如权利要求8所述的方法,其特征在于,识别连接包含基于与所述节点相关联的给定语音部分,使用启发识别连接和分配所述连接的方向。11.如权利要求8所述的方法,其特征在于,识别连接包含基于与所述节点相关联的给定语言部分,使用机器可学习识别连接和分配所述连接的方向。12.如权利要求2所述的方法,其特征在于,对所述图表的子图表分量计分包含向所述图表中的每个节点分配得分。13.如权利要求12所述的方法,其特征在于,一对节点和该对节点间的连接包含一元组,并且其中,对所述图表的子图表分量计分包含向所述图表中的每个元组分配得分。14.如权利要求13所述的方法,其特征在于,向图表中的每个元组分配得分包含基于所述元组中一初始节点的得分、连接到所述元组中的一目标节点的节点的得分、以及所述文本...

【专利技术属性】
技术研发人员:AA梅尼泽斯LH范德文蒂ML班科
申请(专利权)人:微软公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1