文本分析的系统和方法技术方案

技术编号:2856621 阅读:217 留言:0更新日期:2012-04-11 18:40
所公开的本发明专利技术允许通过将以简单有限的状态自动控制处理的“DAG”串来表示有向非循环图。被表示为有限状态自动控制的约束被施加,以排除包含特定模式的替代物。提供了一种允许更简单、更快和更便携的文本分析的计算机实现的系统和方法。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及自然语言处理,具体涉及。
技术介绍
对通过使用计算技术而进行的自然语言处理(NLP)研究的关键理解已经允许将这样的领域应用到当今真实世界的问题的解决上,所述问题仅举几个例子,诸如信息检索或基于万维网的服务。但是,人类语言的复杂性已经导致进行独立的语言学分析以提供高性能的NLP系统,其中之一是语句的形态句法学(morphosyntactic)分析,它也被称为加标记。事实上,由于人类语言的高模糊性,其中一个词可以具有不同的语法值(诸如作为动词或名词),因此正确地解决模糊性以便避免误解是很重要的。为了解决那些问题,已经出现了几种手段,具体上●统计语音部分(POS)标记器,它一般使用所谓的隐藏马尔可夫(Markov)模型(HWM)和维特比(Viterbi)算法;●正式规则系统;●或上述两者的混合。在市场上可以获得的所述POS系统工作得很好,并且提供很高的成功率,例如对于书写标准英语为大于80%。但是,统计POS很依赖于它们用来学习它们所使用的三字母组(trigram)或二字母组(bigram)频率的全集(corpus),此外,它们需要操作人员以手工来标记很大的全集以产生足够的学习集。在所述POS标记器中,使用约束性语法的那些由于其速度、其鲁棒性和其精度而得到特别关注。大部分基于约束性语法的系统都将表示具有模糊性的文本的有向(Directed)非循环图(DAG)与表示一组约束的有向图(有限状态变换器)交叉。但是,这样的实现方式的主要缺点是所述图示处理起来很复杂,需要难以编程的复杂算法,并且在它们的实现中经常依赖于机器。这些问题将这样的系统的使用限制到它们被开发所用于的特定语言。因此,所需要的是一种系统和方法,用于克服如上所述的传统技术的缺陷。
技术实现思路
因此,本专利技术的目的在于提供一种计算机实现的系统和方法,它们使得可以进行更简单、更快和更便携的文本分析。通过本专利技术来实现这个目的,其中,通过要以简单有限的状态自动控制来处理的“DAG”串来表示有向非循环图。在一个优选实施例中,本专利技术的方法可操作于一种计算机系统,所述计算机系统包括用于建立有向非循环图(DAG)的装置,所述有向非循环图(DAG)表示施加到初始串多链的至少一个约束。所述方法优选地包括步骤(a)从所述至少一个约束来建立至少一个规律表达;(b)使用所述至少一个规律表达来在其中所述至少一个约束所施加到的所述初始串多链中寻找;(c)对于所述至少一个约束所施加之处将所述初始串多链拆分为子多链;(d)向每个子多链施加步骤(b)和(c),直到所述至少一个约束不施加。附图说明通过下面参照附图更具体地说明本专利技术,本专利技术的上述和其他目的、特点和优点将会变得更好理解,其中图1是图解可以用于实现本专利技术的所述优选实施例的示例性硬件环境的方框图。图2是图解通过本专利技术的方法而执行的步骤的流程图。具体实施例方式图1是图解可以用于实现本专利技术的所述优选实施例的示例性硬件环境的方框图。在所述示例性硬件环境中,计算机100,在其它的事物中(inter alia),可以包括处理器102、存储器104(例如随机存取存储器(RAM))、输入器件106(例如键盘、鼠标指示器件、语音激活的输入器件等)、显示器件108(例如阴极射线管、液晶显示器等)以及数据存储器件110(例如硬盘、软盘和/或CD-ROM盘驱动器等)和/或数据通信器件112(例如,调制解调器、网络接口等)。可以想像,附接到计算机100的可以是其他器件,诸如只读存储器(ROM)、视频卡、总线接口、打印机等。本领域的技术人员将认识到上述部件的任何组合、或任何数量的不同部件、外围设备、和在本领域内公知的其他器件可以用于计算机100。计算机100在操作系统(OS)114的控制下操作,所述操作系统诸如OS/390(商标)、MVS(商标)、VM(商标)、OS/2(商标)、AIX(商标)、UNIX(商标)、WINDOWS(商标)、MACINTOSH(商标)等。当计算机100启动或重新启动时,操作系统114被引导入计算机100的存储器104以执行。操作系统114然后依次控制一个或多个计算机程序的执行,所述程序诸如约束检查器120。所述约束检查器使得可以从规律表达和串(string)多链二者来建立本专利技术的新颖DAG表示。一般从初始多链来获得所述串多链,初始多链是要消除模糊性和存储在串多链数据库118中的短语的通用DAG表示。所述短语可以是在数据存储器件110上的文本文件中存储的文本,并且/或者由编程人员从输入器件106交互地输入。所述规律表达被存储在规律表达数据库116中。规律表达(一般缩写为regexp或regex)是按照特定的句法规则(也称为约束)描述整组串的实体序列。这些表达被许多文本编辑器和实用程序(utility)使用来对文本体搜索特定模式,并且例如使用特定的其他串来替代所找到的串。存在一些基本类型的、需要熟悉的匹配字符匹配、重复匹配和位置匹配。规律表达因此实际上是很小的、高度专用的编程语言,使得可以指定要被匹配的可能串组的规则。规律表达频繁用于Unix操作系统和Unix类的操作系统中(Unix是Unix系统实验室的商标)。为了更多地了解规律表达,读者可以参见A.Aho、R.Sethi和J.Ullman的、ADDISON WESLEY出版的、题目为“Compilers,Principles,Techniques and Tools(编译器、原理、技术和工具)”的书。规律表达数据库116、串多链数据库118和约束检查器120由逻辑和/或数据组成,它们当被处理器102访问、解译和/或执行时使得计算机100执行实现和/或使用本专利技术所需要的步骤。一般,规律表达数据库116、串多链数据库118和约束检查器120被包含在和/或可读取自器件、载体或媒体,诸如存储器104、数据存储器件110和/或经由数据通信器件12耦接到计算机100的远程器件。因此,本专利技术可以被实现为使用用于生产软件、固件、硬件或其组合的标准编程和/或工程技术的一种方法、装置或制造品。在此使用的术语“制造品”(或“计算机程序产品”)意欲涵盖被包含在和/或可读取自任何器件、载体或媒体的逻辑和/或数据。当然,本领域的技术人员可以认识到在不脱离本专利技术的范围的情况下可以对这种配置进行许多修改。本领域的技术人员将认识到图1中图解的示例性环境不意欲限定本专利技术。事实上,本领域的技术人员将认识到可以在不脱离本专利技术的范围的情况下使用其他的替代硬件环境和程序。在参见图2之前,首先对图(Graph)、有向图和有向非循环图进行背景概述。有限状态机(FSM)或有限状态自动机(FSA)是在计算和语言的研究中使用的抽象机,它仅仅具有有限的恒定存储量(状态)。它可以被概念化为有向图。存在有限数量的状态,每个状态具有向零或多个状态的跃变。存在输入串,它确定要遵从哪个跃变。图描述了在对象之间的一组连接。每个对象被称为节点。它也可以被称为顶点。所述连接本身被称为边或弧。根节点是在树数据结构中的顶节点。可以通过根节点来访问在树中的所有数据。在一些树中,根节点具有特殊属性(诸如允许比子节点的正常数量更大或更小)。叶节点是具有零个子(child)的树的节点。经常,叶节点是距离根节点最远的节点。一些树仅本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,用于建立有向非循环图(DAG),所述有向非循环图表示施加到初始串多链的至少一个约束,所述方法包括步骤:(a)从所述至少一个约束来建立至少一个规律表达;(b)使用所述至少一个规律表达来在所述至少一个约束所 施加的所述初始串多链中寻找;(c)对于所述至少一个约束所施加之处,将所述初始串多链拆分为子多链;(d)向每个子多链施加步骤(b)和(c),直到所述至少一个约束不施加。

【技术特征摘要】
【国外来华专利技术】EP 2003-1-30 03368008.31.一种计算机实现的方法,用于建立有向非循环图(DAG),所述有向非循环图表示施加到初始串多链的至少一个约束,所述方法包括步骤(a)从所述至少一个约束来建立至少一个规律表达;(b)使用所述至少一个规律表达来在所述至少一个约束所施加的所述初始串多链中寻找;(c)对于所述至少一个约束所施加之处,将所述初始串多链拆分为子多链;(d)向每个子多链施加步骤(b)和(c),直到所述至少一个约束不施加。2.按照权利要求1的方法,还包括在步骤(c)后的步骤在所述至少一个约束不施加之处,删除所述子多链。3.按照权利要求1或2的方法,还包括在步骤(c)之后的步骤组合至少两个子多链...

【专利技术属性】
技术研发人员:克里斯琴莫塞里
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1