支持基于有限状态机的语义规则的文本分析器及其方法技术

技术编号:2911772 阅读:245 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文本分析器,包括:第一解码器,用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展,获得与每次第一路径扩展对应的词;以及第二解码器,用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展,获得与每次第二路径扩展对应的语义规则。以及本发明专利技术提供了一种文本分析方法,以及一种应用本发明专利技术分析器的短消息智能处理系统及其方法。

【技术实现步骤摘要】

本专利技术涉及自然语言处理过程,更具体地,涉及支持基于有限状态机的语义规则的文本分析器及其方法以及短消息智能处理系统及其方法。
技术介绍
自然语言处理是一个非常热门的研究领域,该领域产生了很多重要的工业应用。由于语言是用以通信的主要工具以及文化的主要载体,因此,对人类语言进行分析是非常有益和重要的。随着计算机科技的发展,逐渐可以开发出用于自动分析人类语言的工具,语言分析器正是这样一种或多或少理解语言的工具。由此非常明显的是,自然语言分析是自然语言处理的基础技术之一。性能良好的分析器可以广泛用于诸多方面,例如自然语言理解、文档分类、机器翻译等等。我们都知道,语言是世界上最复杂的系统之一,对于本地人来说,误解语句是非常正常的,更不用说是计算机了。而最重要的一点则是如何用计算机语言表述人类语言知识以及如何使计算机理解这种语言。通常,人们尝试让计算机以语言学方式来理解人类语言,或者尝试让计算机理解语句的语法结构以及词在语句中的语法作用。由此,自然语言分析器常被用于分析语句(或文档)结构和为文本标记标签,例如主语、谓语、宾语等等。例如,在英汉机器翻译系统中,使用分析器来提取英文语句中的语法元素,而系统则采用中文形式来重组这些元素。分析器的目的(或任务)是提取文本串中的特定元素,换句话说,对分析器而言,输入是文本,输出的则是结构信息,这其中包括分词、词的词性标签以及某些可被称为语义规则的高级标记。可以看到,分词是基本功能,基于分词给出词性标记,此外,基于词及其词性标签提取高级语义规则。-->对语言分析器来说,其最重要的一点是设计分析框架,这样做将会确定可处理信息的类型、处理效率以及输出性能。此外,语义规则表述模式同样是一个有影响的因素。语言分析器是一个很复杂的模块。关于分析器的现有解决方案大多数是以Chomsky的形式语言理论及其后续研究为基础的。对自然语言分析器来说,有两种因素是非常重要的,一个是语法,另一个则是分析算法。语法是关于语言的可允许结构的形式规定。随着手动注解了自身结构的语言建模文本主体(语料库)的出现,现在可以对形式语法进行归纳,以便包含精确的概率。此外,在一句话中,词之间的概率关系可以用所谓的随机语言模型而直接从语料库中推导和模拟,例如n元(n-gram),由此可以排除对于创建广义覆盖语法的需要。一般来说,分析算法提供了一个程序,该程序对用于组合语法语义规则的不同方式进行搜索,以便找出产生了用于描述输入语句结构的树图的组合方式。在没有统计语言模型的情况下,传统的分析算法使用的是图表分析模式,该模式可以采用自顶向下或自底向上模式来分析句子,随着统计语言模型的出现,可以使用维特比算法而从各种用于组合语法语义规则的方式中选择得分最高的方式。但是,现有解决方案都是以多步框架为基础的。在这种框架中,处理过程分为若干个单独步骤,前一个步骤的输出将会是下一个步骤的输入。更详细的说,系统首先尝试将文本串分成词,然后则尝试为词给出词性标签,最后则应用某些语义规则来匹配和提取语义规则。可以看出,传统的分析框架既没有将分析过程视为一个整体,也没有将这个过程视为是不可分的,这种设计降低了系统复杂度,但是由于在从一个步骤到另一个步骤的过程中丢弃某些有用的信息,因此这种设计是无法实现最佳性能的。此外,某些现有分析器只实施了某些过程步骤,例如,某些分析器并没有考虑分词子任务,并且它们是无法在没有词边界的语言中使用的,例如中文和日文。专利文献【US2006095250】给出了一种由计算机实施并用于开发分析器的方法。该方法包括:访问语句语料库,通过分析语句来产生每个句子的结构描述。该分析器是基于每个句子的结构描述来训练的。该文献仅仅用于英语之类的基于词的语言,此外,由于在词之间具有-->充当但此边界的空格字符,因此,该文献并未提供用于分词的组件。该专利技术的详细描述表明它是逐步执行词性标记、名词短语提取以及动词短语提取的。专利文献【US2003233225】提供了一种用于分析语句的方法、计算机程序产品和设备,其中包括:对某个语句进行分析,其中包括符号标记该语句中的词,并使之经过迭代式归纳处理器。该处理器至少使用第一和第二规则集合。这些规则将会缩减句子中的词的可能句法解释的范围。在穷举了第一规则集的应用之后,该程序将会移至第二语义规则集。这个程序将会在这些语义规则集之间来回迭代,直至无法进一步简化句法解释为止。此后,如有必要将会执行一个演绎性的标记合并处理。该文献提供了表示句法解释(可以看作某种语义规则)的更为复杂的框架,但是也将整个过程分割为多个单独的步骤。对当前的语言分析器来说,其主要问题如下所述。首先,整个过程分成了若干个单独的步骤,并且系统是逐一执行这些步骤的。很明显,这种设计会使分析处理非常不便。前一个步骤完成其工作并产生其输出,然后则将其输出发送到下一个步骤。由此,相邻步骤之间的通信将会受限;它们将无法共享某些有用的信息。其次,传统的框架可以确保最终的输出是所有可能性中的最优候选者。我们知道,对中文和日文这类没有词边界的语言来说,如果给出语句,那么分段结果可能有很多种;如果给出的是词,则可以有多种有效的词性候选词,以及如果给出的是词的词性类型,那么有可能存在一种以上的方式来将其与其他词相结合。传统的解析框架会将整个过程分成若干个步骤,并且每一个步骤都会独立完成其工作,由此整个解码过程将会丧失其连续性,并且前一个步骤带来的差错会使后续步骤的工作丧失意义。举例来说,如果先前的分词步骤给出的是不正确的分词,那么基于这个不正确的中间结果的所有工作都会变得毫无意义。在专利文献【US2003233225】中,虽然引用了多组规则来匹配句法解释,但是其语义规则设计并不灵活,并且它会在独立的步骤中执行字元化工作以及句法信息提取,依照先前的分析,这种处理非常低效和不合理,甚至是不恰当的。-->此外,传统的分析框架并未提供用于句法实体提取的灵活机制。现有技术中的专利文献【US2006095250】则是这样一个用于对句法实体进行拙劣处理的专利。
技术实现思路
为了解决上述问题,本专利技术提供了用于给出句法解释(可以被视为是某种语义规则)的更复杂框架。本专利技术采用了一体化分析设计方式。在这种设计中使用解码框架,以此来替换传统的单维特比组件框架。在这个框架中,其中分别为句法实体和普通词设计了两个解码组件。在分析过程中,当输入(或是从语句中读取)新字符时,这时将会使用用于词处理的解码器来产生可能的词(分词子任务)并且给出可能的POS;然后,用于句法实体提取的解码器将搜索可能的语义规则。在这个过程中,全局搜索路径将被扩展。这个过程将会随着字符输入而重复执行,换句话说,这两个解码器将会轮流负责该解码过程,并且在整体上,所有可能的路径都会延伸,由此最终结果将会是最优的。其次,为了构造双解码器,本专利技术采用了一种名为基于规则表述框架的有限状态机的语义实体框架。这种框架不但可以用于表示基于词的语义元素,而且还可以表示某些作为词和非词成分组合的实体,例如标点符号、语句边界、段落边界等等;此外,这种框架可以表述那些区间很长的语义现象。此外,其基于有限状态机的规则表述框架被设计为符合正常的词表述,并且将会允许分析器以相同方式来对其进行管理,这样将会减少系统内存和CPU本文档来自技高网
...

【技术保护点】
一种文本分析器,包括: 第一解码器,用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展,获得与每次第一路径扩展对应的词;以及 第二解码器,用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第 二路径扩展,获得与每次第二路径扩展对应的语义规则。

【技术特征摘要】
1.一种文本分析器,包括:第一解码器,用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展,获得与每次第一路径扩展对应的词;以及第二解码器,用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展,获得与每次第二路径扩展对应的语义规则。2.如权利要求1所述的文本分析器,其中:第二解码器在每次第二路径扩展结束之后,对获得的词和语义规则的序列进行排序;以及第一解码器在已经对所有的字符顺序进行了第一路径扩展之后,从第二解码器排序后的词和语义规则序列选择出所需的词和语义规则序列,作为分析结果。3.如权利要求2所述的文本分析器,其中第一解码器包括:第一路径扩展单元,用于利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展,获得与每次第一路径扩展对应的词;词记录单元,用于对获得的与每条路径对应的词进行记录;以及词和语义规则序列选取单元,用于在已经对所有的字符顺序进行了第一路径扩展之后,从第二解码器排序后的词和语义规则序列中选取合适的词和语义规则序列。4.如权利要求3所述的文本分析器,其中第一解码器还包括:词性标记单元,用于对每次第一路径扩展获得的词的词性进行标记。5.如权利要求2所述的文本分析器,其中第二解码器包括:第二路径扩展单元,用于利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展,获得与每次第二路径扩展对应的语义规则;语义规则记录单元,用于对获得的语义规则进行记录;以及词和语义规则序列排序单元,用于对获得的词和语义规则序列进行排序。6.如权利要求2所述的文本分析器,其中:第二解码器通过对词序列中的每个词序列计算词单元来对词序列进行排序。7.如权利要求1所述的文本分析器,还包括:词搜索树构造装置,包括词典排序单元,用于对词典中的词进行排序;词ID分配单元,用于为每个排序后的词分配一个唯一的词ID;以及词搜索树构造单元,用于利用排序后的词和相应的词ID构造词搜索树。8.如权利要求1所述的文本分析器,还包括:语义规则搜索树构造装置,包括语义规则排序单元,用于对语义规则进行排序;语义规则ID分配单元,用于为排序后的每个语义规则分配一个唯一的语义规则ID;以及语义规则搜索树构造单元,用于利用排序后的语义规则和相应的语义规则ID构造语义规则搜索树。9.如权利要求1所述的文本分析器,其中所述的语义规则是基于有限状态机的语义规则。10.如权利要求6所述的文本分析器,其中语义规则可以是词或者是一个嵌套的语义规则。11.如权利要求1所述的文本分析器,其中:第一解码器在对输入的文本中的所有字符依次进行了第一路径扩展之后,对所获得的词的词序列进行排序;以及第二解码器在对第一路径扩展获得的所有词依次进行第二路径扩展之后,对获得的与每次第二路径扩展对应的语义规则进行排序。12.如权利要求11所述的文本分析器,其中:第一路径扩展单元,用于利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展,获得与每次第一路径扩展对应的词;词记录单元,用于对获得的与每条路径对应的词进行记录;以及词序列排序单元,用于在已经对所有的字符依次进行了第一路径扩展之后,对获得的词的词序列进行排序。13.如权利要求11所述的文本分析器,其中第二解码器包括:第二路径扩展单元,用于利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展,获得与每次第二路径扩展对应的语...

【专利技术属性】
技术研发人员:吴根清许荔秦靳简明
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1