支持基于有限状态机的语义规则的文本分析器及其方法技术

技术编号：2911772 阅读：245 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种文本分析器，包括：第一解码器，用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展，获得与每次第一路径扩展对应的词；以及第二解码器，用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展，获得与每次第二路径扩展对应的语义规则。以及本发明专利技术提供了一种文本分析方法，以及一种应用本发明专利技术分析器的短消息智能处理系统及其方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理过程，更具体地，涉及支持基于有限状态机的语义规则的文本分析器及其方法以及短消息智能处理系统及其方法。
技术介绍
自然语言处理是一个非常热门的研究领域，该领域产生了很多重要的工业应用。由于语言是用以通信的主要工具以及文化的主要载体，因此，对人类语言进行分析是非常有益和重要的。随着计算机科技的发展，逐渐可以开发出用于自动分析人类语言的工具，语言分析器正是这样一种或多或少理解语言的工具。由此非常明显的是，自然语言分析是自然语言处理的基础技术之一。性能良好的分析器可以广泛用于诸多方面，例如自然语言理解、文档分类、机器翻译等等。我们都知道，语言是世界上最复杂的系统之一，对于本地人来说，误解语句是非常正常的，更不用说是计算机了。而最重要的一点则是如何用计算机语言表述人类语言知识以及如何使计算机理解这种语言。通常，人们尝试让计算机以语言学方式来理解人类语言，或者尝试让计算机理解语句的语法结构以及词在语句中的语法作用。由此，自然语言分析器常被用于分析语句(或文档)结构和为文本标记标签，例如主语、谓语、宾语等等。例如，在英汉机器翻译系统中，使用分析器来提取英文语句中的语法元素，而系统则采用中文形式来重组这些元素。分析器的目的(或任务)是提取文本串中的特定元素，换句话说，对分析器而言，输入是文本，输出的则是结构信息，这其中包括分词、词的词性标签以及某些可被称为语义规则的高级标记。可以看到，分词是基本功能，基于分词给出词性标记，此外，基于词及其词性标签提取高级语义规则。-->对语言分析器来说，其最重要的一点是设计分析框架，这样做将会确定可处理信息的类...

【技术保护点】
一种文本分析器，包括：　第一解码器，用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展，获得与每次第一路径扩展对应的词；以及　第二解码器，用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展，获得与每次第二路径扩展对应的语义规则。

【技术特征摘要】
1.一种文本分析器，包括：第一解码器，用于通过利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展，获得与每次第一路径扩展对应的词；以及第二解码器，用于通过利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展，获得与每次第二路径扩展对应的语义规则。2.如权利要求1所述的文本分析器，其中：第二解码器在每次第二路径扩展结束之后，对获得的词和语义规则的序列进行排序；以及第一解码器在已经对所有的字符顺序进行了第一路径扩展之后，从第二解码器排序后的词和语义规则序列选择出所需的词和语义规则序列，作为分析结果。3.如权利要求2所述的文本分析器，其中第一解码器包括：第一路径扩展单元，用于利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展，获得与每次第一路径扩展对应的词；词记录单元，用于对获得的与每条路径对应的词进行记录；以及词和语义规则序列选取单元，用于在已经对所有的字符顺序进行了第一路径扩展之后，从第二解码器排序后的词和语义规则序列中选取合适的词和语义规则序列。4.如权利要求3所述的文本分析器，其中第一解码器还包括：词性标记单元，用于对每次第一路径扩展获得的词的词性进行标记。5.如权利要求2所述的文本分析器，其中第二解码器包括：第二路径扩展单元，用于利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展，获得与每次第二路径扩展对应的语义规则；语义规则记录单元，用于对获得的语义规则进行记录；以及词和语义规则序列排序单元，用于对获得的词和语义规则序列进行排序。6.如权利要求2所述的文本分析器，其中：第二解码器通过对词序列中的每个词序列计算词单元来对词序列进行排序。7.如权利要求1所述的文本分析器，还包括：词搜索树构造装置，包括词典排序单元，用于对词典中的词进行排序；词ID分配单元，用于为每个排序后的词分配一个唯一的词ID；以及词搜索树构造单元，用于利用排序后的词和相应的词ID构造词搜索树。8.如权利要求1所述的文本分析器，还包括：语义规则搜索树构造装置，包括语义规则排序单元，用于对语义规则进行排序；语义规则ID分配单元，用于为排序后的每个语义规则分配一个唯一的语义规则ID；以及语义规则搜索树构造单元，用于利用排序后的语义规则和相应的语义规则ID构造语义规则搜索树。9.如权利要求1所述的文本分析器，其中所述的语义规则是基于有限状态机的语义规则。10.如权利要求6所述的文本分析器，其中语义规则可以是词或者是一个嵌套的语义规则。11.如权利要求1所述的文本分析器，其中：第一解码器在对输入的文本中的所有字符依次进行了第一路径扩展之后，对所获得的词的词序列进行排序；以及第二解码器在对第一路径扩展获得的所有词依次进行第二路径扩展之后，对获得的与每次第二路径扩展对应的语义规则进行排序。12.如权利要求11所述的文本分析器，其中：第一路径扩展单元，用于利用词搜索树对输入的文本中的每个字符依次进行第一路径扩展，获得与每次第一路径扩展对应的词；词记录单元，用于对获得的与每条路径对应的词进行记录；以及词序列排序单元，用于在已经对所有的字符依次进行了第一路径扩展之后，对获得的词的词序列进行排序。13.如权利要求11所述的文本分析器，其中第二解码器包括：第二路径扩展单元，用于利用语义规则搜索树对第一解码器每次进行第一路径扩展获得的词依次进行第二路径扩展，获得与每次第二路径扩展对应的语...

【专利技术属性】
技术研发人员：吴根清，许荔秦，靳简明，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人