当前位置: 首页 > 专利查询>石仓博专利>正文

语言分析系统及方法技术方案

技术编号:2847990 阅读:130 留言:0更新日期:2012-04-11 18:40
提供一种正确地进行语言分析的系统。将被赋与的文分割为语素,决定词类。对于不能确定为一个词类的语素,由前后的语素来决定。对于谓语,利用接尾词等进行属性的分析。接着对功能和词类进行匹配。并进行局部的结构的分析和功能的决定。其后通过从属句的抽出及句型分析等进行整体结构的分析。当需要对局部的结构修正时,通过整体的结构分析来进行修正。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及能用于机械翻译等的语言分析系统及其方法。
技术介绍
在以往,人们对用计算机翻译自然语言的机械翻译进行了研究。其中的一部分已被实际应用。在进行机械翻译时,首先分析原来的语言。其后翻译成别的语言。因此语言分析是进行机械翻译的重要步骤。对语言分析的正确性决定了翻译的正确性。语言分析不但用于机械翻译,有也能用于其他一般的语言处理。在现有的语言分析中,一个词汇有2个以上的词类时,很难正确地将其确定。例如有特开平4-305769号公报的方法。在该公报中公开了一种操作者选择词类的方法,即需要操作者来完成。在该方法中计算机不能确定词类。另外还有特开平5-290081号公报的方法。在这里公开了对文书的对象的每个领域存储词类的使用频率,提高词类确定的正确性的方法,但是在这种方法中,辞典的管理很难,在提高正确性上也有一定的局限性。关于文章的结构分析有特开昭62-262177号公报的方法。在这里公开了从分析对象中抽出插入句的分析方法。在该方法中,必须记住每一个作为插入句的具体的用例,因此实现起来很困难。还有特开昭64-17152号公报的方法,在该方法中用意义号码分析文章的结构。但是需要使用特殊的意义号码,使系统变得复杂。且不能唯一地决定结构。人们希望实现多种语言间的翻译系统。例如在美国专利5426583号中,公开了使用人工国际语的系统。但是没有公开实现系统的具体内容。而且没有与系统相关连解决问题的方案。
技术实现思路
本专利技术提供一种系统解决上述问题的语言分析系统,提供一种分别解决各个问题的系统。以下解释用于说明本专利技术的用语的概念。“语言”是文书和文本等的书面语言和口头语言等自然语言的意思。“用于实行计算机的程序”本概念包括变换后执行的情况和与其它的模块组合而执行的情况。下面说明本专利技术的语言分析系统及语言分析方法。将被提供的语言分割为语素(token),同时对各语素从辞典中得到词类。当一个语素具有2个以上的词类时,以位于该语素的前面或后面或双方的1个或多个语素的词类为基础。并从2个以上的词类中选择一个词类。当语素的词类为谓语的词根时,根据谓语的接尾词决定谓语的语法的属性。根据具有一定功能的语素和未赋予一定功能的语素的词类决定未赋予功能的语素的功能。同时,将决定功能时使用的语素和被决定功能的语素相关联(部分分析)。分别提取出语言中的主要词句和从属词句。根据“主语ガ”、“主语は”、“谓语”的出现位置和次数对主要词句和从属词句进行文章结构上的关连(整体分析)。当产生了部分的分析错误时,修正该部分的分析。因此可以正确地确定词类。同时可将这些语素与语素结合。根据词类分析功能(部分分析)。接着在分析文章句型(整体分析)后修正部分的分析。因此可以正确地分析文章的结构和功能。在该语言分析系统和语言分析方法中分别提取出主要词句和从属词句。然后进行句型分析,因此可以容易且正确地分析句型。在本专利技术的语言分析系统及语言分析方法中,将部分分析和整体的分析分离。因此处理变得简明,分析精度得到了提高。在本专利技术的语言分析系统中,进行完部分分析后进行整体的分析,并由整体分析的结果修正部分分析,即使是复杂的文章也能正确地分析。附图说明图1表示本专利技术的基本的概念。图2A~2D表示分析语言后的状态。图3A、图3B是翻译及网络通信中使用的概念图。图4是语言分析系统的整体的结构。图5表示使用CPU的硬件的结构。图6表示词类的分类。图7是表示文章的分割、词类的取得及属性分析的流程图。图8是表示词类辞典的例子。图9A、图9B表示分析文件的内容。图10是表示词类的选择处理程序的流程图。图11是规则表B(45)。图12A、图12B表示分析文件的内容。图13表示规则表B(43)。图14表示规则表B(44)。图15表示规则表B(1)。图16表示规则表B(2)。图17A、17B表示分析文件的内容。图18是表示接尾词的分析处理的流程图。图19是表示接尾词的分析处理的流程图。图20表示动词词根后续接尾词的表(表D)。图21表示动词接尾词的表。图22表示作为接尾词处理动词的惯用词的表。图23表示复合动词的表。图24表示谓语形容词的接尾词的表。图25表示规则表B(6)。图26是相同的词类继续时说明执行的处理的图。图27A表示属性缓冲器的保持内容的例子,图27B表示分析文件的“ます”的属性。图28A、28B表示分析文件中存储的“い”、“かつた”的属性。图29A、29B表示分析文件中存储的“くな”、“ます”的属性。图30A~30F是对从属文处理的说明图。图31A~31C是对从属文处理的说明图。图32是表示文章的结构和功能的分析的流程图。图33是表示对部分功能的分析的流程图。图34是标题等特殊处理的流程图。图35是体言的特殊处理的流程图。图36是表示次功能的预测的流程图。图37是表示次句型分析的流程图。图38是不以从属文为对象的流程图。图39是读点大于2个时作为对象外的流程图。图40是读点为一个时的流程图。图41是表示从属文的处理的流程图。图42是表示从属文的处理的流程图。图43是表示标题等的文型分析的前处理的流程图。图44是表示键部分的处理的流程图。图45是表示读点在2个以上的情况的提取处理的流程图。图46是表示读点在1个时的情况的提取处理的流程图。图47A、47B是表示关于文章结构的分析和功能的分析的进行状况的图。图48A、48B是表示关于文章结构的分析和功能的分析的进行状况的图。图49是表示T间隔的预测表的图。图50是主语的预测表的图。图51是主语的预测表的图。图52是表示副词修饰语句的预测表的图。图53是表示谓语的预测表的图。图54是表示句型表的图。图55是表示句型表的图。图56A、图56B是表示关于例文的结构和功能的分析的进行状况的图。图57是将文章结构的分析的进行状况用树结构表示的图。图58A~图58C是将文章结构的分析的进行状况用树结构表示的图。图59是表示分析其它的例文的次功能的结果图。图60是表示用树结构表示例文分析的进行状况的图。图61A~61C是表示用树结构表示例文分析的进行状况的图。图62A、62B是表示用树结构表示例文分析的进行状况的图。图63A、63B是表示用树结构表示例文分析的进行状况的图。图65是表示文章的结构以外的分析结果的图。图66是表示文章的结构以外的分析结果的图。图67是表示文章的结构和功能的分析的其它实施形态的流程图。图68是表示文章的结构和功能的分析的流程图。图69是表示文章的结构和功能的分析的流程图。图70是表示文章的结构和功能的分析的流程图。图71是表示文章的结构和功能的分析的流程图。图72是部分的功能的分析流程图。图73标题等的特殊处理的流程图。图74是体言的特殊处理的流程图。图75是次功能的预测的流程图。图76是句型分析的流程图。图77是处理从属文的流程图。图78是处理主要词句的流程图。图79是对标题和句型分析进行前处理的流程图。图80是处理注目的明确的谓语的流程图。图81是处理注目的明确的谓语的流程图。图82是处理注目的明确的谓语的流程图。图83是处理预定的连接的流程图。图84是处理预定的连接的流程图。图85是处理预定的连接的流程图。图86是处理预定的连接的流程图。图87是处理预定的连接的流程图。图88是处理预定的连接的本文档来自技高网...

【技术保护点】
一种语言分析装置,对所给定的语言进行分析,其特征在于具有:抽出语言中的主句和从句各一个,并确认与其他部分之间关系的从句抽出装置;对通过从句抽出装置而抽出的主句和从句,根据“主格が”、“主格は”、谓语的出现位置及次数实施对句子 结构关系进行分析的句型分析装置,上述从句抽出装置包含把从“逗号”开始到后边最近的“其后不再伴有谓语的谓语”之间的部分作为从句抽出的装置。

【技术特征摘要】
JP 1997-3-4 1997-486731.一种语言分析装置,对所给定的语言进行分析,其特征在于具有抽出语言中的主句和从句各一个,并确认与其他部分之间关系的从句抽出装置;对通过从句抽出装置而抽出的主句和从句,根据“主格が”、“主格は”、谓语的出现位置及次数实施对句子结构关系进行分析的句型分析装置,上述从句抽出装置包含把从“逗号”开始到后边最近的“其后不再伴有谓语的谓语”之间的部分作...

【专利技术属性】
技术研发人员:石仓博
申请(专利权)人:石仓博
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1