当前位置: 首页 > 专利查询>饶志刚专利>正文

一种基于标点符号处理的汉语句法分析方法及装置制造方法及图纸

技术编号:12701169 阅读:107 留言:0更新日期:2016-01-13 20:50
本发明专利技术涉及自然语言处理技术领域,特别涉及一种基于标点符号处理的汉语句法分析方法及装置。该方法包括:研究汉语标点符号及子句的句法、形式特征,将其分层分级;依据所述特征,编写消解规则表;依据标点符号及子句的层次级别关系,将原始输入句转化为一系列标记,生成标记表;根据标记表中标记的层次和级别,进行句法分析和子树拼接,分析和拼接过程中调用消解规则。与不考虑标点符号的一遍分析方法和利用标点符号来分解长句的分析方法相比,该方法使句法分析的层次更加清晰,充分利用了标点符号的语法和语义信息,提高了句法分析的效率和准确率,而且可以非常简便清晰地解决标点符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种基于标点符号处理的汉语句法 分析方法及装置。
技术介绍
句法分析是自然语言处理的核心技术之一,是对语言进行深入理解的基础,而自 然语言理解又是机器翻译、信息抽取、语义检索等众多语言处理技术的基础。因此,句法分 析是中文信息处理的一项不可或缺的核心与基础技术。 标点符号是书面汉语的一个重要的组成部分,绝大多数现有的自动句法分析系统 都忽略了它们的作用。论文《引入标点处理的层次化汉语长句句法分析方法》(李幸,宗成 庆,中文信息学报,第20卷,第4期)指出,在英语句法分析方面,一些与标点符号相关的研 究已经开展,但对于汉语标点符号从自然语言处理角度的研究开展的很少。上引论文提出 了一种基于标点处理的层次化汉语长句句法分析方法,但该论文把标点简单地划分为"分 割标点"和"普通标点",并采用概率上下文无关方法来处理标点。这种方法对标点符号的 处理不够全面,忽略了标点符号的部分语法和语义信息,而且层次不够清晰,难以处理复杂 的标点符号的嵌套使用问题。 本专利技术根据标点符号的用法和形式特征对标点符号进行分类,用分层分级法对原 始输入句中的标点符号及标点符号分隔开来的子句赋予不同的标记,生成标记表,然后用 标记消解法进行基于标点符号处理的句法分析。所述方法以GB/T 15834-2011《标点符号 用法》为依据,在句法分析中充分利用了标点符号的语法和语义信息,使句法分析的层次更 加清晰,有助于分隔长句、确定子句的层次和边界,大大减少时间消耗和歧义边的个数,提 高句法分析的准确率和召回率。同时,该方法可以非常简便清晰地解决标点符号的嵌套使 用问题,而不用穷举所有的标点符号组合用法。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。 本申请的目的是为了克服现有汉语句法分析方法对标点符号处理的不足,提供 一种新的基于标点符号处理的汉语句法分析方法及工具。 为实现上述目的,根据本申请所提供的一种实施例,提供了一种基于标点符号处 理的汉语句法分析方法,该方法基于以下思想: 根据上述国标对汉语标点符号用法的说明,标点符号是有层次而且可以被分层分级 的,其依据是标点符号停顿时间的长短、分割句子的能力和语义(例如语气、特殊含义、补充 说明等)等方面的信息。相应地,被标点符号分隔开来的子句也可以被分层分级,这将为句 法分析提供极大的便利。 上述思想为从句法分析角度研究标点符号提供了理论基础,本申请提供的一种基 于标点符号处理的汉语句法分析方法包括标记阶段和消解阶段,标记阶段采用的方法为分 层分级法,消解阶段采用的方法为标记消解法。 本申请提供的分层分级法根据原始输入句中标点符号和标点符号分隔开来的子 句的层次和级别,生成一系列标记,最终输出标记表。所述标记表中标记的层次和级别,决 定了标点符号及其子句的处理次序和方法。 在充分获取标点符号提供的语法和语义信息的基础上,本申请提供了标记消解法 来进行句法分析。所述标记消解法,是指按层次和级别提取标记表中的标记,进入子句句法 分析程序和子树拼接程序,分析和拼接过程中调用消解规则,最后生成完整句法树作为句 法分析结果。 相应地,提供了一种基于标点符号处理的汉语句法分析装置,主要包括分层分级 装置、标记消解装置、句法分析装置和子树拼接装置。分层分级装置的运行原理即所述分层 分级法,标记消解装置的运行原理即所述标记消解法。 本专利技术的有益效果是,所述分层分级法生成的标记的级别就充分说明了句法分析 过程中已经做过的处理程序和有待进行的处理程序,而且所述标记中的信息比较全面,使 标点符号的处理层次分明,简单有效;标记消解法与不考虑标点符号的一遍分析方法和仅 利用标点符号来分割长句的分析方法相比的优点主要在于:第一,句法分析的层次更加清 晰,有利于分割句子,减少进入句法分析程序的子句的长度;第二,充分利用了标点符号提 供的语法和语义信息,包括被标点符号分隔开来的子句的类型信息,大大减少了时间消耗 和歧义边的个数,提高了句法分析的准确率和召回率;第三,可以非常简便清晰地解决标点 符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。【附图说明】 参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其 它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图 标记来表示。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一 部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。显而易 见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来 讲,还可以根据这些附图获得其他的附图。 图1是能够用于实现本申请的实施例的基于标点符号处理的汉语句法分析装置 结构图。 图2是本申请的基于标点符号处理的汉语句法分析方法的一种实施方式的流程 图。 图3是根据一种实施方式的分层分级法的流程图。 图4是根据一种实施方式的标记消解法的流程图。【具体实施方式】 在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与句法分析方法相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而 有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公 开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中 仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术 关系不大的其他细节。 如图1所示,是本专利技术技术方案中所涉及的基于标点符号处理的汉语句法分析装 置,分层分级装置(102)与标记消解装置(104)串联,标记消解装置(104)包含句法分析 装置(105)和子树拼接装置(106),句法分析装置(105)与子树拼接装置(106)串联,句法 分析装置(105)和子树拼接装置(106)在运行过程中调用消解规则表(107),分层分级装 置(102)的输入为原始输入句(101),输出为标记表(103),整个系统的输出为完整句法树 (108)〇 分层分级装置,其功能在于将原始输入句中的标点符号和标点符号分隔开来的子 句,划分为不同的层次和级别,生成标记表。所述装置采用的方法,就是上述的分层分级法。 分层分级法根据上述国标中对汉语标点符号用法的说明,在进行句法分析前,对句子进行 语法上的处理和语义上的处理。所述语法上的处理指根据标点符号将句子分割为语块、半 语块和/或非语块,并标明层次和级别,所述语义上的处理指标点符号本身所具有的语义 信息要在句法分析结果中标记,留待语义分析阶段处理。例如:引号表引用、着重、特殊含 义,书名号表示各种作品的名称本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105243056.html" title="一种基于标点符号处理的汉语句法分析方法及装置原文来自X技术">基于标点符号处理的汉语句法分析方法及装置</a>

【技术保护点】
一种基于标点符号处理的汉语句法分析方法,其特征在于该方法包括标记阶段和消解阶段,其中,标记阶段:a)研究汉语标点符号的用法和形式特征,以及被标点符号分隔开来的子句的句法特征,将其分层分级;b)依据a)所述标点符号及子句的特征,编写消解规则,生成消解规则表;c)依据a)所述标点符号及子句的层次级别关系,将原始输入句转化为一系列标记,生成标记表;消解阶段:aa)搜索所述标记表,看是否有语段级(即‑1级)标记;bb)如果没有上述语段级标记,则进入普通消解程序,按层级提取标记进行消解;cc)如果有上述语段级标记,则进入特殊消解程序,消解完成后转步骤aa);dd)判断标记表是否为空,如果为空则输出整个句子的完整句法树,否则转步骤bb);ee)上述过程中,有任何一个应该被分析为完整子树的子句没有生成完整子树,则句法分析失败。

【技术特征摘要】

【专利技术属性】
技术研发人员:饶志刚
申请(专利权)人:饶志刚
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1