当前位置: 首页 > 专利查询>微软公司专利>正文

中文组块分析的方法及系统技术方案

技术编号:2918031 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种中文组块分析的方法,能在相对较小的训练数据的基础上得到较精确的中文组块分析的结果,该中文组块分析方法利用了词的形态特征以及词的基于概率分布的相似性特征来作为标记模型的辅助的信息特征,以提高组块分析的准确度。该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。

【技术实现步骤摘要】

本专利技术涉及计算机辅助的浅层句法分析领域,更具体地说,涉及一种中文组块分析的方法及系统
技术介绍
利用计算机辅助进行语言的转换和分析,已经越来越成为一个重要的课题。计算机的高速度、高准确率和持续工作的能力能够很好地帮助人们从复杂繁重的语言转换及分析工作中解脱出来。但是,语言,特别是人们日常生活中使用的自然语言有其独特的组合方式。每一种语言都有自己的语法规范以及习惯性的短语,语法、短语、词组和单词的结合才是真正的自然语言。然而,对于计算机来说,实现单词、甚至是短词组的转换和分析是相对简单的,并且已经被实现并得到广泛的应用。但是,当分析短语和句子时,就会产生很多的问题。在一个短语或者是句子中,单个的词组会充当不同的成分,并且,几个词组会互相结合构成短语,词组、短语按照语法规则组合形成句子。这时,短语和句子所要表达的意思和简单地单个词组含义的叠加是完全不同的。这就给计算机辅助的语言分析及转换工作带来了困难。由于无法对短语、句子这些复杂语言结构进行有效的识别和理解,计算机往往会根据单个词汇的含义去解释一个句子,从而使得计算机理解的含义与自然语言中句子的本意差距巨大。为了解决这个问题,句法分析的技术被提出。句法分析技术包括两种,一种是全句法分析(Full parsing),另一种是浅层句法分析(Shallowparsing)。全句法分析的目的在于完整地解析一个语句,就好比是人在理解一个句子一样,能够分析出一个语句的句子成分、语法结构。很遗憾的是,虽然目前在全句法分析中进行了大量的研究,但是全句法分析算法复杂,运行速度缓慢、需要使用大量的资源,并且,分析结果的正确率十分-->低。因此,目前全局法分析上不具备实际应用的前景。相比较而言,浅层句法分析是一种简单有效的语言分析方法,其能快速有效地从自然语言的语句中提取出语法信息,借助于这些提取的语法信息,进行语言的组块分析。浅层句法分析并不需要对句子的成分、语法进行分析,只是获取一些与语法、尤其是短语和词组有关的信息。语言组块分析(chunking)技术是浅层语法分析中常用的技术。语言组块技术能根据预定的模型将句子分解为组分,这些组分主要是短语以及较长的词组,从而使得计算机对于句子的理解可以从单个字、词的层面上升到信息量更大的短语、词组,更加接近自然语言。为了之后处理的方便,以及提供可能的其他扩展应用,语言组块分析技术会将一个句子(输入语句序列)转换成一个标记串,也就是说,为句子中的每一个词都赋予一个或着几个标记,这些标记表明了这个词应该属于句子中的哪一个组块。在之前的研究中,大多数的语言组块分析技术是针对英语,随着中文系统的开发以及中文在计算机上使用的普及,对于中文也需要组块分析的技术。由于中文的字、词组、短语、语法与英语完全不同,因此针对英语开发的语言组块分析技术根本无法应用到中文上。针对中文系统,必须重新开发适合中文的中文组块分析技术。随着中文句法树库的出现,使得中文的句法、短语有了一个有组织的分类,也给中文组块分析技术的开发提供了有利的帮助。目前,最新的中文句法树库是CTB(Chinese Treebank)5.0,本专利技术的示例性描述都将以CTB 5.0为例进行说明。对于计算机辅助的语言分析技术来说,无论是英语组块分析还是中文组块分析,其所面临的最大问题就是训练数据量相对不足。计算机辅助的语言分析技术是一种基于统计和概率的分析技术,通过对已知数据(训练)的分析,得到一个能够反映该种语言的模型,之后,在使用时,用该模型来对未知的数据(应用数据)进行分析。组块分析的质量与组块分析的准确度直接相关,而该准确度很大程度上与得到的模型有关。训练数据的量越大,越能得到好的模型。但是,在实际的应用中,理想数量的训练数据-->几乎是不可能得到的,尤其对于中文这种复杂的语言来说,理想数量的训练数据数据量巨大,根本无法在实际应用中实现。为了能从数量有限的训练书中得到将可能好的模型(对于语言组块分析而言,就是得到最能够反映所输入的语句序列的标记序列),已经进行了很多的探索。这些探索的重点都在于如何找到一种好的标记模型。通常,标记模型会利用到下面的这些特征:词特征、部分语境(POS)特征、结合词与部分语境的特征。其中最常用的是基于部分语境(POS)的特征和结合词与部分语境的特征。但是,实验的结果表明,即使目前是数据量最丰富的中文句法树库CTB5.0,其数据量对于获得精确的中文分组模型、以及精确的部分语境(POS)标记来说都是不够的。当训练数据量不足时,中文的部分语境(POS)标记会显示出明显的弱点,错误的中文部分语境(POS)标记会从这些训练数据中产生,并为中文组块分析模型所利用。使用不正确的中文部分语境(POS)标记的中文组块分析模型会带来意想不到的错误结果,使得中文组块分析的整体性能严重下降。在不使用POS标记的完全基于词的特征的组块分析模型中,由于POS错误而带来的性能的下降会被减轻,但是中文句法树库CTB 5.0对于这种组块分析模型来说训练数据量依然是不足的,所以完全基于词的特征的组块分析模型也面临训练数据量不足的问题。于是,如何能在相对较少的训练数据的基础上得到比较精确的中文组块分析的结果,是本领域内重点研究的一个问题。
技术实现思路
本专利技术提供一种中文组块分析的方法,能在相对较小的训练数据的基础上得到较精确的中文组块分析的结果,该中文组块分析方法利用了词的形态特征以及词的基于概率分布的相似性特征来作为标记模型的辅助的信息特征,以提高组块分析的准确度。在一个实施例中,利用了词的长度。在一个实施例中,利用了词的词缀。在一个实施例中,利用了基于概率分布的相似性,该基于概率分布的-->相似性表示了一词w与一组预定类别c之间的相似程度、一词w与一组预定词的相似程度、以及一词w的周围词与一组预定词的相似程度。在另一个实施例中,利用了上述写特征的组合。在一个实施例中,一中文组块分析的方法被实现如下:定义组块类别;使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:基本信息特征、附加信息特征;使用训练数据对上述的标记模型进行训练;使用经过训练的标记模型对输入的中文语句进行组块分析。在一个实施例中,基本信息特征包括:基于词的特征、基于部分语境POS的特征、基于词与部分语境POS的组合的特征的其中之一。附加信息特征包括:由一词长度确定装置提供的词的长度的特征、由一词缀确定装置提供的词的词缀的特征、由一基于概率分布的相似性确定装置提供的词的基于概率分布的相似性的特征的其中之一或者是它们的组合。本专利技术还提供一种能实现上述的中文组块分析的系统。该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。附图说明本专利技术的上述的以及其他的特征、性质和优势将通过下面结合附图对实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:图1是可实现本专利技术的适当的计算系统环境的一示例;图2a示出了根据本专利技术的一实施例的中文组块分析方法的流程图;图2b-图2e示出了图2a所示的实施例的变化例;图3a示出了根据本专利技术的一实施例的中文组块分析系统的结构图。图3b-图3f示出了图3a所示的实施例的变化例。具体实施方式适当的实现本文档来自技高网
...
中文组块分析的方法及系统

【技术保护点】
一种中文组块分析的方法,基于预定的标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一: 词的形态特征; 基于概率分布的相似性特征。

【技术特征摘要】
1.一种中文组块分析的方法,基于预定的标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:词的形态特征;基于概率分布的相似性特征。2.如权利要求1所述的中文组块分析的方法,其特征在于,该形态特征包括词的长度。3.如权利要求1所述的中文组块分析的方法,其特征在于,该形态特征包括词的词缀。4.如权利要求3所述的中文组块分析的方法,其特征在于,该词缀包括动词或者名词构成的前缀或者后缀。5.如权利要求1所述的中文组块分析的方法,其特征在于,该基于概率分布的相似性特征表示:一词w与一组预定类别c之间的相似程度;一词w与一组预定词的相似程度;一词w的周围词与一组预定词的相似程度。6.如权利要求5所述的中文组块分析的方法,其特征在于,该一词w与一组预定类别c之间的相似程度通过下述的方式获得:sim(w,c)=tf(c)·tf(w)||tf(c)||||tf(w)||]]>其中,sim(w,c)表示词w与预定类别c之间的相似程度;tf(w)是该词w基于术语频率的特征向量;tf(c)是该预定类别c基于术语频率的特征向量,tf(c)通过下述的方式而被构建,使用一虚拟词pwc替换属于预定类别c的所有词,并基于该虚拟词pwc构建该预定类别c基于术语频率的特征向量tf(c)。7.如权利要求6所述的中文组块分析的方法,其特征在于,根据相似的程度,为每一个词w选择最相似的3个类别c。8.如权利要求7所述的中文组块分析的方法,其特征在于,所述预定类别c包括:名词短语NP的中心词np、动词短语VP的中心词vp、介词短语PP的中心词pp、复杂位置短语LCP的中心词lcp、度量词qpm、形容词短语ADJP的中心词adjp、副词短语ADVP的中心词advp、简单代词短语DP的中心词dp。9.如权利要求1所述的中文组块分析的方法,其特征在于,包括:定义组块类别;使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:基本信息特征;附加信息特征;使用训练数据对上述的标记模型进行训练;使用经过训练的标记模型对输入的中文语句进行组块分析。10.如权利要求9所述的中文组块分析的方法,其特征在于,所述基本信息特征是选自下列的其中之一:基于词的特征;基于部分语境POS的特征;基于词与部分语境POS的组合的特征。11.如权利要求10所述的中文组块分析的方法,其特征在于,所述附加信息特征是选自下列的其中之一或者它们的组合:基于词的长度的特征;基于词的词缀的特征;基于概率分布的相似性的特征。12.如权利要求9所述的中文组块分析的方法,其特征在于,该条件随机场CRF标记模型中:对于一给定的中文语句输入序列x=(x1,x2,...,xn)以及一可能的标记串y=(y1,y2,...,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:pλ(Y|X)=exp(λ·F(Y,X))Zλ(X)]]>F(Y,X)=Σi=1nfj(yi-1,yi,x,i)]]>Zλ=Σyexp(λ·F(y,x))]]>其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:y^=argmaxypλ(y|x)=argmaxy(exp(λ·F(y,x)).]]>13.一种中文组块分析的系统,包括一预定的标记模型,该标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:词的形态特征;基于概率分布的相似性特征。14.如...

【专利技术属性】
技术研发人员:李沐黄昌宁
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1