【技术实现步骤摘要】
本专利技术涉及计算机辅助的浅层句法分析领域,更具体地说,涉及一种中文组块分析的方法及系统。
技术介绍
利用计算机辅助进行语言的转换和分析,已经越来越成为一个重要的课题。计算机的高速度、高准确率和持续工作的能力能够很好地帮助人们从复杂繁重的语言转换及分析工作中解脱出来。但是,语言,特别是人们日常生活中使用的自然语言有其独特的组合方式。每一种语言都有自己的语法规范以及习惯性的短语,语法、短语、词组和单词的结合才是真正的自然语言。然而,对于计算机来说,实现单词、甚至是短词组的转换和分析是相对简单的,并且已经被实现并得到广泛的应用。但是,当分析短语和句子时,就会产生很多的问题。在一个短语或者是句子中,单个的词组会充当不同的成分,并且,几个词组会互相结合构成短语,词组、短语按照语法规则组合形成句子。这时,短语和句子所要表达的意思和简单地单个词组含义的叠加是完全不同的。这就给计算机辅助的语言分析及转换工作带来了困难。由于无法对短语、句子这些复杂语言结构进行有效的识别和理解,计算机往往会根据单个词汇的含义去解释一个句子,从而使得计算机理解的含义与自然语言中句子的本意差距巨大。为了解决这个问题,句法分析的技术被提出。句法分析技术包括两种,一种是全句法分析(Full parsing),另一种是浅层句法分析(Shallowparsing)。全句法分析的目的在于完整地解析一个语句,就好比是人在理解一个句子一样,能够分析出一个语句的句子成分、语法结构。很遗憾的是,虽然目前在全句法分析中进行了大量的研究,但是全句法分析算法复杂,运行速度缓慢、需要使用大量的资源,并且,分析结果的正 ...
【技术保护点】
一种中文组块分析的方法,基于预定的标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一: 词的形态特征; 基于概率分布的相似性特征。
【技术特征摘要】
1.一种中文组块分析的方法,基于预定的标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:词的形态特征;基于概率分布的相似性特征。2.如权利要求1所述的中文组块分析的方法,其特征在于,该形态特征包括词的长度。3.如权利要求1所述的中文组块分析的方法,其特征在于,该形态特征包括词的词缀。4.如权利要求3所述的中文组块分析的方法,其特征在于,该词缀包括动词或者名词构成的前缀或者后缀。5.如权利要求1所述的中文组块分析的方法,其特征在于,该基于概率分布的相似性特征表示:一词w与一组预定类别c之间的相似程度;一词w与一组预定词的相似程度;一词w的周围词与一组预定词的相似程度。6.如权利要求5所述的中文组块分析的方法,其特征在于,该一词w与一组预定类别c之间的相似程度通过下述的方式获得:sim(w,c)=tf(c)·tf(w)||tf(c)||||tf(w)||]]>其中,sim(w,c)表示词w与预定类别c之间的相似程度;tf(w)是该词w基于术语频率的特征向量;tf(c)是该预定类别c基于术语频率的特征向量,tf(c)通过下述的方式而被构建,使用一虚拟词pwc替换属于预定类别c的所有词,并基于该虚拟词pwc构建该预定类别c基于术语频率的特征向量tf(c)。7.如权利要求6所述的中文组块分析的方法,其特征在于,根据相似的程度,为每一个词w选择最相似的3个类别c。8.如权利要求7所述的中文组块分析的方法,其特征在于,所述预定类别c包括:名词短语NP的中心词np、动词短语VP的中心词vp、介词短语PP的中心词pp、复杂位置短语LCP的中心词lcp、度量词qpm、形容词短语ADJP的中心词adjp、副词短语ADVP的中心词advp、简单代词短语DP的中心词dp。9.如权利要求1所述的中文组块分析的方法,其特征在于,包括:定义组块类别;使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:基本信息特征;附加信息特征;使用训练数据对上述的标记模型进行训练;使用经过训练的标记模型对输入的中文语句进行组块分析。10.如权利要求9所述的中文组块分析的方法,其特征在于,所述基本信息特征是选自下列的其中之一:基于词的特征;基于部分语境POS的特征;基于词与部分语境POS的组合的特征。11.如权利要求10所述的中文组块分析的方法,其特征在于,所述附加信息特征是选自下列的其中之一或者它们的组合:基于词的长度的特征;基于词的词缀的特征;基于概率分布的相似性的特征。12.如权利要求9所述的中文组块分析的方法,其特征在于,该条件随机场CRF标记模型中:对于一给定的中文语句输入序列x=(x1,x2,...,xn)以及一可能的标记串y=(y1,y2,...,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:pλ(Y|X)=exp(λ·F(Y,X))Zλ(X)]]>F(Y,X)=Σi=1nfj(yi-1,yi,x,i)]]>Zλ=Σyexp(λ·F(y,x))]]>其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:y^=argmaxypλ(y|x)=argmaxy(exp(λ·F(y,x)).]]>13.一种中文组块分析的系统,包括一预定的标记模型,该标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:词的形态特征;基于概率分布的相似性特征。14.如...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。