汉语语义活性识别法制造技术

技术编号:10301327 阅读:161 留言:0更新日期:2014-08-07 07:38
一种汉语语义识别方法,属于计算机科学与自然语言处理(NLP)技术领域,包括活性识别系统和语义分析识别步骤。根据语言活性特征,首先,识别语句的活字(块)和非活字(块)。其次,识别标注字(块)活性形态,初步识别动态、静态、情态、联态或生态活字(块)。从而,运用活性算法比较分析相邻活字(块)的活性字级,转态匹配消歧,识别谓活字(块)及子谓活字(块)。然后,进行字块联结语义分析,识别语义活性模式。最后,识别非活字(块)辅助语义,精确识别相邻或相含语句语义。本发明专利技术以识别活字为手段,以语言活性为特征,线性分析处理语言,实现计算机识别语义,与现有技术相比,可以改善计算机处理歧义消除(WSD),提高语义识别信息处理效果。

【技术实现步骤摘要】
汉语语义活性识别法1.
本专利技术属于计算机科学应用及自然语言处理NLP(NaturalLangugeProcessing)
,涉及下一代数据信息处理技术。2.
技术介绍
2.1汉语自然语言信息处理现状自然语言处理是一门新兴的计算机科学应用技术,其应用领域越来越广。自然语言处理有二条技术途径:概率统计处理方法和语义分析处理方法。前者为数据技术,目前曰臻完善;后者为字据技术,目前进展缓慢。统计的方法,基于语料进行概率计算推测语义,能够算出语言符号的表达,但难以算出语言表达的意义,概率计算只能是有限语料语言的″数据”运算,统计方法理解语义具有自身固有的缺陷。语义分析方法,按照语言的规律及特征分析语义,在理论方法上是“字据”的运算,能够在技术上识别理解语义。汉语自然语言处理的语义分析方法,大致有两类:一类是词汇语义分析法,包括语义场、义素分析法、配价法、语义框架法、构式语法论、概念整合法等。另一类是句法语义分析法,包括格语法、论旨法、概念依存法、语义网格法、蒙太格法等。这些语义分析方法目前还在初步探索阶段,在汉语自然语言理解的语义处理中解决了部分技术问题,但都不同程度地存在缺陷,而语义分析对于高性能的汉语自然语言处理又是必不可少的技术,这制约着汉语自然语言信息处理的科学应用发展。2.2.汉语自然语言处理存在的技术问题2.2.1.目前词汇语义分析法存在的问题词性(PartofSpeech)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的基础性工作。汉语词性标注同样面临许多棘手的问题,其主要难点可以归纳为如下三个方面(刘开瑛,2000):2.2.1.1汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。2.2.1.2常用词兼类现象严重,由于兼类使用的程度高,兼类现象纷繁,覆盖面广,涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量大,而且面广,复杂多样。2.2.1.3.研究者主观原因造成的困难。语言学家在词性划分的目的、标准等问题上,还存在分歧。与汉语分词规范类似,到目前为止,还没有一个统一的,被广泛认可的汉语词类划分标准,词类划分的粒度和标记符号都不统一。词类划分标准和标记符号集的差异,以及分词规范的含糊性,给自动分词等中文信息处理带来了极大的困难。一方面,各研究单位各执己见,重复进行大量的低水平劳动,另一方面,大量的标注语料得不到充分利用和共享,从而造成了极大的人力、物力和资源的浪费。(宗成庆《统计自然语言处理》第2版164页)一些自然语言机器翻译专家干脆认为不需要汉语词类的划分。(董振东2009)总之,汉语词汇语义分析存在形态性、兼类性、标准性等缺陷。2.2.2目前句法语义分析规则分析方法也存在一些缺陷2.2.2.1.对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,分析过程的复杂性,往往使程序无法实现;2.2.2.2.即使能够分析出句子所有可能的结构,也难以在巨大的句法分析结果集合中实现有效的消歧,并选择出最有可能的分析结果;2.2.2.3.手工编写的规则一般带有一定的主观性,对于实际应用系统来说,往往难以覆盖大领域的所有复杂语言;2.2.2.4.手工编写规则本身是一件大工作量的复杂劳动,而且编写的规则对特定的领域有密切的相关性,不利于句法分析系统向其他领域移植。(宗成庆《统计自然语言处理》第2版181页)总之,汉语的句法分析存在复杂性、歧义性、主观性、移植性等缺陷。一般来说,一个自然语言处理系统,如果完全没有语义分析的参与,能够获得很好的系统性能是不可想象的。然而,自然语言的语义计算问题十分困难,如何模拟人脑思维的过程,建立语言、知识与客观世界之间可计算的逻辑关系,并实现具有高区分能力的语义计算模型,至今仍是个未能解决的难题。(宗成庆《统计自然语言处理》第2版244页)2.3.语义分析自然语言处理的技术困难2.3.1汉语规则的语法体系有争议不健全汉语规则一般有三种结构:词组类型结构PT(PhraseType)、句法功能结构SF(SyntaxFunction)和逻辑语义结构LS(LogicalSemantics)。尽管一些有远见卓识的前辈学者,已初步涉及这三种结构之间的某些复杂关系,摆出了许多有趣的语言事实,但是,不少人往往把这种极为复杂的关系简单化,在″汉语词类问题″的讨论中,就有人把语言成分的PT-结构与SF-结构混为一谈,不知道同一PT-结构中的成分,可以在SF-结构中具有不同的句法功能,结果,得出”汉语无词类”的结论。在”汉语主宾语问题”的讨论中,又有人则把语言成分的SF-结构与LS-结构混为一谈,不知道同一个SF-结构中的成分,在LS-结构中可以具有不同的逻辑语义关系,结果,他们根据逻辑语义关系来确定主语、宾语等句法功能成分,把″施事者″一律定为″主语″,把″受事者″一律定为″宾语″,不惜削足适履,因果倒置,弄得汉语语法体系犹如一团乱麻,令人望而生畏。这种语法所研究得出的种种″语法规律″,尤其不适合于在汉语的信息处理工作中使用。(冯志伟2012《自然语言处理简明教程》324页)2.3.2语义格语法描写汉语的局限性,格框架描述汉语有困难汉语词与词之间的语义关系(格关系),有多少种语义关系以及名称,是个不确定的无限集,给自然语言的线性处理带来巨大困难。语义关系的名称,目前汉语语法学界还没有统一的说法,少的十几种,多的达到六七十种,有的还有分层格。各家经常提到的语义关系有施事、受事、与事等。2.3.3概念依存理论CD(ConceptualDependencyTheory)有动作基元、剧本、计划三部分组成,该方法进行汉语语义分析有缺陷,怱略了语言的细节一些不可描述的东西,用有限的集合来表示无限的动作,本身就是缺陷。2.3.4自然语言句子中存在大量的歧义,涉及指代、同义/多义、量词的辖域、隐语等,另外,语义计算的理论和方法很不成熟,从某种角度来讲还没有,根本就没有建立这样一种理论。(宗成庆2010)关于语义计算分析的技术困难,中国科学院专家指出:语义是否可以计算,也没有人可以说得清楚。我还是希望能够找到一种方法,或者大家摸索出一种方法而来做这样一件事,那怕是现在所有的一些数学工具都不能运算。专家提出来,二个不同的语义,有可能是完全相反的,可能存在逻辑上的是与非的关系,在大多数情况下,可能不是那种简单的是与非、零与一的关系,也不能用简单的逻辑“与”和“或”作处理,需要构造一种新的数学操作语言去做这样一种计算。总是应该能够发现这样一种方法来解决这个问题。所以,我把这个问题一直留在这个地方,我自己也知道有很多问题,也不知道应该怎么来解决这个问题。......我认为,总而言之,语义分析到目前为止还没有好办法,可以说刚刚开始。但是,我认为真正要解决自然语言理解的问题,必须要解决语义的问题,再难也要去做。如果这个问题解决不了的话,不存在真正高性能的自然语言理解。(宗成庆2010《自然语言理解》第三十讲)3.专利技术任务汉语自然语言处理的语义分析方法目前存在的词汇分析和句法语义分析等方面的缺陷和问题,主要原因是缺本文档来自技高网...

【技术保护点】
一种汉语语义识别方法,其特征在于,以识别反映语言性质的特征字(活字块)为手段,以语言活性为量标特征,运用活性算法,对语言客体统一进行线性系统分析信息处理,识别语义。即,识别活字(块)=W,W=[Wn,Wn+1,...Wn+m],且Wn>Wn+1; Wn=[Wnp,Wnp+1,...Wnp+q],且Wnp>Wnp+1; Wnp=[Wnpx,Wnpx+1,...Wnpx+y],且Wnpx>Wnpx+1; Wnpx=...... 这个识别系统包括:将汉字(Word)识别为二类,有该性质/特征类(活字)与无该性质/特征类(非活字),即,有性质/特征类>无性质/特征类;将含有二类字的字串识别为有性质字块(活字块)与无性质字块(非活字块)。(″>″为大于号) 识别有性质字(块)按该语义性质表现的强弱差异,识别为若干不同的性质形态,使性质相似的字(块)在相同的形态内,且,强形态字(块)>弱形态字(块),即,动态活字(块)>静态活字(块)>情态活字(块)>联态活字(块)>生态活字(块)>非态字(块)。 识别字(块)在各形态内语义性质的一般差异,识别为若干等级的字(块)集。即, 动态字(块)Vd识别为思维活字(块)Vn、复合活字(块)Vc、行为活字(块)Vb; 静态字(块)Vs识别为关系活字(块)Vr、形容活字(块)Va; 情态字(块)Vm识别为能愿活字(块)Vw、助动活字(块)Vh; 联态字(块)C识别为联词活字(块)Cp、联句活字Cc(块); 生态字(块)N识别为生物体活字(块)Nb、机动体活字(块)Nm、自然体活字(块)Nn、动名体活字(块)Nv; 识别字(块)集内语义性质的微量差异,识别为若干子字集。即,思维字(块)集识别为理性活字(块)Vnr、感性活字(块)Vne;复合字(块)集识别为:智力活字(块)Vci、脑体活字(块)Vcb;行为字(块)集识别为:进行活字(块)Vbc、时点活字(块)Vbp; 关系字(块)集识别为:变化活字(块)Vrc、存在活字(块)Vre;形容字(块)集识别为:形动活字(块)Vaa、形静活字(块)Vas; 能愿字(块)集识别为:愿望活字(块)Vmw、能力活字(块)Vma; 助动字(块)集识别为:情助活字(块)Vhe、时助活字(块)Vht;形助活字(块)Vhh; 联词字(块)集识别为:直联活字(块)Cpd、间联活字(块)Cpi、介联活字(块)Cpp; 联句字(块)集识别为:单句联字(块)Ccs、复句联字(块)Ccc; 生物字(块)集识别为:(1)人物Nbh、(2)机团Nbg、(3)脑动物Nbb、(4)野动物Nbw、(5)动物Nba、(6)小动物Nbs、(7)微生物Nbm、(8)植物Nbp; 机动字(块)集识别为:(1)互动机Nmi、(2)自动机Nma、(3)操动机Nmo; 自然字(块)集识别为:(1)自然物Nnm(2)自然态Nns; 动名字(块)集识别为:(1)活动名Nva、(2)静动名Nvs; 按照辅助有性质字(块)的语义特征方式,识别无性质/特征字(块)的语义归集。即,非态字(块)F识别为能静字(块)Fs、指代字Fp、数量字Fn、状态字Ad(形状Adx、副状Adv)、标符字Fm(标点Fmp,算号Fmc,符号Fms)等。 能静字(块)识别为:静物体Fsn、抽象体Fss 静物体识别为:天然物Fsnn、合成物Fsnc、制成物Fsnm、工具Fsnt、用具Fsnu、玩具Fsnp、食物Fsnf;抽象体识别为:抽象物Fsso、抽象态Fssf、想象物Fssi; 指代字(块)识别为:物称代Fpo(确定Fpod、不定Fpoi)、特称代Fps、疑问代Fpw、不定代Fpi(肯定Fpip,否定Fpin)。 数量字(块)Fn识别为:数字(块)Fnn、量字(块)Fnm(名量字Fnmn、动量字Fnmv。 状态字(块)Ad识别为:形状Adx、副状Adv(时间Adt、空间Ads、方式Adm、频率Adf,程度Add)等。 标符字Fm:识别为:标点Fmp、算号Fmc、符号Fms等。...

【技术特征摘要】
1.一种汉语语义识别方法,其特征在于,以识别反映语言性质的活字块为手段,以语言活性为量标特征,运用活性算法,对语言客体统一进行线性系统分析信息处理,识别语义,即,识别活字块=W,其集合表示为:W=[Wn,Wn+1,...Wn+m],且Wn>Wn+1...>Wn+m;Wn=[Wnp,Wnp+1,...Wnp+q],且Wnp>Wnp+1...>Wnp+q;Wnp=[Wnpx,Wnpx+1,...Wnpx+y],且Wnpx>Wnpx+1...>Wnpx+y;Wnpx=......,其中,符号W表示活字块;Wn,Wn+1,...Wn+m,分别表示W的子集;Wnp,Wnp+1,...Wnp+q分别表示Wn的子集;Wnpx,Wnpx+1,...Wnpx+y分别表示Wnp的子集;按照活字块活性的强弱,符号Wn>Wn+1...>Wn+m、Wnp>Wnp+1...>Wnp+q、Wnpx>Wnpx+1...>Wnpx+y表示子集的元素有序排列;这个识别方法包括:将汉字Word识别为二类,有性质活字与无性质非活字,即,有性质类>无性质类;将含有二类字的字串识别为有性质活字块与无性质非活字块,″>″为“活性大于”号;识别有性质字块,按语义性质表现的强弱差异,识别为若干不同的性质形态,使性质相似的字块在相同的形态内,且,强形态字块>弱形态字块,即,动态活字块>静态活字块>情态活字块>联态活字块>生态活字块>非态字块;识别字块在各形态内语义性质的一般差异,识别为若干等级的字块集,即,动态活字块Vd识别为思维活字块Vn、复合活字块Vc、行为活字块Vb;静态活字块Vs识别为关系活字块Vr、形容活字块Va;情态活字块Vw识别为能愿活字块Vm、助动活字块Vh;联态活字块C识别为联词活字块Cp、联句活字块Cc;生态活字块N识别为生物体活字块Nb、机动体活字块Nm、自然体活字块Nn、动名体活字块Nv;识别字块集内语义性质的微量差异,识别为若干子字集:即,思维活字块集识别为理性活字块Vnr、感性活字块Vne;复合活字块集识别为:智力活字块Vci、脑体活字块Vcb;行为活字块集识别为:进行活字块Vbc、时点活字块Vbp;关系活字块集识别为:变化活字块Vrc、存在活字块Vre;形容活字块集识别为:形动活字块Vaa、形静活字块Vas;能愿活字块集识别为:愿望活字块Vmw、能力活字块Vma;助动活字块集识别为:情助活字块Vhe、时助活字块Vht;形助活字块Vhh;联词活字块集识别为:直联活字块Cpd、间联活字块Cpi、介联活字块Cpp;联句活字块集识别为:单句联字块Ccs、复句联字块Ccc;生物体活字块集识别为:(1)人物Nbh、(2)机团Nbg、(3)脑动物Nbb、(4)野动物Nbw、(5)动物Nba、(6)小动物Nbs、(7)微生物Nbm、(8)植物Nbp;机动体活字块集识别为:(1)互动机Nmi、(2)自动机Nma、(3)操动机Nmo;自然体活字块集识别为:(1)自然物Nnm、(2)自然态Nns;动名体活字块集识别为:(1)活动名Nva、(2)静动名Nvs;按照辅助有性质字块的语义特征方式,识别无性质特征字块的语义归集,即,非态字块F识别为能静字块Fs、指代字Fp、数量字Fn、状态字Ad、标符字Fm,状态字Ad包括形状Adx、副状Adv,标符字Fm包括标点Fmp、算号Fmc、符号Fms;能静字块识别为:静物体Fsn、抽象体Fss;静物体识别为:天然物Fsnn、合成物Fsnc、制成物Fsnm、工具Fsnt、用具Fsnu、玩具Fsnp、食物Fsnf;抽象体识别为:抽象物Fsso、抽象态Fssf、想象物Fssi;指代字块识别为:物称代Fpo、特称代Fps、疑问代Fpw、不定代Fpi,物称代Fpo包括确定Fpod、不定Fpoi,不定代Fpi包括肯定Fpip、否定Fpin;数量字块Fn识别为:数字块Fnn、量字块Fnm,量字块Fnm包括名量字Fnmn、动量字Fnmv;状态字块Ad识别为:形状Adx、副状Adv,副状Adv包括时间Adt、空间Ads、方式Adm、频率Adf、程度Add;标符字Fm识别为:标点Fmp、算号Fmc、符号Fms。2.根据权利要求1所述的汉语语义识别方法,其特征在于,其有性质特征字块集的属性强弱,在结构上,符合自上而下、从左到右逐渐减弱的活性分布排列。3.根据权利要求1所述的汉语语义识别方法,其特征在于,所述语义识别为内外概念与形式,内概念识别为语义的特征内涵,外概念识别为语义的特征外延;内形式识别为语义的特征模式;外形式识别为语义的特征构态;即,识别活性语义:S=[概念-(内涵,外延),形式-(模式,构态)],其中:内概念的意义,识别为字块的...

【专利技术属性】
技术研发人员:吴林东吴星宁
申请(专利权)人:无锡国澳实业有限公司
类型:发明
国别省市:江苏;32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1