汉语语义活性识别法制造技术

技术编号:10301327 阅读:190 留言:0更新日期:2014-08-07 07:38
一种汉语语义识别方法,属于计算机科学与自然语言处理(NLP)技术领域,包括活性识别系统和语义分析识别步骤。根据语言活性特征,首先,识别语句的活字(块)和非活字(块)。其次,识别标注字(块)活性形态,初步识别动态、静态、情态、联态或生态活字(块)。从而,运用活性算法比较分析相邻活字(块)的活性字级,转态匹配消歧,识别谓活字(块)及子谓活字(块)。然后,进行字块联结语义分析,识别语义活性模式。最后,识别非活字(块)辅助语义,精确识别相邻或相含语句语义。本发明专利技术以识别活字为手段,以语言活性为特征,线性分析处理语言,实现计算机识别语义,与现有技术相比,可以改善计算机处理歧义消除(WSD),提高语义识别信息处理效果。

【技术实现步骤摘要】
汉语语义活性识别法1.
本专利技术属于计算机科学应用及自然语言处理NLP(NaturalLangugeProcessing)
,涉及下一代数据信息处理技术。2.
技术介绍
2.1汉语自然语言信息处理现状自然语言处理是一门新兴的计算机科学应用技术,其应用领域越来越广。自然语言处理有二条技术途径:概率统计处理方法和语义分析处理方法。前者为数据技术,目前曰臻完善;后者为字据技术,目前进展缓慢。统计的方法,基于语料进行概率计算推测语义,能够算出语言符号的表达,但难以算出语言表达的意义,概率计算只能是有限语料语言的″数据”运算,统计方法理解语义具有自身固有的缺陷。语义分析方法,按照语言的规律及特征分析语义,在理论方法上是“字据”的运算,能够在技术上识别理解语义。汉语自然语言处理的语义分析方法,大致有两类:一类是词汇语义分析法,包括语义场、义素分析法、配价法、语义框架法、构式语法论、概念整合法等。另一类是句法语义分析法,包括格语法、论旨法、概念依存法、语义网格法、蒙太格法等。这些语义分析方法目前还在初步探索阶段,在汉语自然语言理解的语义处理中解决了部分技术问题,但都不同程度地存在缺陷,而语本文档来自技高网...

【技术保护点】
一种汉语语义识别方法,其特征在于,以识别反映语言性质的特征字(活字块)为手段,以语言活性为量标特征,运用活性算法,对语言客体统一进行线性系统分析信息处理,识别语义。即,识别活字(块)=W,W=[Wn,Wn+1,...Wn+m],且Wn>Wn+1; Wn=[Wnp,Wnp+1,...Wnp+q],且Wnp>Wnp+1; Wnp=[Wnpx,Wnpx+1,...Wnpx+y],且Wnpx>Wnpx+1; Wnpx=...... 这个识别系统包括:将汉字(Word)识别为二类,有该性质/特征类(活字)与无该性质/特征类(非活字),即,有性质/特征类>无性质/特征类;将含有二类字的字串识别为有性质字块...

【技术特征摘要】
1.一种汉语语义识别方法,其特征在于,以识别反映语言性质的活字块为手段,以语言活性为量标特征,运用活性算法,对语言客体统一进行线性系统分析信息处理,识别语义,即,识别活字块=W,其集合表示为:W=[Wn,Wn+1,...Wn+m],且Wn>Wn+1...>Wn+m;Wn=[Wnp,Wnp+1,...Wnp+q],且Wnp>Wnp+1...>Wnp+q;Wnp=[Wnpx,Wnpx+1,...Wnpx+y],且Wnpx>Wnpx+1...>Wnpx+y;Wnpx=......,其中,符号W表示活字块;Wn,Wn+1,...Wn+m,分别表示W的子集;Wnp,Wnp+1,...Wnp+q分别表示Wn的子集;Wnpx,Wnpx+1,...Wnpx+y分别表示Wnp的子集;按照活字块活性的强弱,符号Wn>Wn+1...>Wn+m、Wnp>Wnp+1...>Wnp+q、Wnpx>Wnpx+1...>Wnpx+y表示子集的元素有序排列;这个识别方法包括:将汉字Word识别为二类,有性质活字与无性质非活字,即,有性质类>无性质类;将含有二类字的字串识别为有性质活字块与无性质非活字块,″>″为“活性大于”号;识别有性质字块,按语义性质表现的强弱差异,识别为若干不同的性质形态,使性质相似的字块在相同的形态内,且,强形态字块>弱形态字块,即,动态活字块>静态活字块>情态活字块>联态活字块>生态活字块>非态字块;识别字块在各形态内语义性质的一般差异,识别为若干等级的字块集,即,动态活字块Vd识别为思维活字块Vn、复合活字块Vc、行为活字块Vb;静态活字块Vs识别为关系活字块Vr、形容活字块Va;情态活字块Vw识别为能愿活字块Vm、助动活字块Vh;联态活字块C识别为联词活字块Cp、联句活字块Cc;生态活字块N识别为生物体活字块Nb、机动体活字块Nm、自然体活字块Nn、动名体活字块Nv;识别字块集内语义性质的微量差异,识别为若干子字集:即,思维活字块集识别为理性活字块Vnr、感性活字块Vne;复合活字块集识别为:智力活字块Vci、脑体活字块Vcb;行为活字块集识别为:进行活字块Vbc、时点活字块Vbp;关系活字块集识别为:变化活字块Vrc、存在活字块Vre;形容活字块集识别为:形动活字块Vaa、形静活字块Vas;能愿活字块集识别为:愿望活字块Vmw、能力活字块Vma;助动活字块集识别为:情助活字块Vhe、时助活字块Vht;形助活字块Vhh;联词活字块集识别为:直联活字块Cpd、间联活字块Cpi、介联活字块Cpp;联句活字块集识别为:单句联字块Ccs、复句联字块Ccc;生物体活字块集识别为:(1)人物Nbh、(2)机团Nbg、(3)脑动物Nbb、(4)野动物Nbw、(5)动物Nba、(6)小动物Nbs、(7)微生物Nbm、(8)植物Nbp;机动体活字块集识别为:(1)互动机Nmi、(2)自动机Nma、(3)操动机Nmo;自然体活字块集识别为:(1)自然物Nnm、(2)自然态Nns;动名体活字块集识别为:(1)活动名Nva、(2)静动名Nvs;按照辅助有性质字块的语义特征方式,识别无性质特征字块的语义归集,即,非态字块F识别为能静字块Fs、指代字Fp、数量字Fn、状态字Ad、标符字Fm,状态字Ad包括形状Adx、副状Adv,标符字Fm包括标点Fmp、算号Fmc、符号Fms;能静字块识别为:静物体Fsn、抽象体Fss;静物体识别为:天然物Fsnn、合成物Fsnc、制成物Fsnm、工具Fsnt、用具Fsnu、玩具Fsnp、食物Fsnf;抽象体识别为:抽象物Fsso、抽象态Fssf、想象物Fssi;指代字块识别为:物称代Fpo、特称代Fps、疑问代Fpw、不定代Fpi,物称代Fpo包括确定Fpod、不定Fpoi,不定代Fpi包括肯定Fpip、否定Fpin;数量字块Fn识别为:数字块Fnn、量字块Fnm,量字块Fnm包括名量字Fnmn、动量字Fnmv;状态字块Ad识别为:形状Adx、副状Adv,副状Adv包括时间Adt、空间Ads、方式Adm、频率Adf、程度Add;标符字Fm识别为:标点Fmp、算号Fmc、符号Fms。2.根据权利要求1所述的汉语语义识别方法,其特征在于,其有性质特征字块集的属性强弱,在结构上,符合自上而下、从左到右逐渐减弱的活性分布排列。3.根据权利要求1所述的汉语语义识别方法,其特征在于,所述语义识别为内外概念与形式,内概念识别为语义的特征内涵,外概念识别为语义的特征外延;内形式识别为语义的特征模式;外形式识别为语义的特征构态;即,识别活性语义:S=[概念-(内涵,外延),形式-(模式,构态)],其中:内概念的意义,识别为字块的...

【专利技术属性】
技术研发人员:吴林东吴星宁
申请(专利权)人:无锡国澳实业有限公司
类型:发明
国别省市:江苏;32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1