当前位置: 首页 > 专利查询>节金旗专利>正文

中文语法标注制造技术

技术编号:21115956 阅读:336 留言:0更新日期:2019-05-16 09:03
中文语法标注是对自然语言进行计算机处理的计算机程序。该程序通过加载网络客户端中文分词软件(如中科院中文分词网络客户端软件)来获得中文分词词性标注文件;先对词性标注文件进行必要的预处理来获得特定形式的字符串文件,然后针对该字符串文件进行空格、标点、词性分析,转化为各种语句的检索数据;依据检索数据在语法标注库中获得检索结果,并把检索结果处理成语法标注文件,从而实现语法标注。

Chinese grammar annotation

【技术实现步骤摘要】
中文语法标注
本专利技术涉及一种计算机程序,是对自然语言进行计算机处理的计算机程序。
技术介绍
在对自然语言进行处理的计算机中文分词程序中(例如中科院中文分词),中文分词程序可以把中文分解成词,并对词进行词性标注。但这些还不够,要是在词性标注的同时也有语法标注就更好了。本计算机程序的目的是在中文分词程序的基础上进一步实现语法标注,即在中文词性标注的同时也有语法标注。
技术实现思路
本计算机程序的技术方案概括的说是在中文分词词性标注文件的基础上,经过必要的预处理获得文件特定形式后,通过对空格、标点、词性进行解析转化为语句检索数据,然后在语法标注库中进行数据检索,并把检索结果处理成语法标注文件,从而实现对语句的语法标注。附图说明:本专利技术包含以下附图。图1为标志序号的有关概念及有关的标志序号数组图、图2为标志序号分类及类型编码规则图、图3为一种冒号标志序号(数组为f00001[])的求解流程图、图4为冒号标志序号有关的映射函数图、图5为替换规则图、图6为标点符号函数图、图7为特别情况下标点符号替换函数图、图8为用数组记录特定字符的位置并用另一数组记录指定位置的一段字符长度流程图、图9为句点概念及句子类型图、图10为sw0中的标点数组和句点映射函数s036yfun()图、图11为句内标点数量映射函数图、图12为sw0中词性数据图、图13为综合数组与词性映射函数图、图14为由数组prz036[]的数据转化类型简单形式的字符串str0a0程序流程图、图15为p004[],p005[],p006[]存储数据的方法示意图、图16为语法标注数字代码规则图、图17为在字符串sw0中,用数组(p004[],p005[],p006[])存储字符串的类型特点数据流程图、图18为在字符串sw0中,组成一个新的语法标注字符串流程图。本计算机程序是按照以下的编程顺序来实现的:1.加载中文分词词性标注文件中文分词词性标注文件的加载可以通过加载网络客户端中文分词软件(如中科院中文分词网络客户端软件)来获得。由于中文分词客户端软件需要授权许可才能正常运行,采用一些中文分词词性标注文件片段也可验证本计算机程序是不是能正确运行。2.对中文分词词性标注文件(字符串文件str)进行规范化预处理在中文分词词性标注文件(字符串文件str)中,词语原文与词性标注是通过分格符“/”分开的,同时由于存在文件格式也可能有很多空格“”。我们用“~/”代替“//”或“///”;用“$”代替“”;用“$$”代替“”;用“$$$”代替“”;用“$1$”代替4个空格“”;用“$2$”代替5个空格“”;用“$3$”代替6个空格“”;用“$4$”代替7个空格“”;用“$5$”代替8个空格“”;用“$6$”代替9个空格“”;用“$7$”代替10个空格“”;超过10个空格也用“$7$”替换。经过这样的处理,中文分词词性标注文件(字符串文件str)中,就不再有重复的“/”,同时空格的替换为定量区分句子停顿和文件格式创造了条件。由于这种处理影响了计算机对原文件的存储,还需要通过插入“$”的方式对字符串文件str的结尾进行规范化调整。另外在中文分词词性标注文件的最前面插入了标志语句(yyy/n。/wj),它的插入是为了应对后面的程序在获得类型细分形式的字符串(str0i0)时,字符串的第一个词性字符不能细分的缺点而特设的与中文分词词性标注文件不相干的无关紧要的句子。(注:中文分词词性标注文件就是该计算机程序要分析的字符串文件str)。3.对字符串文件str中的冒号标志序号进行预处理对冒号标志序号进行处理的主要目的是在冒号标志序号的分格符“/”后插入冒号标志序号的类型数据以明确表示标志序号与冒号的对应逻辑关系。编写这段程序的主要流程顺序为:根据我们对标志序号进行的十八种形式分类,计算出每种形式的标志序号数组数据,然后对每种形式的标志序号数组数据都按照相同的方法进行数据分析和计算。其分析计算方法为:先判断标志序号数组最大变量是否大于等于2,如果小于2直接得出冒号标志序号数据为0的结论并返回主程序;如果最大变量大于等于2,再根据冒号标志序号的定义,逐步求出冒号标志序号的数据并存入冒号标志序号的数组里。当按照这样相同方法分析完毕,我们就得到18个冒号标志序号数组及其数组数据,进而可得到冒号标志序号总数组f9000[nf9000]。然后由映射函数求出相对于f9000[nf9000]的各分类映射数组,进而得到映射总数组se9000[]。把se9000[]数组数据转化为字符串,利用字符串插入函数,就可以把冒号标志序号的类型数据插入到相对应的中文分词中。图3是一种冒号标志序号(数组为f00001[])的求解流程图。另外在图1中有标志序号的有关概念及有关的标志序号数组;在图2中有标志序号分类及类型编码规则。图4列出了冒号标志序号有关的映射函数。映射函数的基本功能是把数组里一些特诛数据用特定的数字表示。4.对字符串文件str中的词性重复字符和括号标识符进行特别替换对词性重复字符的替换可以保证同一词性字符的位置数据只有一个而不至于出现不同的两个;对括号标识符的替换可以细化标识简化程序的编写。替换规则如下:用“/ri”代替“/rr”;用“/ci”代替“/cc”;用“/uyi”代替“/uyy”;用“/xi”代替“/xx”;用“[/wiz”代替“[/wkz”;用“]/wzy”代替“]/wky”;用“{/wlz”代替“{/wkz”;用“}/wly”代替“}/wky”;用“《/wfz”代替“《/wkz”;用“》/wfy”代替“》/wky”;用“/wiy”代替“/wyy”;详细的替换规则可参看图5。5.对字符串文件str中的各种标点符号分别用特定的数组存储它们的位置数据并对特别情况下的标点符号标识符进行特定的替换由于同一种标点符号可有不同的位置数据所以我们就需要用特定的数组来存储这些数据;另外由于括号或引号内的叹号(问号或句号或空格)不在句子末尾,这种情况下的叹号(问号或句号或空格)就不能作为句子停顿的依据,所以这种情况下就需要用新的标注形式来代替原标注形式以便区别对待。例如可用函数number010(str,x010,z010)求出空格的位置数据并存在数组p010[]里,同时也可用函数number010n(str,x010,z010)求出空格数量的最大值。在说明书附图中,图6中有许多这样的标点符号函数;这里就不再一一例举。再比如可以用函数exchangekhfyt1(str,ckg1,p019,p030,p031,p020,p011,n019,n020,n030)来完成括号内空格标识符的替换,其替换规则为:用“g2$”代替“$2$”;用“g3$”代替“$3$”;用“g4$”代替“$4$”;用“g5$”代替“$5$”;用“g6$”代替“$6$”;用“g7$”代替“$7$”;在说明书附图中,图7为特别情况下标点符号替换函数表;这里就不再一一例举。注意,在对特别情况下的标点符号标识符进行特定的替换时的顺序是:先进行小括号内的标点符号标识符的替换,更新数据后进行中括号内的标点符号标识符的替换,再次更新数据后进行大括号内的标点符号标识符的替换,最后更新数据进行引号内的标点符号标识符的替换。6.预先备份字符串扩充后的分本文档来自技高网...

【技术保护点】
1.中文语法标注是对自然语言进行计算机处理的计算机程序,其特征在于:该程序通过对中文分词词性标注文件进行必要的预处理来获得特定形式的字符串文件,针对该字符串文件进行空格、标点、词性分析,转化为各种语句的检索数据,依据检索数据在语法标注库中获得检索结果,并把检索结果处理成语法标注文件。

【技术特征摘要】
1.中文语法标注是对自然语言进行计算机处理的计算机程序,其特征在于:该程序通过对中文分词词性标注文件进行必要的预处理来获得特定形式的字符串文件,针对该字符串文件进行空格、标点、词性分析,转化为各种语句的检索数据,依据检索数据在语法标注库中获得检索结果,并把检索结果处理成语法标注文件。2.根据权利要求书1所述的中文语法标注,其特征在于:所述的预处理能够通过函数求出中文分词词性标注文件中的空格、分格符、标点等数组数据,并能通过替换函数改变特定条件下的标点标注形式,以便区别对待。3.根据权利要求书1所述的中文语法标注,其特征在于:所述的预处理不仅包含冒号标志序号的预处理还求出了分格符前中文原字符长度的数组p02[],该数组是通过特定的程序算法求出的。4.根据权利要求书1所述的中文语法标注,其特征在于:所述的特定形式的字符串文件,去掉了中文分词词性标注中分格符前的...

【专利技术属性】
技术研发人员:节金旗
申请(专利权)人:节金旗
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1