【技术实现步骤摘要】
一种汉语普通话语义数据编码方法及系统
本专利技术属于汉语自然语言处理
,更具体的说是涉及一种汉语普通话语义数据编码方法及系统。
技术介绍
国家基础GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机内代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如:在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部码标识方法,所以必须考虑设计其他的汉语普通话信息编码方法。ASCII标准码使用指定的7位二进制数组合来表示26个拉丁字母、10个阿拉伯数字等人类社会最常用的128个字符,数据是计算机可以操作的对象,是能够被计算机识别和处理的符号集合,组成数据的有一定意义的基本单位即为数据元素,性质相同的数据元素的集合为数据对象,数据对象是数据的子集,在计算机中不同数据元素之间不是独立的、杂乱无序的关系,而是存在着一种或多种相互关联的关系,这些关系其实就是数据的组织形式,相互之间存在一种或多种特定关系的数据元素的集合即为数据结构,国际标准化组织(ISO)规定ASCII码是不同计算机在相互通信时共同遵守的拉丁字符编码标准,故以ASCII码对汉语普通话信息进行编码获取的ASCII码数据在计算机通信过程中能够有很好的兼容性。自然语言处理(NLP)是使计算机和机器人学 ...
【技术保护点】
1.一种汉语普通话语义数据编码方法,其特征在于,包括如下步骤:/n通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;/n通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;/n通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;/n汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。/n
【技术特征摘要】
1.一种汉语普通话语义数据编码方法,其特征在于,包括如下步骤:
通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;
通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;
通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;
汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。
2.根据权利要求1所述的一种汉语普通话语义数据编码方法,其特征在于,还包括:编码处理模块,控制模块和驱动模块;
所述汉语普通话信息数据元素分类编码单元将编码信息输送至所述编码处理模块,所述编码处理模块将处理后的数据输送至所述控制模块,所述控制模块发送指令至所述驱动模块,所述驱动模块驱动所述机器人完成各类工作。
3.根据权利要求1所述的一种汉语普通话语义数据编码方法,其特征在于,汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码,具体包括:
对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码;
对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码。
4.根据权利要求3所述的一种汉语普通话语义数据编码方法,其特征在于,所述对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码,具体包括:
汉语普通话常用语素的编码:汉语普通话常用语素汉语拼音全拼编码和对应的汉语普通话常用语素标识编码,构成汉语普通话常用语素编码,所述汉语普通话常用语素标识编码基于汉语普通话常用语素的同音语素的统计数据,用5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū来设计;
汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码,构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;
汉语普通话常用语素义集合的编码:基于集合理论,汉语普通话常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;
汉语普通话非常用语素的编码:汉语普通话非常用语素汉语拼音全拼编码和对应的汉语普通话非常用语素标识编码构成汉语普通话非常用语素编码,所述汉语普通话非常用语素标识编码基于汉语普通话非常用语素的同音语素的统计数据,用10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū来设计;
汉语普通话非常用语素义的编码:汉语普通话非常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话非常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;
汉语普通话非常用语素义集合的编码:基于集合理论,汉语普通话非常用语素的全部语素义为其各个语素义组成的一个集合,汉...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。