当前位置: 首页 > 专利查询>王欣专利>正文

一种汉语普通话语义数据编码方法及系统技术方案

技术编号:27060550 阅读:22 留言:0更新日期:2021-01-15 14:40
本发明专利技术公开了一种汉语普通话语义数据编码方法及系统,所述方法包括:构建与汉语普通话信息相关联的ASCII码数据,对构建模块构建的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元,分别对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作,本发明专利技术以ASCII码数据表示汉语语义信息,一码一义不重码,增强了机器人理解汉语普通话信息的处理性能,所以这项技术有比较好的发展前景。

【技术实现步骤摘要】
一种汉语普通话语义数据编码方法及系统
本专利技术属于汉语自然语言处理
,更具体的说是涉及一种汉语普通话语义数据编码方法及系统。
技术介绍
国家基础GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机内代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如:在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部码标识方法,所以必须考虑设计其他的汉语普通话信息编码方法。ASCII标准码使用指定的7位二进制数组合来表示26个拉丁字母、10个阿拉伯数字等人类社会最常用的128个字符,数据是计算机可以操作的对象,是能够被计算机识别和处理的符号集合,组成数据的有一定意义的基本单位即为数据元素,性质相同的数据元素的集合为数据对象,数据对象是数据的子集,在计算机中不同数据元素之间不是独立的、杂乱无序的关系,而是存在着一种或多种相互关联的关系,这些关系其实就是数据的组织形式,相互之间存在一种或多种特定关系的数据元素的集合即为数据结构,国际标准化组织(ISO)规定ASCII码是不同计算机在相互通信时共同遵守的拉丁字符编码标准,故以ASCII码对汉语普通话信息进行编码获取的ASCII码数据在计算机通信过程中能够有很好的兼容性。自然语言处理(NLP)是使计算机和机器人学会“理解”和“运用”人类的自然语言,实现人机之间的自然语言通信来代替人的部分脑力劳动的技术,按照GB/T12643-2013《机器人与机器人装备词汇》国家标准的定义,机器人是具有两个或两个以上可编程的轴,以及一定程度的自主能力,可在其环境内运动以执行预期的任务的执行机构,机器人的控制系统主要就是机器人控制系统中的计算机,是机器人的大脑,人机对话时必须通过适当的机器人语言和自然语言处理程序来“描述”、“理解”和“执行”任务,并将这些程序存入到机器人系统的控制计算机中去,机器人大脑才能产生控制信号去驱动机器人去完成各类工作,机器人语言是使用数据来描述机器人作业的方法,任务级编程语言是比较高级的机器人语言,这类语言允许机器人管理员对工作任务所要求达到的目标直接下命令,机器人可自动进行推理、计算,自动生成动作,完成作业。汉语普通话信息都有数量不等的释义,这些汉语普通话信息的释义对于计算机和机器人“理解”和“执行”任务起着不可或缺的重要作用,例如:“根据比赛资料,分析黑马并押注”这个任务,对“黑马”进行“解释”并发布任务,计算机和机器人才能够正确地“理解”和“执行”任务,这是因为“黑马”有:①黑色的马②比赛中出人意料获胜的马,2个释义。综上所述,如何提供一种汉语普通话数据编码方法及系统来增强计算机和机器人理解汉语普通话信息的处理性能是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种汉语普通话数据信息编码方法及系统,以ASCII码数据来表示汉语普通话语义信息,对汉语普通话语素信息、汉语普通话短语信息的释义等汉语普通话语义信息进行编码,做到一码一义不重码,增强了计算机和机器人理解汉语普通话信息的处理性能。为了实现上述目的,本专利技术采用如下技术方案:一种汉语普通话语义数据信息编码方法,包括如下步骤:通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。优选的,还包括:编码处理模块,控制模块和驱动模块;所述汉语普通话信息数据元素分类编码单元将编码信息输送至所述编码处理模块,所述编码处理模块将处理后的数据输送至所述控制模块,所述控制模块发送指令至所述驱动模块,所述驱动模块驱动所述机器人完成各类工作。优选的,所述分别对汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码,具体包括:对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码;对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码。优选的,所述对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义中的集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码,具体包括:汉语普通话常用语素的编码:汉语普通话常用语素汉语拼音全拼编码和对应的汉语普通话常用语素标识编码,构成汉语普通话常用语素编码,所述汉语普通话常用语素标识编码基于汉语普通话常用语素的同音语素的统计数据,用5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū来设计;汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码,构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;汉语普通话常用语素义集合的编码:基于集合理论,汉语普通话常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;汉语普通话非常用语素的编码:汉语普通话非常用语素汉语拼音全拼编码和对应的汉语普通话非常用语素标识编码构成汉语普通话非常用语素编码,所述汉语普通话非常用语素标识编码基于汉语普通话非常用语素的同音语素的统计数据,用10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū来设计;汉语普通话非常用语素义的编码:汉语普通话本文档来自技高网
...

【技术保护点】
1.一种汉语普通话语义数据编码方法,其特征在于,包括如下步骤:/n通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;/n通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;/n通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;/n汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。/n

【技术特征摘要】
1.一种汉语普通话语义数据编码方法,其特征在于,包括如下步骤:
通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;
通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;
通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;
汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。


2.根据权利要求1所述的一种汉语普通话语义数据编码方法,其特征在于,还包括:编码处理模块,控制模块和驱动模块;
所述汉语普通话信息数据元素分类编码单元将编码信息输送至所述编码处理模块,所述编码处理模块将处理后的数据输送至所述控制模块,所述控制模块发送指令至所述驱动模块,所述驱动模块驱动所述机器人完成各类工作。


3.根据权利要求1所述的一种汉语普通话语义数据编码方法,其特征在于,汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码,具体包括:
对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码;
对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码。


4.根据权利要求3所述的一种汉语普通话语义数据编码方法,其特征在于,所述对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码,具体包括:
汉语普通话常用语素的编码:汉语普通话常用语素汉语拼音全拼编码和对应的汉语普通话常用语素标识编码,构成汉语普通话常用语素编码,所述汉语普通话常用语素标识编码基于汉语普通话常用语素的同音语素的统计数据,用5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū来设计;
汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码,构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;
汉语普通话常用语素义集合的编码:基于集合理论,汉语普通话常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;
汉语普通话非常用语素的编码:汉语普通话非常用语素汉语拼音全拼编码和对应的汉语普通话非常用语素标识编码构成汉语普通话非常用语素编码,所述汉语普通话非常用语素标识编码基于汉语普通话非常用语素的同音语素的统计数据,用10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū来设计;
汉语普通话非常用语素义的编码:汉语普通话非常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话非常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;
汉语普通话非常用语素义集合的编码:基于集合理论,汉语普通话非常用语素的全部语素义为其各个语素义组成的一个集合,汉...

【专利技术属性】
技术研发人员:王欣
申请(专利权)人:王欣
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1