基于汉语含义的汉语编码处理方法及系统技术方案

技术编号:19903384 阅读:27 留言:0更新日期:2018-12-26 02:54
本发明专利技术提供了一种基于汉语含义的汉语编码方法和系统。该方法包括如下步骤:分析汉语多个含义属性,检出语素,定义并编码每个语素,所述语素编码为中性码;使用语素编码(中性码)设置汉语词及短语的编码,得到编码化的汉语词和短语,即词句码;对中性码进行分类汇总链接,结合词句码,形成基于语义编码的语素数据库。其语言信息的处理方便、细腻、灵活,能够进行语言大数据的搜索、分析、统计,拥有遨游语言大关系数据库的超强功能,能够有力地提升其价值。

【技术实现步骤摘要】
基于汉语含义的汉语编码处理方法及系统
本专利技术涉及一种计算机数据处理技术,特别是涉及一种以汉语含义为编码的汉语数字化编码处理方法及系统。
技术介绍
一般地,汉语进行数字化处理,如电脑处理时,应先被编码,即以代号(code)为中介输入并进行数字化处理,实现信息记忆和传输,这样才能在以个人电脑、万维网、智能手机为代表的信息时代使用汉字体系。最早出现的汉语编码数据是1880年面世的《中文商业电报码》,历经民国初年的王云五四角号码、20世纪八十年代的中国台湾大五码和中国大陆国标码,一直演变至20世纪末的国际统一码,汉语数据靠越来越完善的编码系统紧紧地跟在拉丁语系进入光辉灿烂的数码世界。但电报码、四角号码、大五码、国标码、统一码这些编码统统是单字码系统,每个码代表一个汉字。现有技术中,人们所用的国际统一码(unicode)的弱点是它仅能代表一个汉字的字形,疏忽了字音和字义属性,无法直接进行文意的理解和处理,导致汉语胜于西方语系的优点没有被充分应用,另汉语实质上的形(笔形)、音(拼音)、义(含义)多因素结合体特性未能进行获得有效地数字化处理。现有汉字表形,而同形的汉字可以有多个含义。长久以来,从古代到今日,人们一直以现有汉字笔形为构词的单位,所有的数字化信息系统,包括计算机处理,数字化搜索、以及传播、翻译等等应用,全部是以现有汉字笔形的规则来作为数字化信息处理的基本单位。汉语中文章是词和短语的集合而不是字的集合,是一个“词”或一个“短语”代表一个完整的概念(concept),“字”承担不了这个任务,所以使用上述的字形单字码作为数字化处理以及信息记忆和电子化传播媒介的这个传统方法限制了汉语在数字化时代文化中的传播,不可能为信息的搜索和信息的分析提供有力的帮助,缺乏扩展的空间,需要进一步改进。
技术实现思路
本专利技术为克服现有汉字数字化编码方案中存在的本征缺陷提供一种基于汉语含义的汉语处理编码处理方法和系统,通过利用汉语含义的基本构成元素(语素)进行数字化编码,不同于现有字形元素来进行汉语数字化编码及处理。采用汉语含义元素,即语素的规则则可解决汉语数字化过程中,计算机处理汉字,常出现的同字不同义,同字不同音的准确性以及其他问题。本专利技术的基于汉语含义(语素)的汉语数字化编码处理方法及系统应包含基于汉语含义的语素编码,即中性码,基于汉语词及短语(语素的有含义的集合集)的词句码,以及这些代号构成的对应庞大汉语含义的汉语数据库。为实现本专利技术而提供的一种基于汉语含义的汉语编码处理方法,包括如下步骤:1)分析汉语多个含义属性,检出语素,定义并编码每个语素,所述语素编码为中性码;2)使用语素编码(中性码)设置汉语词及短语的编码,得到编码化的汉语词和短语,即词句码;3)对中性码进行分类汇总链接,结合词句码,形成基于语义编码的语素数据库。为实现本专利技术目的,本专利技术还提供一种基于汉语含义的汉语编码处理软件系统,其具有上述方法及具体实施例中的软件模块。本专利技术基于汉语含义的汉语编码处理方法和系统具有如下优点:本专利技术具有突破性设计,充分考虑采用语素作为设计汉字数字化的代号系统具有的方便性和准确性优势,以中性码和词句码为核心,解决汉语数字化处理中的同音不同字、同字不同义等问题。同时凭语素表和/或其产生的应用如:智能提示输入法。并进行强大灵活准确的编码,丰富完备,使得人们,能够更方便、准确地输入汉语并理解汉语的语义。本编码系统有潜力帮助提升汉语在计算机数字化时代的电子化处理效率,令汉语更适应数字化时代信息处理的要求,为在数字化时代弘扬汉语文化做出贡献。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例基于汉语含义的汉语编码处理方法流程图;图2为图1中步骤S100的一种可实施方式流程图;图3为图1中步骤S200的一种可实施方式流程图;图4中图1中步骤S400的一种可实施方式流程图;图5为本专利技术实施例中基于汉语含义的汉语编码处理系统示意图具体实施方式如图1-5所示,为了使本专利技术的目的、技术方案和优点更加清楚明了。结合具体的实施方式,对本专利技术进行详细说明。此过程中,省略了对公知结构和技术的描述,用以避免对不必要地混淆本专利技术的概念。对于这些描述,只是示例性的。并不是限制本专利技术的范围。语素作为汉语语义的基本元素,具有的要求是:⑴它只有一个读音和一个准确的基本含义⑵语素没有字形观念,它对字形中性,不区分简体、繁体形,方便信息的搜索、统计和分析。本专利技术实施例中,语素为代表汉语含义最小的语言单位,同一个字,基于其含义的多寡,可以对应多个语素,语素是汉语组词的元素,是具有唯一性的汉语语义单位,依托于字和词组且不能单独存在。举例:“传”字对应两个语素(英语send,biography;传达或传记);“历”字对应两个语素(英语history,calendar;历史或日历);“日”字对应三个语素(英语sun,day,japanese;太阳、日子、日本)。语素具有唯一的一个读音和一个含义。作为一种可实施方式,将语素编码,形成的编码叫中性码;将词和短语编码,形成的编码叫词句码。本专利技术实施例的一种基于汉语含义的汉语编码处理方法,如图1所示,包括如下步骤:步骤S100,分析汉语多个含义属性,检出语素,定义并编码每个语素,所述语素编码为中性码。如图2所示,现有汉字用来记事,文章由句组成,句由词及短语组成,词及短语由现有汉字组成。现有汉字和西方语言不同,它同时具备形(笔形)、音(拼音)、义(含义)三个属性,一个同形现有汉字可以有多个含义和拼音。由于现有汉字的多义性(多个含义属性)妨碍了信息的自动化处理,影响汉语编码的大数据分析,使检索、传播、翻译、输入等变得相当困难。针对上述现有汉字的弱点,本专利技术实施例通过分析汉语的多个含义属性,以语素来进行编码得到中性码。词、语素、现有汉字的区别是:①词是造句的单位②语素是构词的单位③现有汉字是记录词和语素的书写单位。前两者属于语言符号系统,有含义属性;后者属于书写符号系统,主要是字形属性,义属性模糊。语素和现有汉字之间的最明显区别是语素表意、中性,可以用多种不同字形显示,所以其编码可称之为中性码;本专利技术实施例突破性专利技术创造是舍弃这个牢不可破的传统方法,以语素编码为构词的单位,以语素为核心结构的信息处理是其他语系(包括英语、法语)所无法做到的,如表1所示。另外,以语素为汉语的核心,可以使现有简、繁汉字之间的转换不须靠上下文分析(contextanalysis)而靠语素表的指示(语素表为语素的集合,简体和繁体字形均可在语素表中进行定义)进行检索处理,无须识别其是简体或者繁体字,其检索准确率基本能够达到是100%。表1:较佳地,作为一种可实施方式,在单个汉字的基础上,构建语素的每个编码,一个语素编码对应一个中性码。作为一种可实施方式,本专利技术实施例的语素编码处理方法,形、音、义兼顾,即使用中性码对每个语素进行编码。本专利技术实施例中,通过使用两个总表,即汉语的字形总表和字义总表去编码汉字的信息,其中,字形总表只通过本文档来自技高网
...

【技术保护点】
1.一种基于汉语含义的编码处理方法,其特征在于,包括以下步骤:分析汉语多个含义属性,检出语素,定义并编码每个语素,所述语素编码为中性码;使用所述语素编码设置汉语词及短语的编码,得到编码化的汉语词和短语,即词句码;对所述中性码进行分类汇总链接,结合所述词句码,形成基于语义编码的语素数据库。

【技术特征摘要】
2017.06.14 CN 20171044649921.一种基于汉语含义的编码处理方法,其特征在于,包括以下步骤:分析汉语多个含义属性,检出语素,定义并编码每个语素,所述语素编码为中性码;使用所述语素编码设置汉语词及短语的编码,得到编码化的汉语词和短语,即词句码;对所述中性码进行分类汇总链接,结合所述词句码,形成基于语义编码的语素数据库。2.根据权利要求1所述的编码处理方法,其特征在于,所述单字语素的编码,包括如下步骤:在单个汉字的基础上,构建所述单个汉字的每个编码,一个编码对应一个语素编码,即中性码;在所述中性码的基础上,添加语素编码个数N,得到N个语素,其中,N为整数,表示所述单个汉字的N个语素。3.根据权利要求1或2所述的编码处理方法,其特征在于,所述形成基于语义编码的语素数据库,包括如下步骤:将中性码结合词句码的编码,集成到八维度矩阵空间,具体地:所述每个编码以一个32位元,即8个16进数字,4个字节的长度的数字,整个编码的语素数据库,用数个向量和矩阵的组合表示。4.根据权利要求3所述的编码处理方法,其特征在于,所述用数个向量和矩阵的组合表示,包括如下步骤:将每个编码作为八维矩阵空间的一个点,点以X、...

【专利技术属性】
技术研发人员:夏铨真
申请(专利权)人:佛山辞荟源信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1