应用于低速率应急通信的混合汉字编码方法技术

技术编号:16188136 阅读:142 留言:0更新日期:2017-09-12 11:24
本发明专利技术提供了一种应用于低速率应急通信的混合汉字编码方法,该应用于低速率应急通信的混合汉字编码方法包括单字、双字词语以及短语三种编码,其中,所述单字编码选取N个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,本发明专利技术具有高压缩率、高速率、易实现等优点,能够满足低速率汉字通信需求,具有很强的工程应用价值。

Hybrid Chinese character coding method for low rate emergency communication

Chinese characters mixed encoding method of the invention provides an application of low rate of emergency communication, the mixed encoding method applied to the Chinese characters of low rate of emergency communication includes words, phrases and two character words three encoding, among them, the character encoding for selecting the N Chinese characters establish the double word table, word encoding \tree root + node\, using the phrase alignment encoding encoding, the encoding of the phrase phrase table storage multi word phrases, sentences and words in the table is not the very words of the hybrid encoding, the encoding sequence is Chinese characters phrases, two character words and words, the invention has the advantages of high compression rate, high speed, easy to implement, can meet the demand of low bit rate communication Chinese characters, has a strong engineering application value.

【技术实现步骤摘要】
应用于低速率应急通信的混合汉字编码方法
本专利技术涉及汉字编码
,具体涉及一种应用于低速率应急通信的混合汉字编码方法。
技术介绍
当前,低速率应急通信中的汉字编码方法主要采用GB2312编码,其每个汉字用2Byte(16bit)进行编码,占用资源较多,编码效率和通信效率低,迫切需要高压缩率的汉字编码技术。目前通用的压缩软件,如WinRar等,在汉字文本压缩方面效率欠佳,并不适用于通信设备中。而国内外相关技术研究甚少,少数的文献研究都还比较浅。文献[1]游荣彦,李吉桂.通用简易中文文本压缩方法研究[J].华南师范大学学报(自然科学版),2001(2):84-88.提出了一种以13bit为单位的编码方法,通过提供8192个编码空间以容纳6763个汉字,是一种简单的针对单字的紧凑算法。文献[2]陆挺,刘晓辉.应用于极低速率应急通信的11bit汉字编码方法[J].指挥信息系统与技术,2010,1(3):74-78.基于汉字使用频度,以11bit为编码单位来进行汉字编码。相对于文献[1],压缩率得到了一定提升,但仍着眼于单字。
技术实现思路
本申请通过提供一种应用于低速率应急通信的混合汉字编码方法,以解决低速率应急通信中的汉字编码技术占用资源较多,编码效率和通信效率低的技术问题。为解决上述技术问题,本申请采用以下技术方案予以实现:一种应用于低速率应急通信的混合汉字编码方法,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取N个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,具体编码流程为:S1:设置索引值初始化为0;S2:取索引后的一个字;S3:在所述短语码表中按序匹配短语首字,如果匹配,则进入步骤S4,否则,进入步骤S6;S4:报文索引后取该短语长度n个字,和短语进行匹配,如果匹配,则进入步骤S5,否则,继续执行步骤S3;S5:对短语进行编码,索引值加n,n为短语平均长度,跳转至步骤S2;S6:判断是否为短语码表最后一个短语,如果是,则进入步骤S7,否则,继续执行步骤S3;S7:在所述双字词语码表中按序匹配词根,如果匹配,则进入步骤S8,否则,进入步骤S10;S8:匹配词尾,如果匹配,则进入步骤S9,否则,继续执行步骤S7;S9:对双字词语进行编码,索引值加2,跳转至步骤S2;S10:判断是否为双字词语码表最后一个词根,如果是,则进入步骤S11,否则,继续执行步骤S7;S11:单字码表中按序匹配,如果匹配,则进入步骤S12,否则,继续执行步骤S11;S12:对单字进行编码,索引值加1,跳转至步骤S2。为了区分三种编码方式,简化编码流程,降低时间损耗,所述单字码表中单字占13bit,其中前1bit作为标志位,所述双字词语码表中双字词语占13bit,其中前2bit作为标志位,所述短语码表中短语占11bit,其中前2bit作为标志位。作为一种优选的技术方案,短语编码格式为00xxxxxxxxx,双字词语编码格式为01xxxxxxxxxxx,单字编码格式为1xxxxxxxxxxxx据国家语言文字工作委员会发布的《中国语言生活状况报告(2015)》(商务印书馆)统计显示,汉字数量超过万个,但常用的仅前几千个。在所述单字编码选取N个汉字建立单字码表时,为了减少编码位数,选取使用频率靠前的3500个汉字建立单字码表,提供12bit共4096个编码空间。据《报告》统计,该3500个汉字使用频率超过了99.8%,具有很强的覆盖性。与现有技术相比,本申请提供的技术方案,具有的技术效果或优点是:具有高压缩率、高速率、易实现等优点,能够满足低速率汉字通信需求,具有很强的工程应用价值。附图说明图1为本专利技术的编码方法流程图;图2为本专利技术的解码方法流程图。具体实施方式本申请实施例通过提供一种应用于低速率应急通信的混合汉字编码方法,以解决低速率应急通信中的汉字编码技术占用资源较多,编码效率和通信效率低的技术问题。为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式,对上述技术方案进行详细的说明。实施例一种应用于低速率应急通信的混合汉字编码方法,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取N个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字。据国家语言文字工作委员会发布的《中国语言生活状况报告(2015)》(商务印书馆)统计显示,汉字数量超过万个,但常用的仅前几千个。在所述单字编码选取N个汉字建立单字码表时,为了减少编码位数,在本实施例中,选取使用频率靠前的3500个汉字建立单字码表,提供12bit共4096个编码空间。据《报告》统计,该3500个汉字使用频率超过了99.8%,具有很强的覆盖性。对于使用过程中出现的其他汉字,本专利技术将其列为短语类型,在短语码表中进行编码。鉴于日常汉语交流中双字词语出现概率更大,且码表结构相对多字/不定字词语更为清晰,本专利技术在词语编码中对象限定为双字词语。双字词语码表结构采取“词根+节点”的树形结构。相对于简单的对位编码,优势有两个,以11bit编码为例,树形结构8bit作为词根,3bit作为节点:1、码表结构清晰,便于搜索,节约编解码时间。码表全部搜索一遍,对位编码需要211=2048次,树形结构编码需要28+(23+1)=265次,约为前者的1/8;2、词根与自身组合,可以形成叠词,增加了码表容量。对位编码容量为211=2048个;树形结构编码容量为28×(23+1)=2304个,相对前者,增加了256个,即词根个数。短语码表是用来存储经常性使用的多字短语、短句或单字码表中未被编码的非常用字。其特点有两个:1、不规则性。不同于双字词语,其字数不定、词头不定,决定了编码方法采用对位编码;2、多样性。不同应用领域有较大不同,如军事用语里常用“炮火支援”、“无线电静默”等,经济领域常用“宏观调控”、“国内生产总值”等。因此,短语码表应根据具体使用环境来构建。在本实施例中,短语码表所占空间为9bit,共可容纳512个短语,基本满足实际应用需求。实际应用中可根据特殊情况进行扩缩。在编码时遵循两个原则:比特数尽量少、耗时尽量短。码表由单字、双字词语和短语构成,其压缩效率关系为:短语≥双字词语>单字,可见,不同的编码顺序带来的压缩效果不同。为得到最少的比特数,通过压缩效率关系可得出以下编码顺序:短语→双字词语→单字。单字和短语编码属于对位编码,索引方式采用对位索引;双字词语采用树形结构,索引方式采用先匹配词根,再匹配节点的方式,从而减少索引次数,降低编码耗时。为了区分三种编码方式,简化编码流程,降低时间损耗,所述单字码表中单字占13bit,其中前1bit作为标志位,所述双字词语码表中双字词语占13bit,其中前2bit作为标志位,所述短语码表中短语占11bit,其中前2bit作为标志位。如图1所示,具体编码流程为:S1:设置索引值初始化为0;S2:取索引后的一个字;S3:在所述短本文档来自技高网...
应用于低速率应急通信的混合汉字编码方法

【技术保护点】
一种应用于低速率应急通信的混合汉字编码方法,其特征在于,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取N个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,具体编码流程为:S1:设置索引值初始化为0;S2:取索引后的一个字;S3:在所述短语码表中按序匹配短语首字,如果匹配,则进入步骤S4,否则,进入步骤S6;S4:报文索引后取该短语长度n个字,和短语进行匹配,如果匹配,则进入步骤S5,否则,继续执行步骤S3;S5:对短语进行编码,索引值加n,n为短语平均长度,跳转至步骤S2;S6:判断是否为短语码表最后一个短语,如果是,则进入步骤S7,否则,继续执行步骤S3;S7:在所述双字词语码表中按序匹配词根,如果匹配,则进入步骤S8,否则,进入步骤S10;S8:匹配词尾,如果匹配,则进入步骤S9,否则,继续执行步骤S7;S9:对双字词语进行编码,索引值加2,跳转至步骤S2;S10:判断是否为双字词语码表最后一个词根,如果是,则进入步骤S11,否则,继续执行步骤S7;S11:单字码表中按序匹配,如果匹配,则进入步骤S12,否则,继续执行步骤S11;S12:对单字进行编码,索引值加1,跳转至步骤S2。...

【技术特征摘要】
1.一种应用于低速率应急通信的混合汉字编码方法,其特征在于,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取N个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,具体编码流程为:S1:设置索引值初始化为0;S2:取索引后的一个字;S3:在所述短语码表中按序匹配短语首字,如果匹配,则进入步骤S4,否则,进入步骤S6;S4:报文索引后取该短语长度n个字,和短语进行匹配,如果匹配,则进入步骤S5,否则,继续执行步骤S3;S5:对短语进行编码,索引值加n,n为短语平均长度,跳转至步骤S2;S6:判断是否为短语码表最后一个短语,如果是,则进入步骤S7,否则,继续执行步骤S3;S7:在所述双字词语码表中按序匹配词根,如果匹配,则进入步骤S8,否则,进入步骤S10;S8:匹配词尾,如果匹配,则进入步骤S9,否则,继续执行步骤S7;S...

【专利技术属性】
技术研发人员:李国军王渝冲谭露徐小飞
申请(专利权)人:中国人民解放军重庆通信学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1