【技术实现步骤摘要】
本专利技术涉及简体汉字的字形结构分析,特别涉及到简体汉字的自动部件层次分析方法。
技术介绍
从结构上来看,汉字包括独体字和复合字两种。独体字是指不能进一步拆分的汉字,而复合字是由复合字、独体字、偏旁、部首等以某种结构组合在一起形成的汉字。在《信息交换用汉字编码字符集》(GB2312-80)所收集的6763个汉字中,独体字有336个,仅占 4. 96%,其余的95. 04%均是复合字。由于结构复杂,复合字的学习、书写,以及计算机处理都较困难。将复合汉字逐层地分解为多个部件称为汉字的部件层次分析。通过部件层次分析, 可以简化汉字结构,明晰其构造特征,有助于人和计算机系统更好地处理复合汉字。汉字部件层次分析的结果是一棵多叉树,附图说明图1给出了一个示例,以‘寞’字为例,第一层将其拆分为 “山+莫”、第二层又将‘莫’进一步拆分为+旲”、第三层又将‘旲’拆分为“日+大”。在计算机领域,汉字的部件层次分析对汉字的字形自动分析具有重要作用,是比较两个汉字的字形相似度的基础资源。在基于字形的汉字相似度计算中,通常采用分而治之的策略,首先把汉字拆分为多个部件,分别计算各个对应部件 ...
【技术保护点】
1.一种汉字自动部件层次分析方法,其特征在于:具体步骤包括:步骤1. 确定汉字基本笔画集合, 并将《信息交换用汉字编码字符集》“GB2312-80”所收集的6763个汉字中按照该笔画集合写成笔画序列的形式;步骤2. 依靠汉字部件的稳定性特征将汉字自动切分多个部件,并对这些部件重复步骤2,最终形成层次结构的汉字部件分析树。
【技术特征摘要】
【专利技术属性】
技术研发人员:王石,曹存根,刘亮亮,郑宇飞,王为民,符建辉,曹亚男,
申请(专利权)人:镇江诺尼基智能技术有限公司,
类型:发明
国别省市:32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。