一种汉字自动部件层次分析方法技术

技术编号:7103904 阅读:306 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种汉字自动部件层次分析方法,包括以下步骤:步骤1确定汉字基本笔画集合,并将《信息交换用汉字编码字符集》“GB2312-80”所收集的6763个汉字中按照该笔画集合写成笔画序列的形式;步骤2依靠汉字部件的稳定性特征将汉字自动切分多个部件,并对这些部件重复步骤2,最终形成层次结构的汉字部件分析树。本发明专利技术依据的汉字基本笔画更加具有区别性,在此基础上实现汉字的部件层次分析的自动化。分析结果在用于汉字字形的计算机分析、汉字字形相似度对比等应用中时,因为对部件粒度和拆分方式具有统一的标准,因此可避免传统手工拆分方式时标准不统一所带来的问题。

【技术实现步骤摘要】

本专利技术涉及简体汉字的字形结构分析,特别涉及到简体汉字的自动部件层次分析方法。
技术介绍
从结构上来看,汉字包括独体字和复合字两种。独体字是指不能进一步拆分的汉字,而复合字是由复合字、独体字、偏旁、部首等以某种结构组合在一起形成的汉字。在《信息交换用汉字编码字符集》(GB2312-80)所收集的6763个汉字中,独体字有336个,仅占 4. 96%,其余的95. 04%均是复合字。由于结构复杂,复合字的学习、书写,以及计算机处理都较困难。将复合汉字逐层地分解为多个部件称为汉字的部件层次分析。通过部件层次分析, 可以简化汉字结构,明晰其构造特征,有助于人和计算机系统更好地处理复合汉字。汉字部件层次分析的结果是一棵多叉树,附图说明图1给出了一个示例,以‘寞’字为例,第一层将其拆分为 “山+莫”、第二层又将‘莫’进一步拆分为+旲”、第三层又将‘旲’拆分为“日+大”。在计算机领域,汉字的部件层次分析对汉字的字形自动分析具有重要作用,是比较两个汉字的字形相似度的基础资源。在基于字形的汉字相似度计算中,通常采用分而治之的策略,首先把汉字拆分为多个部件,分别计算各个对应部件间的相似度,然后进行本文档来自技高网...

【技术保护点】
1.一种汉字自动部件层次分析方法,其特征在于:具体步骤包括:步骤1. 确定汉字基本笔画集合, 并将《信息交换用汉字编码字符集》“GB2312-80”所收集的6763个汉字中按照该笔画集合写成笔画序列的形式;步骤2. 依靠汉字部件的稳定性特征将汉字自动切分多个部件,并对这些部件重复步骤2,最终形成层次结构的汉字部件分析树。

【技术特征摘要】

【专利技术属性】
技术研发人员:王石曹存根刘亮亮郑宇飞王为民符建辉曹亚男
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1