一种汉字自动部件层次分析方法技术

技术编号：7103904 阅读：306 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种汉字自动部件层次分析方法，包括以下步骤：步骤1确定汉字基本笔画集合，并将《信息交换用汉字编码字符集》“GB2312-80”所收集的6763个汉字中按照该笔画集合写成笔画序列的形式；步骤2依靠汉字部件的稳定性特征将汉字自动切分多个部件，并对这些部件重复步骤2，最终形成层次结构的汉字部件分析树。本发明专利技术依据的汉字基本笔画更加具有区别性，在此基础上实现汉字的部件层次分析的自动化。分析结果在用于汉字字形的计算机分析、汉字字形相似度对比等应用中时，因为对部件粒度和拆分方式具有统一的标准，因此可避免传统手工拆分方式时标准不统一所带来的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及简体汉字的字形结构分析，特别涉及到简体汉字的自动部件层次分析方法。
技术介绍
从结构上来看，汉字包括独体字和复合字两种。独体字是指不能进一步拆分的汉字，而复合字是由复合字、独体字、偏旁、部首等以某种结构组合在一起形成的汉字。在《信息交换用汉字编码字符集》(GB2312-80)所收集的6763个汉字中，独体字有336个，仅占 4. 96%，其余的95. 04%均是复合字。由于结构复杂，复合字的学习、书写，以及计算机处理都较困难。将复合汉字逐层地分解为多个部件称为汉字的部件层次分析。通过部件层次分析，可以简化汉字结构，明晰其构造特征，有助于人和计算机系统更好地处理复合汉字。汉字部件层次分析的结果是一棵多叉树，附图说明图1给出了一个示例，以‘寞’字为例，第一层将其拆分为 “山+莫”、第二层又将‘莫’进一步拆分为+旲”、第三层又将‘旲’拆分为“日+大”。在计算机领域，汉字的部件层次分析对汉字的字形自动分析具有重要作用，是比较两个汉字的字形相似度的基础资源。在基于字形的汉字相似度计算中，通常采用分而治之的策略，首先把汉字拆分为多个部件，分别计算各个对应部件...

【技术保护点】
１．一种汉字自动部件层次分析方法，其特征在于：具体步骤包括：步骤１．　确定汉字基本笔画集合，　并将《信息交换用汉字编码字符集》“ＧＢ２３１２－８０”所收集的６７６３个汉字中按照该笔画集合写成笔画序列的形式；步骤２．　依靠汉字部件的稳定性特征将汉字自动切分多个部件，并对这些部件重复步骤２，最终形成层次结构的汉字部件分析树。

【技术特征摘要】

【专利技术属性】
技术研发人员：王石，曹存根，刘亮亮，郑宇飞，王为民，符建辉，曹亚男，
申请(专利权)人：镇江诺尼基智能技术有限公司，
类型：发明
国别省市：32

全部详细技术资料下载我是这个专利的主人