一种基于矩阵运算的相似汉字提取方法技术

技术编号:20176889 阅读:18 留言:0更新日期:2019-01-23 00:25
本发明专利技术涉及一种基于矩阵运算的相似汉字提取方法,属于汉语信息处理技术领域。本发明专利技术首先提取汉字矩阵并建立汉字矩阵数据库,由用户输入参考汉字,将参考汉字与数据库中每个汉字计算其相似度,最后输出一定数量的相似汉字。其中,在计算汉字之间相似度时,采用矩阵平移、相减、取绝对值等操作进行。本发明专利技术与现有技术相比,主要解决了现有技术在对相似汉字提取时存在的耗费人力、准确性低、灵活性差等现象,增加了目前依靠计算机进行相似汉字提取的准确性。

A Method of Extracting Similar Chinese Characters Based on Matrix Operations

The invention relates to a method for extracting similar Chinese characters based on matrix operation, which belongs to the technical field of Chinese information processing. The invention first extracts the Chinese character matrix and establishes a Chinese character matrix database. The user inputs the reference Chinese characters, calculates the similarity between the reference Chinese characters and each Chinese character in the database, and finally outputs a certain number of similar Chinese characters. When calculating the similarity between Chinese characters, matrix translation, subtraction and absolute value are used. Compared with the prior art, the present invention mainly solves the problems of labor-consuming, low accuracy and poor flexibility in extracting similar Chinese characters in the prior art, and increases the accuracy of extracting similar Chinese characters by computer at present.

【技术实现步骤摘要】
一种基于矩阵运算的相似汉字提取方法
本专利技术涉及一种基于矩阵运算的相似汉字提取方法,属于汉语信息处理

技术介绍
对相似汉字的提取是汉语信息处理领域的一项基本研究,有助于汉语教学、排版、编辑等业务的发展。特别对汉语教学来讲,在初识语文时课本中便人工列举了很多相似汉字,以供学生学习、正确区分。若相似汉字只是少数,由人工区分并不困难,但汉字文化博大精深、数量庞大,若用人工区分则实施性较弱。目前,对汉字进行相似提取主要根据汉字之间的相似度进行,而汉字之间相似度的计算则分为两类:基于数学表达式和基于图像处理。但这两类方法都存在缺陷,若使用第一类方法,则需对汉字进行数学表达式的描述,若描述规则不合理则误差较大;若使用第二类方法,对于一些复合字的相似度计算结果较差。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种基于矩阵运算的相似汉字提取方法,以解决现有技术在对相似汉字提取时存在的耗费人力、准确性低、灵活性差等现象,致力于增加目前依靠计算机进行相似汉字提取的准确性本专利技术的技术方案是:一种基于矩阵运算的相似汉字提取方法,该方法具体包括以下步骤:Step0:提取汉字矩阵并建立汉字矩阵数据库;根据m×n像素中文点阵字库,生成大小为m×n的汉字矩阵Im×n,将所有汉字及生成的汉字矩阵存入数据库,组建汉字矩阵数据库;Step1:记X为将要提取相似汉字的参考汉字,从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX;Step2:记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字,依照Step2.1~Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902];Step2.1:从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵Step2.2:生成大小为m×n的零矩阵Zm×n;Step2.3:将汉字矩阵置于零矩阵Zm×n上方并向下平移,每平移一行生成新矩阵,共生成2m+1个矩阵,具体为Step2.4:将汉字矩阵置于零矩阵Zm×n左方并向右平移,每平移一列生成新矩阵,共生成2n+1个矩阵,具体为Step2.5:将汉字矩阵IX与矩阵进行公式(1)所示计算,得到相似度值Simt1,Simt2,…,Simt2m+2n+2;其中,表示矩阵IX和相减并取绝对值后的新矩阵;表示新矩阵中所有元素相加的结果;Step2.6:汉字X、Yi的字形相似度Sim(X,Yi)计算如公式(2)所示,即汉字X、Yi的字形相似度Sim(X,Yi)为Step2.5中得到的相似度值Simt1,Simt2,…,Simt2m+2n+2中的最大值;Sim(X,Yi)=Max(Simt1,Simt2,…,Simt2m+2n+2),i∈[1,20902](2)Step3:将Sim(X,Yi),i∈[1,20902]从高至低排序,提取出前N个相似度最高的汉字作为参考汉字X的相似汉字并输出。进一步地,所述步骤Step0中,m×n像素中文点阵共有mn个像素点;汉字矩阵Im×n中的元素值I(i,j),i∈[1,m],j∈[1,n]由汉字所在中文点阵中的像素决定,即在中文点阵的(i,j)位置若存在汉字痕迹,则I(i,j)=1,否则I(i,j)=0。进一步地,所述步骤Step0中,所有汉字指的是编码方式为Unicode的中日韩统一表意文字基本字符集所收录的20902个汉字(Unicode码为4E00~9FA5)。进一步地,所述步骤Step1中,X为用户输入的参考汉字,需为中日韩统一表意文字基本字符集所收录的20902个汉字之一。进一步地,所述步骤Step2中,Yi为遍历汉字矩阵数据库得到的汉字,Sim(X,Yi)为参考汉字X与汉字Yi的相似度;经步骤Step2后可以得到参考汉字X与所有汉字的相似度,共计20902个相似度,即Sim(X,Yi),i∈[1,20902]。进一步地,所述步骤Step3中,N为所提取出相似汉字的个数,由用户决定,默认为10;在将Sim(X,Yi),i∈[1,20902]从高至低排序时,若存在相同相似度的多个汉字,则并联输出。本专利技术的有益效果是:本专利技术与现有技术相比,主要解决了现有技术在对相似汉字提取时存在的耗费人力、准确性低、灵活性差等现象,增加了目前依靠计算机进行相似汉字提取的准确性。附图说明图1是本专利技术的流程示意图;图2是本专利技术Step2步骤流程示意图;图3是本专利技术m×n像素中文点阵示意图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-3所示,一种基于矩阵运算的相似汉字提取方法,首先提取汉字矩阵并建立汉字矩阵数据库,由用户输入参考汉字,将参考汉字与数据库中每个汉字计算其相似度,最后输出一定数量的相似汉字。其中,在计算汉字之间相似度时,采用矩阵平移、相减、取绝对值等操作进行。具体步骤为:Step0:提取汉字矩阵并建立汉字矩阵数据库;根据m×n像素中文点阵字库,生成大小为m×n的汉字矩阵Im×n,将所有汉字及生成的汉字矩阵存入数据库,组建汉字矩阵数据库;Step1:记X为将要提取相似汉字的参考汉字,从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX;Step2:记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字,依照Step2.1~Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902];Step2.1:从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵Step2.2:生成大小为m×n的零矩阵Zm×n;Step2.3:将汉字矩阵置于零矩阵Zm×n上方并向下平移,每平移一行生成新矩阵,共生成2m+1个矩阵,具体为Step2.4:将汉字矩阵置于零矩阵Zm×n左方并向右平移,每平移一列生成新矩阵,共生成2n+1个矩阵,具体为Step2.5:将汉字矩阵IX与矩阵进行公式(1)所示计算,得到相似度值Simt1,Simt2,…,Simt2m+2n+2;其中,表示矩阵IX和相减并取绝对值后的新矩阵;表示新矩阵中所有元素相加的结果;Step2.6:汉字X、Yi的字形相似度Sim(X,Yi)计算如公式(2)所示,即汉字X、Yi的字形相似度Sim(X,Yi)为Step2.5中得到的相似度值Simt1,Simt2,…,Simt2m+2n+2中的最大值;Sim(X,Yi)=Max(Simt1,Simt2,…,Simt2m+2n+2),i∈[1,20902](2)Step3:将Sim(X,Yi),i∈[1,20902]从高至低排序,提取出前N个相似度最高的汉字作为参考汉字X的相似汉字并输出。进一步地,所述步骤Step0中,m×n像素中文点阵共有mn个像素点;汉字矩阵Im×n中的元素值I(i,j),i∈[1,m],j∈[1,n]由汉字所在中文点阵中的像素决定,即在中文点阵的(i,j)位置若存在汉字痕迹,则I(i,j)=1,否则I(i,j)=0。进一步地,所述步骤Step0中,所有汉字指的是编码方式为Unicode的中日韩统一表意文字基本字符集所收录的20902个汉字(Unicode码为4E00~9FA5)。进一步地,所述步骤Step1中,X为用户输入的参考汉字,需为中日韩统一表意文字基本字符集所收录的20902个汉字之一。进一步地本文档来自技高网...

【技术保护点】
1.一种基于矩阵运算的相似汉字提取方法,其特征在于:Step0:提取汉字矩阵并建立汉字矩阵数据库;根据m×n像素中文点阵字库,生成大小为m×n的汉字矩阵Im×n,将所有汉字及生成的汉字矩阵存入数据库,组建汉字矩阵数据库;Step1:记X为将要提取相似汉字的参考汉字,从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX;Step2:记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字,依照Step2.1~Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902];Step2.1:从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵

【技术特征摘要】
1.一种基于矩阵运算的相似汉字提取方法,其特征在于:Step0:提取汉字矩阵并建立汉字矩阵数据库;根据m×n像素中文点阵字库,生成大小为m×n的汉字矩阵Im×n,将所有汉字及生成的汉字矩阵存入数据库,组建汉字矩阵数据库;Step1:记X为将要提取相似汉字的参考汉字,从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX;Step2:记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字,依照Step2.1~Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902];Step2.1:从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵Step2.2:生成大小为m×n的零矩阵Zm×n;Step2.3:将汉字矩阵置于零矩阵Zm×n上方并向下平移,每平移一行生成新矩阵,共生成2m+1个矩阵,具体为Step2.4:将汉字矩阵置于零矩阵Zm×n左方并向右平移,每平移一列生成新矩阵,共生成2n+1个矩阵,具体为Step2.5:将汉字矩阵IX与矩阵进行公式(1)所示计算,得到相似度组Simt1,Simt2,…,Simt2m+2n+2;其中,表示矩阵IX和相减并取绝对值后的新矩阵;表示新矩阵中所有元素相加的结果;Step2.6:汉字X、Yi的字形相似度Sim(X,Yi)计算如公式(2)所示,即汉字X、Yi的字形相似度Sim(X,Yi)为Step2...

【专利技术属性】
技术研发人员:龙华祁俊辉杜庆治邵玉斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1