一种基于矩阵运算的相似汉字提取方法技术

技术编号：20176889 阅读：18 留言：0更新日期：2019-01-23 00:25

本发明专利技术涉及一种基于矩阵运算的相似汉字提取方法，属于汉语信息处理技术领域。本发明专利技术首先提取汉字矩阵并建立汉字矩阵数据库，由用户输入参考汉字，将参考汉字与数据库中每个汉字计算其相似度，最后输出一定数量的相似汉字。其中，在计算汉字之间相似度时，采用矩阵平移、相减、取绝对值等操作进行。本发明专利技术与现有技术相比，主要解决了现有技术在对相似汉字提取时存在的耗费人力、准确性低、灵活性差等现象，增加了目前依靠计算机进行相似汉字提取的准确性。

A Method of Extracting Similar Chinese Characters Based on Matrix Operations

The invention relates to a method for extracting similar Chinese characters based on matrix operation, which belongs to the technical field of Chinese information processing. The invention first extracts the Chinese character matrix and establishes a Chinese character matrix database. The user inputs the reference Chinese characters, calculates the similarity between the reference Chinese characters and each Chinese character in the database, and finally outputs a certain number of similar Chinese characters. When calculating the similarity between Chinese characters, matrix translation, subtraction and absolute value are used. Compared with the prior art, the present invention mainly solves the problems of labor-consuming, low accuracy and poor flexibility in extracting similar Chinese characters in the prior art, and increases the accuracy of extracting similar Chinese characters by computer at present.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于矩阵运算的相似汉字提取方法
本专利技术涉及一种基于矩阵运算的相似汉字提取方法，属于汉语信息处理

技术介绍
对相似汉字的提取是汉语信息处理领域的一项基本研究，有助于汉语教学、排版、编辑等业务的发展。特别对汉语教学来讲，在初识语文时课本中便人工列举了很多相似汉字，以供学生学习、正确区分。若相似汉字只是少数，由人工区分并不困难，但汉字文化博大精深、数量庞大，若用人工区分则实施性较弱。目前，对汉字进行相似提取主要根据汉字之间的相似度进行，而汉字之间相似度的计算则分为两类：基于数学表达式和基于图像处理。但这两类方法都存在缺陷，若使用第一类方法，则需对汉字进行数学表达式的描述，若描述规则不合理则误差较大；若使用第二类方法，对于一些复合字的相似度计算结果较差。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足，提供一种基于矩阵运算的相似汉字提取方法，以解决现有技术在对相似汉字提取时存在的耗费人力、准确性低、灵活性差等现象，致力于增加目前依靠计算机进行相似汉字提取的准确性本专利技术的技术方案是：一种基于矩阵运算的相似汉字提取方法，该方法具体包括以下步骤：Step0：提取汉字矩阵并建立汉字矩阵数据库；根据m×n像素中文点阵字库，生成大小为m×n的汉字矩阵Im×n，将所有汉字及生成的汉字矩阵存入数据库，组建汉字矩阵数据库；Step1：记X为将要提取相似汉字的参考汉字，从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX；Step2：记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字，依照Step2.1～Step2.6所示计算方法得到参考汉字...

【技术保护点】
1.一种基于矩阵运算的相似汉字提取方法，其特征在于：Step0：提取汉字矩阵并建立汉字矩阵数据库；根据m×n像素中文点阵字库，生成大小为m×n的汉字矩阵Im×n，将所有汉字及生成的汉字矩阵存入数据库，组建汉字矩阵数据库；Step1：记X为将要提取相似汉字的参考汉字，从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX；Step2：记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字，依照Step2.1～Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902]；Step2.1：从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵

【技术特征摘要】
1.一种基于矩阵运算的相似汉字提取方法，其特征在于：Step0：提取汉字矩阵并建立汉字矩阵数据库；根据m×n像素中文点阵字库，生成大小为m×n的汉字矩阵Im×n，将所有汉字及生成的汉字矩阵存入数据库，组建汉字矩阵数据库；Step1：记X为将要提取相似汉字的参考汉字，从汉字矩阵数据库中获取汉字X所对应的汉字矩阵IX；Step2：记Yi,i∈[1,20902]为汉字矩阵数据库中的一个汉字，依照Step2.1～Step2.6所示计算方法得到参考汉字X与汉字Yi的相似度Sim(X,Yi),i∈[1,20902]；Step2.1：从汉字矩阵数据库中获取汉字Yi及对应的汉字矩阵Step2.2：生成大小为m×n的零矩阵Zm×n；Step2.3：将汉字矩阵置于零矩阵Zm×n上方并向下平移，每平移一行生成新矩阵，共生成2m+1个矩阵，具体为Step2.4：将汉字矩阵置于零矩阵Zm×n左方并向右平移，每平移一列生成新矩阵，共生成2n+1个矩阵，具体为Step2.5：将汉字矩阵IX与矩阵进行公式(1)所示计算，得到相似度组Simt1,Simt2,…,Simt2m+2n+2；其中，表示矩阵IX和相减并取绝对值后的新矩阵；表示新矩阵中所有元素相加的结果；Step2.6：汉字X、Yi的字形相似度Sim(X,Yi)计算如公式(2)所示，即汉字X、Yi的字形相似度Sim(X,Yi)为Step2...

【专利技术属性】
技术研发人员：龙华，祁俊辉，杜庆治，邵玉斌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人