【技术实现步骤摘要】
一种汉字的向量表达方法
本专利技术涉及一种汉字的向量表达方法,属于汉语信息处理
技术介绍
在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。本专利技术的技术方案是:一种汉字的向量表达方法,具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的 ...
【技术保护点】
1.一种汉字的向量表达方法,其特征在于具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时 ...
【技术特征摘要】
1.一种汉字的向量表达方法,其特征在于具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;Step5:由Step2、Step3、Step4...
【专利技术属性】
技术研发人员:龙华,祁俊辉,邵玉斌,杜庆治,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。