一种汉字的向量表达方法技术

技术编号:20221874 阅读:40 留言:0更新日期:2019-01-28 20:20
本发明专利技术涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。本发明专利技术通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。本发明专利技术与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。

【技术实现步骤摘要】
一种汉字的向量表达方法
本专利技术涉及一种汉字的向量表达方法,属于汉语信息处理

技术介绍
在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。本专利技术的技术方案是:一种汉字的向量表达方法,具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;Step3本文档来自技高网...

【技术保护点】
1.一种汉字的向量表达方法,其特征在于具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1...

【技术特征摘要】
1.一种汉字的向量表达方法,其特征在于具体步骤为:Step1:获取汉字X;Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;Step5:由Step2、Step3、Step4...

【专利技术属性】
技术研发人员:龙华祁俊辉邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1