当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于音形码的中文字符串相似度计算方法及装置制造方法及图纸

技术编号:24331342 阅读:60 留言:0更新日期:2020-05-29 19:42
本发明专利技术公开了一种所述音形码包括音码与形码,其中,音码由声母和韵母的数字编码组成,形码由汉字的四角编码、结构编码以及笔画数组成;预存所述音形码的映射规则,以及部分声母/韵母发音相似度,所述方法包括:接收待比较的两个字符串;读取音形码的映射规则,根据所述映射规则,将两个字符串中的每个汉字均转变为音形码表示;基于声母/韵母发音相似度,采用编辑距离计算两个字符串相应子串两两之间的编辑距离;根据所述编辑距离计算两个字符串的相似度。本发明专利技术将字符串转变为音形码数字串进行比较,提高了汉字匹配的精度,另一方面用汉字的编辑距离来替代编辑距离的权重,可以更精确的计算字符串的相似度。

A similarity calculation method and device of Chinese character string based on phonetic code

【技术实现步骤摘要】
一种基于音形码的中文字符串相似度计算方法及装置
本专利技术属于文本相似度计算
,尤其涉及一种基于音形码的中文字符串相似度计算方法及装置。
技术介绍
字符串的相似度作为衡量两个字符串之间近似程度的手段,是字符串匹配(Stringmatching)、文本比较(TextComparison)、信息抽取(InformationExtraction)中一项基本技术,它的输入通常是两个相同或不同的字符串,输出则是一个确定的值。两个字符串相似度越高,对应的返回值就越大。字符串的相似性度量方法有很多,包括余弦相似性(cosinesimilarity)、欧式距离(Euclideandistance)、编辑距离(editdistance)、海明距离(hammingdistance)、Dice距离、Jaccarddistance、J-W距离(Jaro–Winklerdistance)等。编辑距离算法,又称为Levenshtein距离,表示从一个字符串转化为另一个字符串所需要的最少编辑次数,即将字符串中的一个字符替换成另一个字符,或者插入删除字符,计算出一对字符本文档来自技高网...

【技术保护点】
1.一种基于音形码的中文字符串相似度计算方法,其特征在于,所述音形码包括音码与形码,其中,音码由声母和韵母的数字编码组成,形码由汉字的四角编码、结构编码以及笔画数组成;预存所述音形码的映射规则,以及部分声母/韵母发音相似度,所述方法包括:/n接收待比较的两个字符串;/n读取音形码的映射规则,根据所述映射规则,将两个字符串中的每个汉字均转变为音形码表示;/n基于声母/韵母发音相似度,采用编辑距离计算两个字符串相应子串两两之间的编辑距离;/n根据所述编辑距离计算两个字符串的相似度。/n

【技术特征摘要】
1.一种基于音形码的中文字符串相似度计算方法,其特征在于,所述音形码包括音码与形码,其中,音码由声母和韵母的数字编码组成,形码由汉字的四角编码、结构编码以及笔画数组成;预存所述音形码的映射规则,以及部分声母/韵母发音相似度,所述方法包括:
接收待比较的两个字符串;
读取音形码的映射规则,根据所述映射规则,将两个字符串中的每个汉字均转变为音形码表示;
基于声母/韵母发音相似度,采用编辑距离计算两个字符串相应子串两两之间的编辑距离;
根据所述编辑距离计算两个字符串的相似度。


2.如权利要求1所述的一种基于音形码的中文字符串相似度计算方法,其特征在于,所述音形码包括12位:2位声母、2位韵母、5位四角编码、1位结构码、2位笔画数。


3.如权利要求1所述的一种基于音形码的中文字符串相似度计算方法,其特征在于,所述音形码的映射规则包括:汉字到拼音、笔画、结构和四角编码的映射规则,以及声母、韵母、结构到数值码的映射规则。


4.如权利要求1所述的一种基于音形码的中文字符串相似度计算方法,其特征在于,所述基于编辑距离计算两个字符串相应子串两两之间的编辑距离包括:
初始化编辑距离矩阵;
根据动态规划策略,依次计算两个字符串中的汉字两两之间的编辑距离,并写入编辑距离矩阵。


5.如权利要求4所述的一种基于音形码的中文字符串相似度计算方法,其特征在于,采用edit_char(i,j)表示字符串A长度为i的子串到字符串B长度为j的子串的编辑距离,所述动态规划策略如下:
1)ifi==0&&j==0,edit_char(i,j)=0;
2)ifi==0&&j>0,edit_char(i,j)=j;
3)ifi>0&&j==0,edit_char(i,j)=I;

【专利技术属性】
技术研发人员:刘卫国宋红磊张浩殷泽坤张雯
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1