当前位置: 首页 > 专利查询>清华大学专利>正文

一种中文相似性匹配方法组成比例

技术编号:6080551 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种中文相似性匹配方法,利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度,即反应二者在编辑时是否容易混淆,通过汉字声母、韵母的发音规律得到字符串的声母相似度及韵母相似度,同时结合方言或者普通发音中常见的模糊音,计算字符串之间的发音相似度,由于汉字的字形是中文一个重要特征,所以利用字形编码-五笔字型编码计算字符串之间的字形相似度;在计算的同时收集信息,用于更新数据;综合上述相似度得到中文词整体的相似度,充分考虑了中文的拼写习惯、用户的输入习惯及键盘布局、普通话的发音规则、方言以及常见错误发音的影响、汉字字形等多方面因素,结合统计规律,综合评价中文词之间的相似度。

A Chinese similarity matching method

The invention provides a Chinese similarity matching method, using edit distance formula and keyboard fingering rules Chinese corresponding pinyin edit similarity, the reaction is easy to confuse the two when editing, get acoustic similarity and similarity of parent strings by vowel consonant and vowel pronunciation rules Chinese characters, combined with fuzzy tone common dialect or the general pronunciation, pronunciation similarity calculation between strings, as an important feature of Chinese is Chinese characters font, font font encoding - so using similarity calculation between five strokes encoding string; in the collection of information at the same time calculation, for updating data; the similarity similarity is the overall Chinese word, considering the spelling habits, user input habits and keyboard layout, the Chinese Mandarin pronunciation rules, dialect And the influence of common mistakes, pronunciation, Chinese characters and other factors, combined with statistical rules, a comprehensive evaluation of the similarity between Chinese words.

【技术实现步骤摘要】

本专利技术涉及搜索中的文相似性匹配
,特别是涉及。
技术介绍
字符串的相似性函数作为衡量两个字符串之间近似程度的函数,是字符串匹配 (String matching)、文本比较(Text Comparison)、信肩、才由取(Information Extraction) 中一项基本技术,它的输入通常是两个相同或不同的字符串,返回一个确定的整数值。两 个字符串相似度越高,对应的返回值就越大。这项技术在计算生物学(Computational Biology),信号处理(Signal Processing)中也有广泛的应用。针对应用场合不同,有很多经典的相似性函数可供选择。例如编辑距离(EditDistance 或 Levenshtein Distance),它考虑了 三种编辑操作-插入(insertion),删除(Deletion)和替换(Substitution),用将一个字符串转换成另一个字符串所需要的最 少的编辑操作的数量作为这两个字符串的相似度;Smith-Waterman距离(Smith-Waterman Algorithm)是一种用于找到两个序列中相似区域的算法,经常用于计算生物学中核苷酸序 列、氨基酸序列的比对。这种算法中,所涉及的操作也只有三种插入、删除和替换。除了以 上精确计算两个字符串差异的这些算法,也存在其他近似的简单的基于统计的方法。例如 Dice ¢5 (Dice Coefficient) 5 Jaccard ¢5 (Jaccard Index 5 Jaccard Similarity Coefficient),这两种方法在计算时都需要先将要比较的字符串S1, &划分成q-gram,一个 字符串的q-gram指的是它的所有长度为q的连续子串,例如,apple的2-gram就是ap, PP, pl,Ie0划分结束后,得到两个字符串对应的q-gram集合SQ1, SQ2,则Dice (S1, s2)= 2* ι SQ1 η SGl2I/(I SQ1H SGj21) ,Jaccard (S1, S2) = SQ1 Π SQ21 / | SQ1 U SQ2U 考虑到读音相 近的字符更容易出现拼写错误,有人专利技术了基于读音的相似性函数,例如Soimdex,这种算 法将英文中发音相似的字母编码为相同的数字,例如b,f,ρ,ν都映射为1。h,w这样不存 在发音相近的字母的情况则不映射。通过上述方式,一个由英文字母组成的字符串就被转 换成一个字母加数字的字符串,再通过更进一步的计算得到这两个字符串的相似度,作为 原字符串的相似度。以上这些方法足以覆盖需要衡量字符串相似度的大部分领域,但是它 们的局限性在于所有的这些方法都是针对英文,或者可以比较容易地推广到印欧语系的其 他语种(例如法语),对于汉语这样的结合了字形与读音的语种,它们的应用将受到一定 的限制。若是将汉字转化成拼音,英文的相似性函数可以用于中文字符串的相似性比较。 但是需要考虑到中文自身的特点。首先,在拼音中,每个字符(或者有意义的字符组合)发 音都是确定的,例如字母a在无论是出现在chang还是fang中,它的发音都是不变的。英 文则完全不同,同样对于字母a,在cake中的发音就是,而在cat中则发。而汉语拼 音中,有意义的字母组合数量是很少的,例如ding是有意义的,但是对于这四个字母可能 组成的其他15个排列,只有di,ni有汉字与之对应,英文中则不相同,nid,gin, di,id这些组合(省略其他情况)都有确定的含义。编辑操作对于中文而言,覆盖了很多可以省略 的情况。在另一方面,中文中的编辑操作也无法用简单的插入、删除和替换操作来概括。例 如考虑heng (恒)和hen (痕),heng (恒)和sheng (绳),这两组字符串对应的编辑距离 都为1,但是很显然,前两个字符串的近似度更高,因为它更符合中文中的发音错误。而对于 heng(哼)和sheng(声),Sen(森)和sheng (声),即使前一组字符串的编辑距离为1,而 后一组字符串的编辑距离为2,我们仍然会认为后两者更加接近。除了上面的简单的示例 外,中文还存在许多复杂情况,例如方言、字形等。随着汉语在计算机领域使用的推广,尤其是在互联网使用的普及,提出一种适合 中文的相似性函数是十分有必要的。例如,网络中每天都存在着大量中文文本信息,而这些 或是由人工编辑、或是由机器生成的文档,存在着大量错误,在进行更深层次的操作之前, 需要先进行预处理,预处理中的许多步骤(清洗、整合)都涉及到相似性比较。而用户利 用关键字查询信息时,也可能出现各种错误(例如只能记住读音,或者更加简单的拼写错 误),一个设计良好的相似性函数,可以用于帮助用户直接找到他们期望的词语。
技术实现思路
本专利技术所要解决的技术问题是提供,用以精确地度量中 文发音、方言、字形等汉语使用中常出现的错误,从而返回更加符合中文使用习惯的函数 值,并且,它能更进一步地挖掘用户的习惯,校准、扩展原有模型。为了解决上述问题,本专利技术公开了,所述方法包括获取两个待比较的字符串A和B ;计算两个字符串A和B在编辑时的相似度;获取两个字符串A和B的发音相似度;获取两个字符串A和B的字形相似度;对照预先建立的汉字词频统计表Table3和汉字错误信息统计表Table4统计两个 字符串A和B的词频和错误信息;根据统计结果确定两个字符串A和B编辑时的相似度、发音相似度以及字形相似 度的权值,计算获取到两个待比较的中文字符串A和B的匹配度。优选的,所述方法还包括建立汉字到拼音的对照表Tablel ;建立汉字到五笔的对照表Table2 ;建立汉字词频统计表Table3 ;建立汉字错误信息统计表Table4。优选的,当所获取的两个待比较的字符串A和B为汉字字符串时,所述方法还包 括对照对照表Tablel将字符串转化为拼音字符串。优选的,所述计算两个字符串A和B在编辑时的相似度具体包括以下子步骤计算两个字符串A和B的编辑距离相似度根据正确键盘指法,计算两个字符串A和B的键盘分布相似度;对两个字符串A和B的编辑距离相似度和键盘分布相似度加权求和,获取到两个字符串A和B在编辑时的相似度。优选的,所述获取两个字符串A和B的发音相似度具体包括以下子步骤计算两个字符串A和B的声母相似度;计算两个字符串A和B的韵母相似度;对两个字符串A和B的声母相似度和韵母相似度加权求和,获取到两个字符串A 和B的发音相似度。优选的,所述方法在对两个字符串A和B的声母相似度和韵母相似度加权求和后, 还包括计算两个字符串A和B的模糊音相似度;将计算的两个字符串A和B的模糊音相似度,与对两个字符串A和B的声母相似 度和韵母相似度加权求和的值进行加权求和,获取到两个字符串A和B的发音相似度。与现有技术相比,本专利技术具有以下优点本专利技术利用编辑距离公式及键盘指法规则得到中文对应拼音的编辑相似度,即反 应二者在编辑时是否容易混淆;通过汉字声母、韵母的发音规律得到字符串的声母相似度 及韵母相似度,同时结合方言或者普通发音中常见的模糊音,计算字符串之间的发音相似 度;由于汉字的字形是中文一个重要特征,所以利用字形编码——五笔字型编码计算字符 串之间的字形相似本文档来自技高网
...

【技术保护点】
1.一种中文相似性匹配方法,其特征在于,所述方法包括:获取两个待比较的字符串A和B;计算两个字符串A和B在编辑时的相似度;获取两个字符串A和B的发音相似度;获取两个字符串A和B的字形相似度;对照预先建立的汉字词频统计表Table3和汉字错误信息统计表Table4统计两个字符串A和B的词频和错误信息;根据统计结果确定两个字符串A和B编辑时的相似度、发音相似度以及字形相似度的权值,计算获取到两个待比较的中文字符串A和B的匹配度。

【技术特征摘要】

【专利技术属性】
技术研发人员:李国良黄维篁冯建华
申请(专利权)人:清华大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1