一种对中文字串进行匹配的方法及装置制造方法及图纸

技术编号:15878661 阅读:75 留言:0更新日期:2017-07-25 16:39
本申请实施例公开了一种对中文字串进行匹配的方法及装置。该方法包括:获取待匹配的第一字串和第二字串,并将第一字串转换成表征第一字串笔画或拼音信息的第一编码串,以及将第二字串转换成表征第二字串笔画或拼音信息的第二编码串;根据第一编码串和第二编码串判断第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果相同位置上的字符是形似字或音似字,则根据预设的计算形似字或音似字的编辑距离规则获取相同位置上字符之间的编辑距离,编辑距离小于预设的不同字符之间的最大编辑距离;根据编辑距离对第一字串和第二字串进行匹配。应用本申请实施例可以提高计算机在对中文字串匹配时处理形似字和音似字的能力。

Method and device for matching Chinese string

The embodiment of the present invention discloses a method and a device for matching Chinese strings. The method includes: obtaining the first matching string and second string, and the string into the first encoding the first characterization of a string of strokes or the Pinyin strings of information, as well as second encoding second string converted into second string representation strokes or Pinyin strings of information; according to the first encoding string and second string and second string encoding the first judgment in the same position on whether the string character is like a word or sound like words, if the same position is a character word or sound like words, according to the rules of distance calculation or edit preset homograph sound like word gets the same position between characters of the edit distance between different characters, the edit distance is less than a preset. The maximum edit distance; according to the edit distance for the first string and second string matching. Applying the embodiment of the present invention can improve the ability of the computer to process similar characters and phonetic characters when matching Chinese strings.

【技术实现步骤摘要】
一种对中文字串进行匹配的方法及装置
本申请涉及计算机
,尤其涉及一种对中文字串进行匹配的方法及装置。
技术介绍
目前,计算机或者其他电子设备对用户输入的文本内容进行匹配的应用场景有很多,例如,用户在网上检索时,计算机会将用户输入的文本信息和存储在数据库中的信息进行匹配,匹配成功后,计算机会将存储在数据库的信息向用户展示;再例如,用户可以利用计算机或其他电子设备的文本匹配功能对一些物品进行分类,比如,图书管理人员可以利用计算机对图书进行分类,即通过计算机对输入的图书信息进行匹配,完成分类操作,例如,将图书信息为“喜剧”的图书归为一类等。在上述应用场景下,现有技术对文本内容进行匹配的方法通常是:计算待匹配文本内容所对应字串之间的相似度;这里计算相似度通常是计算一个字串变换到另一字串的编辑距离,并通过比较计算得到的编辑距离与预设的编辑距离阈值的大小,判断这两字串的相似度。虽然现有技术中通过计算字串之间的编辑距离来获取字串之间的相似度,对于处理英文字串具有良好效果,但是却没有处理中文字串中的形似字和音似字的能力。具体的,现有技术在计算两字串中的形似字或音似字之间的编辑距离时,通常如果计本文档来自技高网...
一种对中文字串进行匹配的方法及装置

【技术保护点】
一种对中文字串进行匹配的方法,其特征在于,该方法包括:获取待匹配的第一字串和第二字串,并将所述第一字串转换成表征所述第一字串笔画或拼音信息的第一编码串,以及将所述第二字串转换成表征所述第二字串笔画或拼音信息的第二编码串;根据所述第一编码串和第二编码串判断所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,则根据预设的计算形似字或音似字的编辑距离规则获取所述相同位置上字符之间的编辑距离,所述编辑距离小于预设的不同字符之间的最大编辑距离;根据所述编辑距离对所述第一字串和第二字串进行匹配。

【技术特征摘要】
1.一种对中文字串进行匹配的方法,其特征在于,该方法包括:获取待匹配的第一字串和第二字串,并将所述第一字串转换成表征所述第一字串笔画或拼音信息的第一编码串,以及将所述第二字串转换成表征所述第二字串笔画或拼音信息的第二编码串;根据所述第一编码串和第二编码串判断所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,则根据预设的计算形似字或音似字的编辑距离规则获取所述相同位置上字符之间的编辑距离,所述编辑距离小于预设的不同字符之间的最大编辑距离;根据所述编辑距离对所述第一字串和第二字串进行匹配。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一编码串和第二编码串判断所述第一字串和第二字串中相同位置上的字符是否是形似字具体包括:根据所述第一编码串和第二编码串所表征的笔画信息,获取所述第一字串中字符对应的笔画信息变换到第二字串相同位置上字符对应的笔画信息之间的变换次数,或获取第二字串中字符对应的笔画信息变换到第一字串相同位置上字符对应的笔画信息之间的变换次数,并根据所述变换次数和相同位置上字符的最大笔画长度判断所述字符是否是形似字。3.根据权利要求2所述的方法,其特征在于,在根据所述变换次数和相同位置上字符中的最大笔画长度判断所述字符是否是形似字之前,所述方法还包括:将所述变换次数与预设形似字对应笔画信息之间变换的最大次数进行比较;如果所述变换次数大于所述预设形似字对应笔画信息之间变换的最大次数,则确定所述相同位置上的字符不是形似字;如果所述变换次数小于所述预设形似字对应笔画信息之间变换的最大次数,则根据所述变换次数和相同位置上字符中的最大笔画长度判断所述字符是否是形似字。4.根据权利要求1所述的方法,其特征在于,所述将所述第一字串转换成表征所述第一字串笔画信息的第一编码串和将所述第二字串转换成表征所述第二字串笔画信息的第二编码串包括:根据所述第一字串的笔画顺序对所述第一字串的笔画信息进行表征,获取第一编码串,并根据所述第二字串的笔画顺序对所述第二字串的笔画信息进行表征,获取第二编码串。5.根据权利要求1所述的方法,其特征在于,所述将所述第一字串转换成表征所述第一字串笔画信息的第一编码串和将所述第二字串转换成表征所述第二字串笔画信息的第二编码串还包括:将汉字笔画与数字建立对应关系;根据所述对应关系使用数字对所述第一字串的笔画信息进行表征,获取第一编码串,并根据所述对应关系使用数字对所述第二字串的笔画信息进行表征,获取第二编码串。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一编码串和第二编...

【专利技术属性】
技术研发人员:肖汉平
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1