组合字符串的匹配方法及装置和电子设备制造方法及图纸

技术编号:20160576 阅读:41 留言:0更新日期:2019-01-19 00:13
本说明书实施例提供一种组合字符串的匹配方法及装置和电子设备,所述方法包括:获取主字符串和组合字符串;针对所述组合字符串构建与基础子字符串的索引信息;其中,所述基础子字符串由所述组合字符串拆分得到;基于所述基础子字符串对所述主字符串进行模式匹配,得到匹配字符串;根据所述匹配字符串从所述索引信息中确定目标组合字符串;其中,所述目标组合字符串的基础子字符串同时存在与所述主字符串中。

【技术实现步骤摘要】
组合字符串的匹配方法及装置和电子设备
本说明书实施例涉及互联网
,尤其涉及一种组合字符串的匹配方法及装置和电子设备。
技术介绍
字符串的匹配方法是一种用于从主字符串(以下简称为主串)中匹配是否存在给定的子字符串(以下简称为子串)的方法。例如:主串为:zifuchuanpipei;子串为:pipei时,匹配的目标为:在“zifuchuanpipei”中匹配是否存在“pipei”,如果存在则输出匹配到的字符串,如果不存在则输出空(说明主串中不存在子串);显然该示例中在主串中包含子串“pipei”,则可以输出匹配到的字符串“pipei”。通常,可以将上述针对单个子串的匹配方式称之为模式匹配,例如从主串A中匹配子串B的这种形式。类似的,针对多个单一子串的匹配时,对每个子串都进行一次模式匹配。例如子串B、子串C、子串D,即分别从主串A中匹配子串B、子串C、子串D。在相关技术中,一般可以采用预设的匹配算法来提高字符串匹配的效率,例如可以采用Aho–Corasick算法(在业内通常可以称之为AC自动机)、Boyer-Moore算法、Horspool算法等。然而,上述匹配算法针对模式匹配的效率本文档来自技高网...

【技术保护点】
1.一种组合字符串的匹配方法,所述方法包括:获取主字符串和组合字符串;针对所述组合字符串构建与基础子字符串的索引信息;其中,所述基础子字符串由所述组合字符串拆分得到;基于所述基础子字符串对所述主字符串进行模式匹配,得到匹配字符串;根据所述匹配字符串从所述索引信息中确定目标组合字符串;其中,所述目标组合字符串的基础子字符串同时存在与所述主字符串中。

【技术特征摘要】
1.一种组合字符串的匹配方法,所述方法包括:获取主字符串和组合字符串;针对所述组合字符串构建与基础子字符串的索引信息;其中,所述基础子字符串由所述组合字符串拆分得到;基于所述基础子字符串对所述主字符串进行模式匹配,得到匹配字符串;根据所述匹配字符串从所述索引信息中确定目标组合字符串;其中,所述目标组合字符串的基础子字符串同时存在与所述主字符串中。2.根据权利要求1所述的方法,所述针对所述组合字符串构建与基础字符的索引信息,具体包括:基于HashMap建立所述组合字符串与基础子字符串的倒排索引信息;统计所述组合字符串内基础子字符串的数量,并将所述数量记入所述倒排索引信息。3.根据权利要求1所述的方法,所述基于所述基础子字符串对所述主字符串进行模式匹配,得到匹配字符串,具体包括:针对所述基础子字符串建立对应的AC自动机;基于每个基础字符串的AC自动机对所述主字符串进行模式匹配,得到匹配字符串。4.根据权利要求1所述的方法,所述根据所述匹配字符串从所述索引信息中确定目标组合字符串,具体包括:从所述索引信息中查找所述匹配字符串映射的组合字符串;统计每种组合字符串被查找的频次;将所述组合字符串的频次与基础子字符串的数量一致的组合字符串确定为目标组合字符串。5.根据权利要求1所述的方法,所述方法还包括:将所述组合字符串进行拆分,得到单个的字符串;将所述单个的字符串作为基础子字符串。6.一种组合字符串的匹配装置,所述装置包括:...

【专利技术属性】
技术研发人员:周书恒祝慧佳赵智源郭亚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1