一种文本模糊匹配方法和装置制造方法及图纸

技术编号:30186140 阅读:21 留言:0更新日期:2021-09-29 08:22
本申请公开了一种文本模糊匹配方法和装置;本申请可以获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词,基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识,基于所述目标分词的第二相邻分词,更新所述模糊匹配集,获取所述待模糊匹配词的模糊匹配结果;本申请通过对模糊匹配算法进行改进,可以提高检索效率。可以提高检索效率。可以提高检索效率。

【技术实现步骤摘要】
一种文本模糊匹配方法和装置


[0001]本申请涉及计算机
,具体涉及一种文本模糊匹配方法和装置。

技术介绍

[0002]随着互联网的迅速发展,网络上的文本数据爆炸式地增长。文本检索服务能够根据用户所提供的查询关键词,帮助用户从海量文本数据中快速地获取想要的数据。文本检索广泛地应用于网络信息服务的各个领域,如数字图书馆、电子商务网站和企业信息管理等。文本模糊匹配是用户在文本检索过程中的核心功能。
[0003]在目前的相关技术中,部分模糊匹配算法是通过遍历词典的方式来找到满足模糊匹配的词,存在检索效率较低的问题。

技术实现思路

[0004]本申请实施例提供一种文本模糊匹配方法和装置,可以提高检索效率。
[0005]本申请实施例提供一种文本模糊匹配方法,包括:
[0006]获取待模糊匹配词;
[0007]基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;
...

【技术保护点】

【技术特征摘要】
1.一种文本模糊匹配方法,其特征在于,包括:获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;基于所述目标分词的第二相邻分词,更新所述模糊匹配集;基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标分词的第二相邻分词,更新所述模糊匹配集,包括:当所述目标分词的第二相邻分词的词前缀包含所述待模糊匹配词时,基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识;将所述目标分词的第二相邻分词对应的文档标识添加到所述模糊匹配集中;将所述目标分词的第二相邻分词作为新的目标分词,返回执行所述基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识的步骤,直到所述目标分词的第二相邻分词的词前缀不包含所述待模糊匹配词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对原始文本进行分词处理,得到所述原始文本的至少一个分词;基于所述分词的字节,从所述分词中截取至少一个词后缀;获取所述词后缀对应的文档标识,所述文档标识对应的文档包含所述词后缀;建立所述分词和所述文档标识之间的映射关系,得到所述分词的映射关系对。4.根据权利要求3所述的方法,其特征在于,所述基于所述分词的字节,从所述分词中截取至少一个词后缀,包括:基于所述分词的字节,从所述分词中截取至少一个词后缀,所述词后缀的字节长度不小于预设字节长度。5.根据权利要求3所述的方法,其特征在于,所述建立所述分词和所述文档标识之间的映射关系,得到所述分词的映射关系对,包括:对所述分词的各个词后缀对应的文档标识进行融合,得到所述分词对应的文档标识集;建立所述分词和所述文档标识集之间的映射关系,得到所述分词的映射关系对。6.根据权利要求3所述的方法,其特征在于,所述建立所述分词和所述文档标识之...

【专利技术属性】
技术研发人员:曹希保曾楚伟李斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1