一种汽车车辆信息的可容错式匹配方法及装置制造方法及图纸

技术编号:34527708 阅读:12 留言:0更新日期:2022-08-13 21:19
本发明专利技术公开了一种汽车车辆信息的可容错式匹配方法及装置,方法包括:获取待检索文本;将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合;采用正则表达式确定所述待检索文本的文本类型;根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合;将所述目标结果集合中的各个目标结果进行合并,生成检索结果。本发明专利技术能够提高检索的精确度,可广泛应用于计算机技术领域。可广泛应用于计算机技术领域。可广泛应用于计算机技术领域。

【技术实现步骤摘要】
一种汽车车辆信息的可容错式匹配方法及装置


[0001]本专利技术涉及计算机
,尤其是一种汽车车辆信息的可容错式匹配方法及装置。

技术介绍

[0002]随着互联网高速发展,各种应用及各种信息数据日益剧增,搜索已经成了用户快速定位获取想要的信息的主流方式。想要从与日俱增的海量数据中检索感兴趣的信息,且由于对相关信息了解不对称及操作方式不同,用户的输入总是花样百出,因此,需要客户端提供搜索建议、搜索纠错与改写等功能,来增强用户体验,增加产品黏性。
[0003]目前各大电商、资讯等平台部分或全部提供搜索建议、纠错等功能,但大多数是针对部分输入方式进行数据召回。
[0004]针对汽车垂直领域,车系品牌等专业术语包含有汉字、英文字母、数字等其他字符,现有技术方案基本支持同一输入类型,比如纯汉字输入、纯字母输入等,对混合输入支持较少,同时大多数纠错仅支持同音字纠错,对前鼻音后鼻音、平舌翘舌音支持不太友好,导致检索精确度不高。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种精确度高的汽车车辆信息的可容错式匹配方法及装置。
[0006]本专利技术的一方面提供了一种汽车车辆信息的可容错式匹配方法,包括:
[0007]获取待检索文本;
[0008]将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合;
[0009]采用正则表达式确定所述待检索文本的文本类型;
[0010]根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合;
[0011]将所述目标结果集合中的各个目标结果进行合并,生成检索结果。
[0012]可选地,所述获取待检索文本,包括:
[0013]获取用户输入文本;
[0014]将所述用户输入文本中出现的字母或数字进行大小写统一处理,并对所述用户输入文本中出现的特殊字符进行过滤处理,得到所述待检索文本。
[0015]可选地,所述将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合,包括:
[0016]根据预设的编辑距离阈值,将所述待检索文本输入所述汉字前缀树进行遍历检索,得到第一遍历检索结果;
[0017]根据预设的编辑距离阈值,将所述待检索文本输入所述拼音前缀树进行遍历检索,得到第二遍历检索结果;
[0018]根据预设的编辑距离阈值,将所述待检索文本输入所述简拼前缀树进行遍历检索,得到第三遍历检索结果。
[0019]可选地,所述采用正则表达式确定所述待检索文本的文本类型,包括:
[0020]通过正则表达式判断所述待检索文本中的汉字;
[0021]当确定所述待检索文本中包含汉字时,通过正则表达式判断所述待检索文本中是否包含韵母,若是,则确定所述待检索文本为拼音输入文本类型;反之,则确定所述待检索文本为简拼输入文本类型。
[0022]可选地,所述根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合,包括:
[0023]当所述待检索文本中包含汉字时,优先获取汉字前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果;
[0024]当所述待检索文本中包含韵母时,优先获取拼音前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果;然后合并简拼前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果;
[0025]当所述待检索文本中不含汉字和韵母时,获取简拼前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果。
[0026]可选地,所述将所述目标结果集合中的各个目标结果进行合并,生成检索结果,包括:
[0027]分别计算所述目标结果集合中各个目标结果与所述待检索文本之间的编辑距离;
[0028]根据所述编辑距离确定各个目标结果与所述待检索文本之间的匹配度;
[0029]根据各个目标结果的匹配度,从所述目标结果集合中选取满足匹配度要求的目标结果作为检索结果。
[0030]可选地,所述匹配度的计算方法还包括:
[0031]以单字符为单位,将各个目标结果与所述待检索文本进行比对,统计各个目标结果与所述待检索文本之间的相同文本数量;
[0032]计算所述待检索文本的字符数;
[0033]根据所述相同文本数量和所述字符数,计算得到各个目标结果的匹配度。
[0034]可选地,所述方法还包括构建前缀树的步骤,包括:
[0035]获取汽车垂直领域的关键词数据,并对所述关键词数据进行预处理,使得所述关键词数据能够用于构建前缀树;
[0036]构建原始的汉字前缀树、拼音前缀树和简拼前缀树;
[0037]将包含阿拉伯数字转为汉语的数字,并加入汉字前缀树;
[0038]将关键词数据转为拼音,并构建拼音前缀树;
[0039]将关键词数据预处理后转为拼音,加入拼音前缀树;
[0040]将替换数字后的文本转为拼音,加入拼音前缀树;
[0041]将关键词数据转为拼音后,提取首字母,构建简拼前缀树;
[0042]将预处理后的关键词数据转为拼音后,提取首字母,构建简拼前缀树;
[0043]将替换数字后的文本转为拼音后,提取首字母,构建简拼前缀树。
[0044]本专利技术实施例的另一方面还提供了一种汽车车辆信息的可容错式匹配装置,包括
处理器以及存储器;
[0045]所述存储器用于存储程序;
[0046]所述处理器执行所述程序实现如前面所述的方法。
[0047]本专利技术实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0048]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0049]本专利技术的实施例获取待检索文本;将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合;采用正则表达式确定所述待检索文本的文本类型;根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合;将所述目标结果集合中的各个目标结果进行合并,生成检索结果。本专利技术能够提高检索精确度。
附图说明
[0050]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]图1为本专利技术实施例提供的构建前缀树的流程图;
[0052]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汽车车辆信息的可容错式匹配方法,其特征在于,包括:获取待检索文本;将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合;采用正则表达式确定所述待检索文本的文本类型;根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合;将所述目标结果集合中的各个目标结果进行合并,生成检索结果。2.根据权利要求1所述的一种汽车车辆信息的可容错式匹配方法,其特征在于,所述获取待检索文本,包括:获取用户输入文本;将所述用户输入文本中出现的字母或数字进行大小写统一处理,并对所述用户输入文本中出现的特殊字符进行过滤处理,得到所述待检索文本。3.根据权利要求1所述的一种汽车车辆信息的可容错式匹配方法,其特征在于,所述将所述待检索文本依次输入汉字前缀树、拼音前缀树和简拼前缀树进行遍历检索,分别得到不同树的遍历检索结果集合,包括:根据预设的编辑距离阈值,将所述待检索文本输入所述汉字前缀树进行遍历检索,得到第一遍历检索结果;根据预设的编辑距离阈值,将所述待检索文本输入所述拼音前缀树进行遍历检索,得到第二遍历检索结果;根据预设的编辑距离阈值,将所述待检索文本输入所述简拼前缀树进行遍历检索,得到第三遍历检索结果。4.根据权利要求1所述的一种汽车车辆信息的可容错式匹配方法,其特征在于,所述采用正则表达式确定所述待检索文本的文本类型,包括:通过正则表达式判断所述待检索文本中的汉字;当确定所述待检索文本中包含汉字时,通过正则表达式判断所述待检索文本中是否包含韵母,若是,则确定所述待检索文本为拼音输入文本类型;反之,则确定所述待检索文本为简拼输入文本类型。5.根据权利要求1所述的一种汽车车辆信息的可容错式匹配方法,其特征在于,所述根据所述待检索文本的文本类型,从所述遍历检索集合中获取目标结果集合,包括:当所述待检索文本中包含汉字时,优先获取汉字前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果;当所述待检索文本中包含韵母时,优先获取拼音前缀树的遍历检索结果,并过滤该遍历检索结果中匹配度低于预设阈值的结果;然后合并简拼前缀树...

【专利技术属性】
技术研发人员:蔡号号尹龙
申请(专利权)人:广州太平洋电脑信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1