工业品型号的索引构建、检索方法及计算机可读存储介质技术

技术编号:39192786 阅读:7 留言:0更新日期:2023-10-27 08:39
本发明专利技术涉及型号检索技术领域,具体地涉及一种工业品型号的索引构建方法、检索方法及计算机可读存储介质。本发明专利技术提供的工业品型号的索引构建方法,包括:型号模板化步骤S1:使用通配符替换工业品型号的字符串中的数字字符,得到型号模板;索引建立步骤S2:根据型号模板建立型号模板索引。本发明专利技术提供的索引构建方法能够将工业品型号进行模板化,对工业品型号中搜索指向性较低的数据进行并模板替换,从而大大减少搜索匹配的数据量,优化存储空间,同时通过该索引进行检索时搜索候选数大大减少,有效地提升了搜索速度和命中率。地提升了搜索速度和命中率。地提升了搜索速度和命中率。

【技术实现步骤摘要】
工业品型号的索引构建、检索方法及计算机可读存储介质


[0001]本专利技术涉及型号检索
,具体地涉及一种工业品型号的索引构建方法、检索方法及计算机可读存储介质。

技术介绍

[0002]随着信息化时代的飞速发展,在工作和生活中人们越来越多地倾向于通过网络平台来进行商品选择、购买等操作。网络平台通过搜索引擎对用户输入的商品名称中的关键词进行检索、匹配,以便用户进行选购。
[0003]然而对于工业品而言,用户在采购时往往会使用工业品型号来进行检索。但工业品型号与自然语言的构成不同,通常是由数字、字母以及符号组成的无语义代码。传统搜索引擎基于关键词提取的搜索算法在工业品型号的检索中无法有效地进行关键词提取和语义分析。
[0004]现有技术中,部分平台只能对工业品型号进行完全匹配,若无完全匹配的型号,则检索结果为空,无法进一步通过模糊匹配获得相似商品,容错率低且检索效率低下。再则,因为工业品型号中通常由一个序列号对应一种工业品,一种工业品下包含多种类型,一个类型下又会包含多个参数,一种工业品就可能对应成千上万个工业品型号。由此,建立完全匹配的型号搜索引擎,其型号数据库中的数据量会是十分庞大的,相应的存储计算所需要的内存也十分庞大。而且,通过完全匹配的方式进行工业品型号检索,数据库中的数据量越多,检索需要的计算量就越大,检索时间就越长。对于用户而言,输入待检索的工业品型号后,必须经过一段并不短的检索等待时间,还很可能得到为空的检索结果,检索体验并不理想。
[0005]因此,亟待一种技术方案,能够解决工业品型号检索的内存占用大、检索时间长以及检索结果质量较低的问题。

技术实现思路

[0006]针对以上问题,本专利技术提供了一种工业品型号的索引构建方法、检索方法及计算机可读存储介质,索引构建方法能够将工业品型号进行模板化,对工业品型号中搜索区分度较低的数据进行并模板替换,从而大大减少搜索匹配的数据量,优化存储空间,同时通过该索引进行检索时搜索候选数大大减少,有效地提升了搜索速度和命中率。
[0007]本专利技术的技术方案中,提供了一种工业品型号的索引构建方法,包括:
[0008]型号模板化步骤S1:使用通配符替换工业品型号的字符串中的数字字符,得到型号模板;
[0009]索引建立步骤S2:根据型号模板建立型号模板索引。
[0010]根据本专利技术的技术方案,检索候选数据库中的数据量减少,相应地在进行工业品型号检索时需要的计算量也会明显下降,从而能够优化工业品型号索引的存储空间,降低存储计算占用的内存。同时,因为检索候选数据库中的数据量减少,计算量下降,也能够有
效地提升了工业品型号检索的检索速度和命中率。
[0011]优选地,本专利技术的技术方案中,索引构建方法还包括
[0012]字符单元评分步骤S3:得到型号模板后,将每个型号模板的字符串进行N元分割,得到L

(N

1)个字符单元,并对每个字符单元进行评分,其中L为型号模板的字符串长度,N为字符单元的字符串长度。
[0013]根据本专利技术的技术方案,以N元分割得到的字符单元作为检索匹配的字段,而无需与检索候选数据库中的全部数据进行匹配,从而进一步地检索时的计算量,提高工业品型号检索速度,优化用户检索体验。
[0014]进一步地,本专利技术的技术方案中,字符单元评分步骤S3包括:
[0015]局部评分步骤S31:根据公式s=1+i/n计算字符单元对应于每个型号模板的局部评分,其中,s为字符单元的局部评分,i为字符单元的首字符坐标,n为型号模板中的字符单元总数;
[0016]评分去重步骤S32:字符单元对应于多个型号模板具有多个局部评分,取属于同一工业品类型的多个型号模板对应的局部评分的平均数作为字符单元对应于该工业品类型的局部评分;
[0017]全局评分步骤S33:取字符单元对应于全部工业品类型的局部评分的和作为该字符单元的全局评分。
[0018]根据本专利技术的技术方案,字符单元的全局评分越低,字符单元的区分度就越高,在索引中就越有价值,可以作为检索匹配时优先匹配的字段,以提高检索速度和命中率。
[0019]优选地,本专利技术的技术方案中,索引构建方法中的索引建立步骤S2还包括:
[0020]型号模板索引建立步骤S20:根据型号模板的字符串长度L排序型号模板,建立型号模板索引;
[0021]倒排索引建立步骤S21:根据每个型号模板在型号模板索引中的序号建立倒排索引;
[0022]长度哈希索引建立步骤S22:根据每个字符单元对应的型号模板的字符串长度L和型号模板在倒排索引中的坐标,建立长度哈希索引。
[0023]根据上述方案,在型号模板索引中可找到候选型号模板,在倒排索引中可找到候选型号模板在型号模板索引中的序号,在长度哈希索引中可找到候选型号模板在倒排索引中的坐标,三层索引结构逐级缩小检索范围,以降低检索计算量,提高检索速度。
[0024]本专利技术的技术方案中,还提供了一种工业品型号根据上述型号模板索引进行的检索方法,包括:
[0025]型号模板化步骤S01:使用通配符替换待检型号的字符串中的数字字符,得到待检型号模板;
[0026]字符单元评分步骤S02:将待检型号模板进行N元分割,得到L

(N

1)个字符单元,查找每个字符单元对应的评分;
[0027]签名筛选步骤S03:字符单元按照评分和编辑距离进行排序,选取前t+1个相互没有重叠的字符单元作为待检型号模板的签名,t为编辑距离阈值;
[0028]模板筛选步骤S04:根据待检型号模板的签名和字符串长度L,在型号模板索引中筛选对应的候选型号模板;
[0029]模板验证步骤S05,根据候选型号模板与待检型号模板之间的编辑距离对每个候选型号模板进行打分,并根据得分确定目标型号模板;
[0030]模板填充步骤S06,用待检型号中的数字字符替换目标型号模板中的通配符,得到目标型号。
[0031]根据本专利技术的技术方案,上述检索方法不依赖于型号公式,可用于任何型号字符串。同时,型号模板化后可减少候选的型号数量,防止大量相似型号带来的系统存储空间不必要的消耗。将型号模板进行分割后,通过打分机制,将高频的位置靠后的字符单元筛去,留下位置靠前且低频的字符单元作为型号模板的签名,并与通过倒排索引和长度哈希索引的建立,进一步缩减候选型号的数量,大大减少了搜索计算量,提高了搜索速度。
[0032]优选地,在本专利技术的技术方案中,检索方法的模板筛选步骤S04包括:
[0033]长度哈希索引步骤S041:根据待检型号模板的字符串长度L和签名,在长度哈希索引中查找待检型号模板在倒排索引中的坐标;
[0034]倒排索引步骤S042:根据待检型号模板在倒排索引中的坐标,在倒排索引中查找对应的候选型号模板的序号;
[0035]模板索引步骤S043:根据候选型号模板的序号,在型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工业品型号的索引构建方法,其特征在于,包括:型号模板化步骤S1:使用通配符替换所述工业品型号的字符串中的数字字符,得到型号模板;索引建立步骤S2:根据所述型号模板建立型号模板索引。2.如权利要求1所述的索引构建方法,其特征在于,还包括字符单元评分步骤S3:得到所述型号模板后,将每个所述型号模板的字符串进行N元分割,得到L

(N

1)个字符单元,并对每个所述字符单元进行评分,其中L为所述型号模板的字符串长度,N为所述字符单元的字符串长度。3.如权利要求2所述的索引构建方法,其特征在于,所述字符单元评分步骤S3包括:局部评分步骤S31:根据公式s=1+i/n计算所述字符单元对应于每个所述型号模板的局部评分,其中,s为所述字符单元的局部评分,i为所述字符单元的首字符坐标,n为所述型号模板中的字符单元总数;评分去重步骤S32:所述字符单元对应于多个所述型号模板具有多个所述局部评分,取属于同一工业品类型的多个型号模板对应的局部评分的平均数作为所述字符单元对应于该工业品类型的局部评分;全局评分步骤S33:取所述字符单元对应于全部所述工业品类型的局部评分的和作为该字符单元的全局评分。4.如权利要求3所述的索引构建方法,其特征在于,所述索引建立步骤S2还包括:型号模板索引建立步骤S20:根据所述型号模板的字符串长度L排序所述型号模板,建立所述型号模板索引;倒排索引建立步骤S21:根据每个所述型号模板在所述型号模板索引中的序号建立倒排索引;长度哈希索引建立步骤S22:根据每个所述字符单元对应的所述型号模板的字符串长度L和所述型号模板在所述倒排索引中的坐标,建立长度哈希索引。5.一种工业品型号根据如权利要求1

4所述的型号模板索引进行的检索方法,其特征在于,包括:型号模板化步骤S01:使用通配符替换待检型号的字符串中的数字字符,得到待检型号模板;字符单元评分步骤S02:将所述待检型号模板进行N元分割,得到L

(N

...

【专利技术属性】
技术研发人员:石云苏啸倪浩天
申请(专利权)人:米思米上海投资有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1