一种企业名称的相似性检索方法技术

技术编号:14481993 阅读:174 留言:0更新日期:2017-01-25 23:56
本发明专利技术涉及一种企业名称的相似性检索方法,该相似性检索方法包括:对输入的检索关键字进行分解处理,得到处理后的检索关键字,其中,检索关键字为待检索的企业名称;根据处理后的检索关键字,确定检索词组;对确定的检索词组进行相似性检索,得到检索结果;显示检索结果中排在前N位的企业名称,以供用户查看,N取大于1整数,不仅可以使得检索效率大大的提高,而且方便用户查看相似性检索的结果,以及满足相似性检索业务的需求。

【技术实现步骤摘要】

本专利技术涉及相似性检索
,尤其涉及一种企业名称的相似性检索方法
技术介绍
数据库的精确查询速度是相当快的,但是模糊查询在数据量超过百万级以后,尤其是针对“包含”关系的查询速度会急速降低,通常都会超过10秒。例如:通过输入关键字“计算机”想要命中“长城计算机软件”速度上就会很慢。更何况按照判断名称近似的规则需要使用循环嵌套的模糊查询,性能完全无法接受。通常遇到这种问题,会使用到“全文检索技术”,例如:百度、搜狗等,实现了根据少量关键字在海量数据中快速检索得到结果。但是,专利技术人在实施本分的过程中发现:通用的全文检索技术,仍然达不到名称近似检索要求,主要问题如下:首先,一般的全文检索技术是以分词检索为基础的,即,首先将输入的检索串进行分词,然后将分词后的词组到分词索引库中进行检索,然后整合检索结果按命中度高低排序。但名称近似检索并不完全是以词为单位的,例如“支付宝”、“欧付宝”两个字串,如果分词进行检索,很可能会认为它们不相似。其次,通用的全文检索引擎也可以支持按字检索的模式,但性能上的优势就没有了,例如:对于一个15字的名称字符串,按字全排列进行检索得到的结论是:仅仅通过“全文检索”也无法完全实现关于企业名称近似检索的业务需求,其检索时限会超过30秒,且检索结果的排序也不准确,与人们通常感觉的名称近似差异较大,远远无法满足业务需求。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种企业名称的相似性检索方法。本专利技术解决上述技术问题的技术方案如下:一种企业名称的相似性检索方法,包括:对输入的检索关键字进行分解处理,得到处理后的检索关键字,其中,所述检索关键字为待检索的企业名称;根据处理后的所述检索关键字,确定检索词组;对确定的所述检索词组进行相似性检索,得到检索结果;显示所述检索结果中排在前N位的企业名称,以供用户查看,N取大于1整数。本专利技术的有益效果是:通过对输入的检索关键字进行分解处理,得到处理后的检索关键字,并根据处理后的检索关键字,确定检索词组,再对确定的检索词组进行相似性检索,得到检索结果,最后显示检索结果中排在前N位的企业名称,以供用户查看,不仅可以使得检索效率大大的提高,而且方便用户查看相似性检索的结果,以及满足相似性检索业务的需求。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述对输入的检索关键字进行分段处理,得到处理后的检索关键字,包括:判断所述检索关键字中是否包含行政区划和组织形式企业类型的组成部分;若不包含,则将所述检索关键字分解为企业字号和/或行业特点以作为处理后的检索关键字;否则,将所述检索关键字分解为行政区划、组织形式企业类型、企业字号和行业特点,并将企业字号和/或行业特点作为处理后的检索关键字。进一步地,所述根据处理后的所述检索关键字,确定检索词组,包括:将处理后的所述检索关键字按照分解处理之前的顺序排列;将与所述检索关键字中M个字不同的词组确定为所述检索词组,M取0、1或2;或者,将与所述检索关键字同义和/或同音的词组确定为所述检索词组;或者,将与所述检索关键字中K个相同且相邻的字组成的词组确定为所述检索词组;或者,将与所述检索关键字中Q个相同但分散的字组成的词组确定为所述检索词组。采用上述进一步方案的有益效果是:通过将输入的检索关键字进行分解,去除行政区划和组织形式企业类型等通用信息,根据企业字号和/或行业特点确定检索词组,可以大大的减少检索式的数量,从而有效的提高了检索效率。进一步地,所述对确定的所述检索词组进行相似性检索,得到检索结果,包括:判断所述检索词组的数量是否超过预设值;若超过,则采用分布式多节点检索,并将每个节点得到的检索结果进行汇总,得到所述检索结果;否则,采用单节点检索,得到所述检索结果。采用上述进一步方案的有益效果是:通过判断检索词组的数量,确定采用分布式多节点检索或单节点检索,可以大大的增快检索速率,从而有效的提高了检索效率。进一步地,得到检索结果之后,还包括:计算所述检索关键字与所述检索结果中的每个检索结果的相似度值;根据所述相似度值,对所述检索结果进行排序。进一步地,所述根据所述相似度值,对所述检索结果进行排序,包括:根据所述相似度值由高到低,对所述检索结果进行排序。进一步地,在对输入的检索关键字进行分段处理,得到处理后的检索关键字之前,还包括:构建企业名称检索库。进一步地,所述构建企业名称检索库,包括:将企业名称数据增加至全文检索数据库中,并保持实时同步;建立所述企业名称数据与所述全文检索数据库的索引。进一步地,所述建立所述企业名称数据与所述全文检索数据库的索引,包括:将所述企业名称数据对应的每个企业名称包含的企业字号和行业特点作为索引列,建立所述企业名称数据与所述全文检索数据库的索引。进一步地,所述显示所述检索结果中排在前N位的企业名称,以供用户查看,包括:显示所述检索结果中排在前10位的企业名称,以供用户查看。采用上述进一步方案的有益效果是:通过显示检索结果中排在前10位的企业名称,可以方便用户查看相似性检索的结果,以便用户进行对比判断,并作出选择,大大的降低了相关工作人员的工作负担。本专利技术附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种企业名称的相似性检索方法的示意性流程图;图2为本专利技术另一实施例提供的一种企业名称的相似性检索方法的示意性流程图;图3为本专利技术另一实施例提供的一种企业名称的相似性检索方法的示意性流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。图1给出了本专利技术实施例提供的一种企业名称的相似性检索方法100的示意性流程图。如图1所示的企业名称的相似性检索方法100包括:110、对输入的检索关键字进行分解处理,得到处理后的检索关键字,其中,检索关键字为待检索的企业名称。120、根据处理后的检索关键字,确定检索词组。130、对确定的检索词组进行相似性检索,得到检索结果。140、显示检索结果中排在前N位的企业名称,以供用户查看,N取大于1整数。本专利技术提供的一种企业名称的相似性检索方法,通过对输入的检索关键字进行分解处理,得到处理后的检索关键字,并根据处理后的检索关键字,确定检索词组,再对确定的检索词组进行相似性检索,得到检索结果,最后显示检索结果中排在前N位的企业名称,以供用户查看,不仅可以使得检索效率大大的提高,而且方便用户查看相似性检索的结果,以及满足相似性检索业务的需求。具体的,在该实施例中,步骤110可以包括:判断输入的检索关键字中是否包含行政区划和组织形式企业类型的组成部分。若不包含,则将检索关键字分解为企业字号和本文档来自技高网...
一种企业名称的相似性检索方法

【技术保护点】
一种企业名称的相似性检索方法,其特征在于,包括:对输入的检索关键字进行分解处理,得到处理后的检索关键字,其中,所述检索关键字为待检索的企业名称;根据处理后的所述检索关键字,确定检索词组;对确定的所述检索词组进行相似性检索,得到检索结果;显示所述检索结果中排在前N位的企业名称,以供用户查看,N取大于1整数。

【技术特征摘要】
1.一种企业名称的相似性检索方法,其特征在于,包括:对输入的检索关键字进行分解处理,得到处理后的检索关键字,其中,所述检索关键字为待检索的企业名称;根据处理后的所述检索关键字,确定检索词组;对确定的所述检索词组进行相似性检索,得到检索结果;显示所述检索结果中排在前N位的企业名称,以供用户查看,N取大于1整数。2.根据权利要求1所述的企业名称的相似性检索方法,其特征在于,所述对输入的检索关键字进行分段处理,得到处理后的检索关键字,包括:判断所述检索关键字中是否包含行政区划和组织形式企业类型的组成部分;若不包含,则将所述检索关键字分解为企业字号和/或行业特点以作为处理后的检索关键字;否则,将所述检索关键字分解为行政区划、组织形式企业类型、企业字号和行业特点,并将企业字号和/或行业特点作为处理后的检索关键字。3.根据权利要求1所述的企业名称的相似性检索方法,其特征在于,所述根据处理后的所述检索关键字,确定检索词组,包括:将处理后的所述检索关键字按照分解处理之前的顺序排列;将与所述检索关键字中M个字不同的词组确定为所述检索词组,M取0、1或2;或者,将与所述检索关键字同义和/或同音的词组确定为所述检索词组;或者,将与所述检索关键字中K个相同且相邻的字组成的词组确定为所述检索词组;或者,将与所述检索关键字中Q个相同但分散的字组成的词组确定为所述检索词组。4.根据权利要求1所述的企业名称的相似性检索方法,其特征在于,所述对确定的所述检索词组进行相似性检索,得到检索结果,包括:判断...

【专利技术属性】
技术研发人员:仲晓琦刘丰刘镇华
申请(专利权)人:长城计算机软件与系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1