一种基于模糊匹配的厂家名称规范方法技术

技术编号:22295422 阅读:22 留言:0更新日期:2019-10-15 04:35
本发明专利技术公开了一种基于模糊匹配的厂家名称规范方法,首先获取厂家名称关键词,之后利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果,如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果,如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。通过将输入的厂家名称关键词与搜索库中的内容进行对比,判断搜索库中是否有相对应的搜索结果,输入的厂家名称关键词是否准确,利用本申请的方法能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。

A Method of Manufacturer Name Normalization Based on Fuzzy Matching

【技术实现步骤摘要】
一种基于模糊匹配的厂家名称规范方法
本专利技术涉及文本识别
,特别涉及一种基于模糊匹配的厂家名称规范方法。
技术介绍
随着电力设备的广泛使用,电力系统中累积数量庞大的设备台账历史信息。要对设备进行更好的维护,其生产厂家是一个重点关注项目。然而,因为录入错误及年代久远等原因,这其中又有相当数量设备的生产厂家信息并不准确。因此,如何批量识别哪些设备的生产厂家名称不准确并使其规范化,成为工作人员面临的首要问题。
技术实现思路
本专利技术的目的旨在克服现有技术存在的不足,提供了一种基于模糊匹配的厂家名称规范方法,能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。为了解决上述技术问题本专利技术提供一种基于模糊匹配的厂家名称规范方法,所述方法包括:获取厂家名称关键词;利用模糊匹配法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果;如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果;如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。优选的,所述获取厂家名称关键词,包括:获取厂家名称原词组;利用分词工具对所述厂家名称原词组进行分词处理;删除所述厂家名称原词组中干扰词和干扰词组合,得到剩余词;按照原顺序连接所述剩余词,得到厂家名称关键词。优选的,所述干扰词包括股份、有限、责任以及公司,所述干扰词组合包括任意两个干扰词或任意三个干扰词或四个干扰词的组合词组。优选的,所述厂家名称关键词包括系统厂家名称关键词或用户输入厂家名称关键词。优选的,所述搜索库包括:厂家名称信息库、权威企业信息网站以及搜索引擎。优选的,所述厂家名称信息库包括:厂家名称表和台账数据表,所述厂家名称表包括厂家名称和索引,所述索引指向所述台账数据表。优选的,所述台账数据表为哈希表。优选的,所述利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果包括:利用模糊匹配法依次在所述厂家名称信息库、所述权威企业信息网站以及所述搜索引擎中搜索所述厂家名称关键词;所述如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果包括:如果所述厂家名称信息库中存在与所述厂家名称关键词相对应的搜索结果,则将所述搜索结果添加到对应的台账数据表;如果所述厂家名称信息库中不存在与所述厂家名称关键词相对应的搜索结果且所述权威企业信息网站中或者所述搜索引擎中存在与所述厂家名称关键词相对应的搜索结果,则将所述搜索结果添加到厂家名称信息库中,以及创建新的台账数据表。优选的,如果所述搜索库中存在多条所述搜索结果与所述厂家名称关键词对应,则对多条所述搜索结果进行打分处理,录入得分最高的所述搜索结果。优选的,如果所述搜索库中存在多条所述搜索结果与所述厂家名称关键词对应,则对多条所述搜索结果进行打分处理,将得分最高的前5项所述搜索结果反馈给输入端。本申请实施例提供的技术方案的有益效果:首先获取厂家名称关键词,之后利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果,如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果,如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。通过将输入的厂家名称关键词与搜索库中的内容进行对比,判断搜索库中是否有相对应的搜索结果,从而判断输入的厂家名称关键词是否准确,如果存在即输入的厂家名称关键词准确则将相对应的结果录入系统,如果不存在即输入的厂家名称关键词不准确则将输入的厂家名称关键词删除,通过本申请实施例的技术方案能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的基于模糊匹配的厂家名称规范方法的流程示意图;图2为本申请实施例优选实施例提供的基于模糊匹配的厂家名称规范方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,为本申请实施例提供的基于模糊匹配的厂家名称规范方法的流程示意图。所述方法包括:步骤S101:获取厂家名称关键词;步骤S102:利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果;步骤S103:如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果;如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。在文献检索领域,模糊匹配是指无论词的位置怎样,只要出现该词即可。精确匹配是指只有整个字段与检索词相同才匹配。精确匹配是指将输入的检索词当固定词组进行检索,而模糊匹配则会自动拆分检索词为单元概念,并进行逻辑与运算。首先获取厂家名称关键词,之后利用模糊匹配方法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果,如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果,如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。通过将输入的厂家名称关键词与搜索库中的内容进行对比,判断搜索库中是否有相对应的搜索结果,从而判断输入的厂家名称关键词是否准确,如果存在即输入的厂家名称关键词准确则将相对应的结果录入系统,如果不存在即输入的厂家名称关键词不准确则将输入的厂家名称关键词删除,通过本申请实施例的技术方案能够批量识别不准确的生产厂家名称并使其规范化,提高系统数据的准确性。目前现有的搜索技术几乎对待搜索的关键词不做任何要求,即,任何输入都可以作为关键词,如果将这类搜索技术直接用于电力设备生产厂家的这一特定范围的关键词,将会得到许多无用信息,对真正需要的信息造成干扰。所述获取厂家名称关键词,可以包括:获取厂家名称原词组;利用分词工具对所述厂家名称原词组进行分词处理;删除所述厂家名称原词组中干扰词和干扰词组合,得到剩余词;按照原顺序连接所述剩余词,得到厂家名称关键词。其中,所述干扰词包括股份、有限、责任以及公司,所述干扰词组合包括任意两个干扰词或任意三个干扰词或四个干扰词的组合词组。例如XX股份有限公司可以将股份有限公司作为干扰词组删除,只将XX作为剩余词组,对XX利用模糊匹配方法在搜索库中进行搜索,判断搜索库中是否存在与XX相对应的搜索结果,搜索结果可能不与XX完全匹配,但可以是包含XX,比如XX(北京)之类的词组,则可以判断搜索库中存在与XX相对应的搜索结果,可以将与XX相对应的搜索结果录入。如果不存在与XX相对应的搜索结果,则将所述厂家名称关键词(XX股份有限公司)删除。另外,所述厂家名称关键词包括系统厂家名称关键词或用户输入厂家名称关键词。也就是厂家名称关键词可以有两个来源,可以是来源于系统的系统厂家名称关本文档来自技高网...

【技术保护点】
1.一种基于模糊匹配的厂家名称规范方法,其特征在于,所述方法包括:获取厂家名称关键词;利用模糊匹配法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果;如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果;如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。

【技术特征摘要】
1.一种基于模糊匹配的厂家名称规范方法,其特征在于,所述方法包括:获取厂家名称关键词;利用模糊匹配法判断搜索库中是否存在与所述厂家名称关键词相对应的搜索结果;如果所述搜索库中存在与所述厂家名称关键词相对应的搜索结果,则录入所述搜索结果;如果所述搜索库中不存在与所述厂家名称关键词相对应的搜索结果,则删除所述厂家名称关键词。2.如权利要求1所述的基于模糊匹配的厂家名称规范方法,其特征在于,所述获取厂家名称关键词,包括:获取厂家名称原词组;利用分词工具对所述厂家名称原词组进行分词处理;删除所述厂家名称原词组中干扰词和干扰词组合,得到剩余词;按照原顺序连接所述剩余词,得到厂家名称关键词。3.如权利要求2所述的基于模糊匹配的厂家名称规范方法,其特征在于,所述干扰词包括股份、有限、责任以及公司,所述干扰词组合包括任意两个干扰词或任意三个干扰词或四个干扰词的组合词组。4.如权利要求1所述的基于模糊匹配的厂家名称规范方法,其特征在于,所述厂家名称关键词包括系统厂家名称关键词或用户输入厂家名称关键词。5.如权利要求1所述的基于模糊匹配的厂家名称规范方法,其特征在于,所述搜索库包括:厂家名称信息库、权威企业信息网站以及搜索引擎。6.如权利要求5所述的基于模糊匹配的厂家名称规范方法,其特征在于,所述厂家名称信息库包括:厂家名称表和台账数据表,所述厂家名称表包括厂家名称和索引...

【专利技术属性】
技术研发人员:彭晶吴盛段雨廷李昊王科谭向宇邓云坤马仪陈宇民耿英三王建华刘志远闫静
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1