企业名称的模糊匹配方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:32978622 阅读:15 留言:0更新日期:2022-04-09 12:00
本发明专利技术公开了一种企业名称的模糊匹配方法、装置、存储介质及计算机设备,其中方法包括:获取第一企业名称、第二企业名称,以及与第一企业名称和第二企业名称分别对应的经纬度信息;对第一企业名称和第二企业名称进行预处理,并对预处理后的第一企业名称和第二企业名称进行分词操作,以提取第一企业名称和第二企业名称中的特征词和数量词;根据词频逆文本频率指数,对第一企业名称和第二企业名称的分词结果进行排序,得到关键词;将第一企业名称、第二企业名称和特征词转换为拼音;根据经纬度信息、特征词、数量词、关键词及拼音,生成第一企业名称和第二企业名称的模糊匹配结果。上述方法极大的提高了企业名称模糊匹配的准确度,降低了误判率。低了误判率。低了误判率。

【技术实现步骤摘要】
企业名称的模糊匹配方法、装置、存储介质及计算机设备


[0001]本专利技术涉及信息
,尤其是涉及一种企业名称的模糊匹配方法、装置、存储介质及计算机设备。

技术介绍

[0002]目前,为了深入剖析企业的环境问题,通常需要整合不同来源以及种类的企业环境相关数据,以全面展示企业的环境情况。但是由于数据的多样性以及相关人员的录入习惯和错误输入等原因,往往会导致不同数据来源以及种类中的相同企业的企业名称不完全相同,此时的企业环境数据整合就会出现问题。
[0003]在现有技术中,通常采用基于关键词的方式对企业名称进行模糊匹配,从而将相同企业的环境相关数据进行整合。这种方法主要通过设定关键词匹配数量的阈值,得到模糊匹配的结果。例如:“北京市XX公司”与“北京XX公司”可判定为同一公司。
[0004]但是,采用关键词的方式仍存在诸多不足。首先,当输入的企业名称存在错别字且相同关键词占比没有达到阈值要求时,采用关键词方式会无法匹配。如“XXX建材”无法匹配到“XXX建材有限责任公司”,但是二者属于同一企业;另外,对于含有数词的企业名称,采用关键词匹配存在误判的可能,如“某总厂第一分厂”和“某总厂第二分厂”,采用关键词的方式会将二者误认为同一企业,但是二者明显不是。
[0005]由此可见,企业名称匹配方式的优劣直接影响到企业环境相关数据的整合效果,并进一步影响到对企业环境问题的分析。

技术实现思路

[0006]有鉴于此,本申请提供了一种企业名称的模糊匹配方法、装置、存储介质及计算机设备,主要目的在于解决企业名称匹配不准确的技术问题。
[0007]根据本专利技术的第一个方面,提供一种企业名称的模糊匹配方法,该方法包括:获取第一企业名称、第二企业名称,以及与第一企业名称和第二企业名称分别对应的经纬度信息;对第一企业名称和第二企业名称进行预处理,并对预处理后的第一企业名称和第二企业名称进行分词操作,以提取第一企业名称和第二企业名称中的特征词和数量词;根据词频逆文本频率指数,对第一企业名称和第二企业名称的分词结果进行排序,得到关键词;将第一企业名称、第二企业名称和特征词转换为拼音;根据与第一企业名称和第二企业名称分别对应的经纬度信息、特征词、数量词、关键词及拼音,生成第一企业名称和第二企业名称的模糊匹配结果。
[0008]根据本专利技术的第二个方面,提供一种企业名称的模糊匹配装置,该装置包括:数据获取模块,用于获取第一企业名称、第二企业名称,以及与第一企业名称和第二企业名称分别对应的经纬度信息;
数据预处理模块,用于对第一企业名称和第二企业名称进行预处理,并对预处理后的第一企业名称和第二企业名称进行分词操作,以提取第一企业名称和第二企业名称中的特征词和数量词;关键词提取模块,用于根据词频逆文本频率指数,对第一企业名称和第二企业名称的分词结果进行排序,得到关键词;拼音转换模块,用于将第一企业名称、第二企业名称和特征词转换为拼音;结果生成模块,用于根据与第一企业名称和第二企业名称分别对应的经纬度信息、特征词、数量词、关键词及拼音,生成第一企业名称和第二企业名称的模糊匹配结果。
[0009]根据本专利技术的第三个方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述企业名称的模糊匹配方法。
[0010]根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述企业名称的模糊匹配方法。
[0011]本专利技术提供的一种企业名称的模糊匹配方法、装置、存储介质及计算机设备,首先获取了两个不同种类或来源下的企业名称,并获取了与两个企业名称分别对应的经纬度信息,然后对两个企业名称进行预处理和分词操作,以提取企业名称中的特征词和数量词,进而根据词频逆文本频率指数得到关键词,进一步的,将两个企业名称以及提取出的特征词转换为拼音,最后根据上述所有获取到的信息以及处理后得到的信息分析出两个企业名称的模糊匹配结果,即分析出两个企业名称是否来源于同一个企业。上述企业名称的模糊匹配方法,通过将两个不同种类或来源下的企业名称进行了充分的处理和对比,获取到了准确度非常高的模糊匹配结果,相比于传统技术,本专利技术极大的提高了企业名称模糊匹配的准确度,降低了误判率。
附图说明
[0012]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了本专利技术实施例提供的一种企业名称的模糊匹配方法的应用场景图;图2示出了本专利技术实施例提供的一种企业名称的模糊匹配方法的流程示意图;图3示出了本专利技术实施例提供的另一种企业名称的模糊匹配方法的流程示意图;图4示出了本专利技术实施例提供的一种企业名称的模糊匹配方法的流程图;图5示出了本专利技术实施例提供的一种企业名称的模糊匹配装置的结构示意图。
具体实施方式
[0013]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0014]本申请提供的企业名称的模糊匹配方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0015]在一个实施例中,如图2所示,提供了一种企业名称的模糊匹配方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:201、获取第一企业名称、第二企业名称,以及与第一企业名称和第二企业名称分别对应的经纬度信息。
[0016]其中,服务器可以通过数据输入、数据导入或网络爬虫等方式获取到两个不同种类或不同来源下的企业名称,同时,服务器还可以获取到与两个企业名称分别对应的经纬度信息。举例来说,服务器可以通过表格的方式获取到两个不同来源的企业名称,并通过循环获取表格中每两个企业名称的方式,将两个不同来源下的所有企业名称进行循环处理。另外需要说明的是,如果一些种类或来源下的企业名称没有与其对应的经纬度信息,也可以给这样的企业名称配置一个预设的经纬度信息。
[0017]202、对第一企业名称和第二企业名称进行预处理,并对预处理后的第一企业名称和第二企业名称进行分词操作,以提取第一企业名称和第二企业名称中的特征词和数量词。
[0018]其中,分词操作指的是中文分词操作,而中文分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
[0019]具体的,服务器可以首先对获取到的两个企业名称进行一系列预处理操作,如去除企业名称中的一些特定字符和非汉字字符等,然后对预处理后的企业名称进行中文分词操作,在分词过程中,首先会添加一些同义且会产生干扰的词作为停用词,然后再将分词结果中连续的单字合并起来构建特征词,最后会提取两个企业名称中的数量词。其中,停用词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业名称的模糊匹配方法,其特征在于,所述方法包括:获取第一企业名称、第二企业名称,以及与第一企业名称和第二企业名称分别对应的经纬度信息;对第一企业名称和第二企业名称进行预处理,并对预处理后的所述第一企业名称和第二企业名称进行分词操作,以提取所述第一企业名称和第二企业名称中的特征词和数量词;根据词频逆文本频率指数,对所述第一企业名称和第二企业名称的分词结果进行排序,得到关键词;将所述第一企业名称、第二企业名称和特征词转换为拼音;根据所述与第一企业名称和第二企业名称分别对应的经纬度信息、特征词、数量词、关键词及所述拼音,生成第一企业名称和第二企业名称的模糊匹配结果。2.根据权利要求1所述的方法,其特征在于,所述对第一企业名称和第二企业名称进行预处理,包括:去除第一企业名称和第二企业名称中的行政地名级别的词和非汉字字符;所述对预处理后的所述第一企业名称和第二企业名称进行分词操作,以提取所述第一企业名称和第二企业名称中的特征词和数量词,包括:将分词结果中的同义词和干扰词作为停用词,将分词结果中的连续单字合并作为特征词;提取所述分词结果中的数量词。3.根据权利要求2所述的方法,其特征在于,所述根据所述与第一企业名称和第二企业名称分别对应的经纬度信息、特征词、数量词、关键词及所述拼音,生成第一企业名称和第二企业名称的模糊匹配结果,包括:判断所述与第一企业名称和第二企业名称分别对应的经纬度的差值是否小于或小于等于第一阈值;若确定所述与第一企业名称和第二企业名称分别对应的经纬度的差值大于或大于等于所述第一阈值,则判定所述第一企业名称和第二企业名称来源于不同企业。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若确定所述与第一企业名称和第二企业名称分别对应的经纬度的差值小于或小于等于所述第一阈值,则对比所述第一企业名称和第二企业名称中相同的汉字所占比例是否大于或大于等于第二阈值;若所述第一企业名称和第二企业名称中的汉字完全相同,则判定所述第一企业名称和第二企业名称来源于同一企业。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第一企业名称和第二企业名称中相同的汉字所占比例大于或大于等于所述第二阈值,则对比所述第一企业名称和第二企业名称中相同的拼音所占比例是否大于或大于等于第三阈值;若所述第一企业...

【专利技术属性】
技术研发人员:田启明蒋人逵
申请(专利权)人:北京英视睿达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1