一种企业名称查重方法及装置、设备、介质制造方法及图纸

技术编号:23238921 阅读:69 留言:0更新日期:2020-02-04 18:22
本发明专利技术实施例提供的一种企业名称查重方法及装置、设备、介质,该方法包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本发明专利技术实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。

An enterprise name duplicate checking method and device, equipment and medium

【技术实现步骤摘要】
一种企业名称查重方法及装置、设备、介质
本专利技术实施例涉及计算机
,具体涉及一种企业名称查重方法及装置、设备、介质。
技术介绍
在实际生产生活中,整理客户的企业数据,对企业做定向营销时发现,样本数据中存在大量重复的企业数据。智能数据查重系统是针对企业中文名称做查重操作。为在营销中降低营销用户企业反感,通过降低营销数据重复率,从而更精确的定位营销范围的投放,提高企业中文数据的精确性。在成千上万的数据中,若使用人力查找重复数据是一件非常困难的事情。现有技术中一般采用以下几种方案进行查重:1、使用EXCEL的查重功能,去除完全相同的企业名称重复数据。2、使用SQL等数据库工具,去除完全相同的企业名称重复数据。3、使用查重工具,去除完全相同的企业名称重复数据。现有技术有其缺点:1、需要操作人员掌握EXCEL、SQL、查重、分词等工具,对基础操作人员的技能要求高。2、要求操作人员懂得一定的查重方法,组合各个方法做查重。3、中间流程多,操作复杂。4、查重结果的重复率高,完全重复的数据可以去除,近似重复的不能查到。5、耗费资源多。若数据量大需要多人协作、重复确认,容易出错。因此,如何提供一种企业名称查重方案,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重,是本领域技术人员亟待解决的技术问题。
技术实现思路
为此,本专利技术实施例提供一种企业名称查重方法及装置、设备、介质,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。为了实现上述目的,本专利技术实施例提供如下技术方案:第一方面,本专利技术实施例提供一种企业信息查重方法,包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。优选地,在所述获取企业信息之后;在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:将所述企业信息中的全角数据或半角数据转换为第一预设格式;将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;将所述企业信息中的汉字转为拼音,以便实现同音字查重;将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。优选地,所述地区,包括:国家、省份、城市、区县;所述机构类型,包括:公司、事务所、部、厅、局、机构、处。优选地,所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;相应地,所述查重方法还包括:利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。优选地,所述对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,包括:利用第一规则对所述分词词组进行查重,得到第一重复企业信息;利用第二规则对所述分词词组进行查重,得到第二重复企业信息;如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。优选地,所述如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息之后,还包括:将所述第一规则、所述第二规则作为规则组模板存储,以便后续使用调用;将所述企业信息中完全重复的数据只保留一份,得到企业查重结果数据,以便用户导出使用。第二方面,本专利技术实施例提供一种企业信息查重装置,包括:企业信息获取模块,用于获取企业信息,所述企业信息包括:企业名称;企业名称分词模块,用于将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;分词组合查重模块,用于对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。优选地,所述分词组合查重模块,包括:第一查重单元,用于利用第一规则对所述分词词组进行查重,得到第一重复企业信息;第二查重单元,用于利用第二规则对所述分词词组进行查重,得到第二重复企业信息;数据合并单元,用于如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。第三方面,本专利技术实施例提供一种企业信息查重设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述第一方面任一种所述企业信息查重方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一种所述企业信息查重方法的步骤。本专利技术实施例提供一种企业信息查重方法,包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本专利技术实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。本专利技术实施例提供的一种企业名称查重方法及装置、设备、介质,都具有上述的有益效果在此不再一一赘述。附图说明为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰本文档来自技高网...

【技术保护点】
1.一种企业信息查重方法,其特征在于,包括:/n获取企业信息,所述企业信息包括:企业名称;/n将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;/n对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。/n

【技术特征摘要】
1.一种企业信息查重方法,其特征在于,包括:
获取企业信息,所述企业信息包括:企业名称;
将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;
对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。


2.根据权利要求1所述的企业信息查重方法,其特征在于,
在所述获取企业信息之后;
在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:
将所述企业信息中的全角数据或半角数据转换为第一预设格式;
将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;
将所述企业信息中的汉字转为拼音,以便实现同音字查重;
将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;
其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。


3.根据权利要求1所述的企业信息查重方法,其特征在于,
所述地区,包括:国家、省份、城市、区县;
所述机构类型,包括:公司、事务所、部、厅、局、机构、处。


4.根据权利要求1所述的企业信息查重方法,其特征在于,
所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;
相应地,所述查重方法还包括:
利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。


5.根据权利要求1至4任一项所述的企业信息查重方法,其特征在于,
所述对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,包括:
利用第一规则对所述分词词组进行查重,得到第一重复企业信息;
利用第二规则对所述分词词组进行查重,得到第二重复企业信息;
如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;
其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型...

【专利技术属性】
技术研发人员:王章龙张韬
申请(专利权)人:赛诺贝斯北京营销技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1