System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 门店名称重复检测方法和门店重复检测方法技术_技高网

门店名称重复检测方法和门店重复检测方法技术

技术编号:41399723 阅读:2 留言:0更新日期:2024-05-20 19:24
本申请涉及一种门店名称重复检测方法和门店重复检测方法,其中,该门店名称重复检测方法包括:基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;基于字符相似度,确定第一门店名称与第二门店名称的重复度。其能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。

【技术实现步骤摘要】

本申请涉及门店信息维护领域,特别是涉及门店名称重复检测方法和门店重复检测方法


技术介绍

1、在共享移动电源行业中,需要将共享移动电源分配至不同城市区域的商场或门店中,以供相应商场或门店的客户通过扫码租赁移动电源进行充电。在该种经营模式下,门店管理系统需要将门店信息与对应的共享移动电源和经营商家建立关系。在建立关系的过程中,首先需要在门店管理系统中录入实体门店对应的门店信息。

2、在进行门店信息录入时,首先需要进行门店判重检测。目前,往往采用mysql模糊搜索,或者elasticsearch的分词和相关性评分来对门店名称进行判重检测和提示。其中,mysql为关系型数据库管理系统,elasticsearch为分布式搜索和分析引擎。mysql的模糊搜索,和elasticsearch的相似度判定,仅适用于通用文本层面的相似度检测,而无法基于不同门店的行业特性进行判重,因而判重检测的准确度较低。

3、针对相关技术中存在门店名称判重检测的准确度较低的问题,目前还没有提出有效的解决方案。


技术实现思路

1、在本实施例中提供了一种门店名称重复检测方法和门店重复检测方法,以解决相关技术中存在门店名称判重检测的准确度较低的问题。

2、第一个方面,在本实施例中提供了一种门店名称重复检测方法,包括:

3、基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称

4、基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;

5、对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;

6、基于字符相似度,确定第一门店名称与第二门店名称的重复度。

7、在其中的一些实施例中,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述方法还包括:

8、根据门店类别信息和门店位置信息,从已建档的门店信息库中确定与待建档的第一门店信息匹配的第二门店信息;

9、获取第一门店信息的门店名称,得到第一门店名称;

10、获取第二门店信息的门店名称,得到第二门店名称。

11、在其中的一些实施例中,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:

12、对第一门店名称进行分店名拆分,得到第一拆分结果;第一拆分结果包含第一店名字符串和第一分店名字符串;

13、对第二门店名称进行分店名拆分,得到第二拆分结果;第二拆分结果包含第二店名字符串和第二分店名字符串;

14、基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串。

15、在其中的一些实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:

16、在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串一致的情况下,将第一分店名字符串识别为第一初始字符串,将第二分店名字符串识别为第二初始字符串。

17、在其中的一些实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:

18、在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串不一致的情况下,将第一店名字符串识别为第一初始字符串,将第二店名字符串识别为第二初始字符串。

19、在其中的一些实施例中,在基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述方法还包括:

20、在第一分店名字符串不为空,第二分店名字符串为空,且第二店名字符串包含第一分店名字符串的情况下,将第一分店名字符串赋值至第二分店名字符串,并从第二店名字符串中去除第一分店名字符串;

21、在第二分店名字符串不为空,第一分店名字符串为空,且第一店名字符串包含第二分店名字符串的情况下,将第二分店名字符串赋值至第一分店名字符串,并从第一店名字符串中去除第二分店名字符串。

22、在其中的一些实施例中,预设的干扰词识别规则包括:

23、将不属于预设语种文字且不属于数字的字符,和/或,门店补充信息,识别为干扰词。

24、在其中的一些实施例中,预设的干扰词识别规则包括:

25、分别识别第一初始字符串和第二初始字符串中表征门店业务信息的关键词;

26、在关键词仅分布于第一初始字符串的情况下,将第一初始字符串的关键词识别为干扰词;

27、在关键词仅分布于第二初始字符串的情况下,将第二初始字符串的关键词识别为干扰词;

28、在第一初始字符串和第二初始字符串包含重复的关键词的情况下,将重复的关键词识别为干扰词。

29、在其中的一些实施例中,对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度,包括:

30、确定第一匹配字符串和第二匹配字符串中的重复字符数;

31、确定第一匹配字符串和第二匹配字符串的字符总数;

32、根据重复字符数和字符总数,确定第一匹配字符串和第二匹配字符串的字符相似度。

33、第二个方面,在本实施例中提供了一种门店重复检测方法,包括:

34、基于上述第一个方面的门店名称重复检测方法,确定待建档的第一门店与已建档的第二门店之间的门店名称重复度;

35、获取第一门店关联的第一门店图像,和第二门店关联的第二门店图像;

36、确定第一门店图像和第二门店图像之间的图像相似度;

37、根据门店名称重复度和图像相似度,确定第一门店和第二门店的重复度。

38、第三个方面,在本实施例中提供了一种门店名称重复检测装置,包括:初始字符确定模块、去除模块、相似度计算模块以及重复度确定模块;其中:

39、初始字符确定模块,用于基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;

40、去除模块,用于基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;

41、相似度计算模块,用于对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;

42、重复度确定模块,用于至少基于字符相似度,确定第一门店名称与第二门店名称的重复度。

43、第四个方面,在本本文档来自技高网...

【技术保护点】

1.一种门店名称重复检测方法,其特征在于,包括:

2.根据权利要求1所述的门店名称重复检测方法,其特征在于,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,所述方法还包括:

3.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:

4.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:

5.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:

6.根据权利要求3所述的门店名称重复检测方法,其特征在于,在基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串之前,所述方法还包括:

7.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述预设的干扰词识别规则包括:

8.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述预设的干扰词识别规则包括:

9.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述对所述第一匹配字符串和所述第二匹配字符串进行相似度计算,得到字符相似度,包括:

10.一种门店重复检测方法,其特征在于,包括:

11.一种门店名称重复检测装置,其特征在于,包括:初始字符确定模块、去除模块、相似度计算模块以及重复度确定模块;其中:

12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的门店信息重复检测方法。

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的门店信息重复检测方法的步骤。

...

【技术特征摘要】

1.一种门店名称重复检测方法,其特征在于,包括:

2.根据权利要求1所述的门店名称重复检测方法,其特征在于,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,所述方法还包括:

3.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:

4.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:

5.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:

6.根据权利要求3所述的门店名称重复检测方法,其特征在于,在基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始...

【专利技术属性】
技术研发人员:唐永波张志强莫笛
申请(专利权)人:杭州小电科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1