一种基于改进编辑距离的品牌名称提取方法及系统技术方案

技术编号:37127568 阅读:17 留言:0更新日期:2023-04-06 21:26
本发明专利技术提供了文本处理技术领域的一种基于改进编辑距离的品牌名称提取方法及系统,方法包括如下步骤:步骤S10、获取大量的POI数据,对各所述POI数据进行预处理;步骤S20、设定一三级分类标准,基于所述三级分类标准对预处理后的所述POI数据携带的商户名称进行分类;步骤S30、基于改进编辑距离算法,计算相同类别下的各所述商户名称之间的相似性;步骤S40、设定一相似阈值以及若干个商户名称集,将所述相似性大于相似阈值的各商户名称加入对应的商户名称集;步骤S50、基于各所述商户名称集进行品牌名称提取。本发明专利技术的优点在于:极大的提升了品牌名称提取的效率以及精度,极大的降低了品牌名称提取的成本。牌名称提取的成本。牌名称提取的成本。

【技术实现步骤摘要】
一种基于改进编辑距离的品牌名称提取方法及系统


[0001]本专利技术涉及文本处理
,特别指一种基于改进编辑距离的品牌名称提取方法及系统。

技术介绍

[0002]连锁店的品牌名称是非常有价值的数据,其应用十分广泛,比如运营商可用其进行集团用户管理。但目前,各商户命名连锁店的品牌名称多种多样,导致在统计各品牌名称对应的商户时较为复杂,且不易区分;因此,产生了从商户名称中提取品牌名称的需求。
[0003]由于POI数据中包含了大量的商户名称以及商户所属的类别信息,因此,现有技术是从POI数据中提取连锁店的品牌名称。针对品牌名称的提取,传统上需要通过人工对大量的POI数据进行标注以形成训练样本,再利用训练样本对品牌名称提取模型进行训练,但传统方法的标注过程十分繁琐,效率低下,需要耗费大量人力成本,且标注失误会直接影响品牌名称提取模型的提取精度。
[0004]因此,如何提供一种基于改进编辑距离的品牌名称提取方法及系统,实现提升品牌名称提取的效率以及精度,降低品牌名称提取的成本,成为一个亟待解决的技术问题。

技术实现思路

[0005]本专利技术要解决的技术问题,在于提供一种基于改进编辑距离的品牌名称提取方法及系统,实现提升品牌名称提取的效率以及精度,降低品牌名称提取的成本。
[0006]第一方面,本专利技术提供了一种基于改进编辑距离的品牌名称提取方法,包括如下步骤:
[0007]步骤S10、获取大量的POI数据,对各所述POI数据进行预处理;
[0008]步骤S20、设定一三级分类标准,基于所述三级分类标准对预处理后的所述POI数据携带的商户名称进行分类;
[0009]步骤S30、基于改进编辑距离算法,计算相同类别下的各所述商户名称之间的相似性;
[0010]步骤S40、设定一相似阈值以及若干个商户名称集,将所述相似性大于相似阈值的各商户名称加入对应的商户名称集;
[0011]步骤S50、基于各所述商户名称集进行品牌名称提取。
[0012]进一步地,所述步骤S10具体为:
[0013]获取同一商户的大量的POI数据,对各所述POI数据按预设规则进行无关数据剔除的预处理。
[0014]进一步地,所述步骤S30中,所述改进编辑距离算法具体为:
[0015]设字符串S={s1,s2,...,s
m
},字符串V={v1,v2,...,v
n
},利用贪心算法计算字符串S和字符串V的最长公共前缀T
pre
和最长公共后缀T
suf
,将字符串S和字符串V的首尾均减去最长公共前缀T
pre
和最长公共后缀T
suf
,得到字符串S

和字符串V


[0016]利用传统编辑距离算法计算字符串S

和字符串V

的编辑距离Dis;
[0017]基于编辑距离Dis、字符串S和字符串V计算相似性:
[0018][0019]进一步地,所述步骤S40中,所述相似阈值的取值为0.5。
[0020]进一步地,所述步骤S50具体包括:
[0021]步骤S51、判断所述商户名称集中的商户名称数量是否大于等于5,若是,则进入步骤S52;若否,则进行下一个所述商户名称集的判断;
[0022]步骤S52、判断所述商户名称集中的各商户名称是否一致,若是,则将商户名称作为备用品牌名称,并进入步骤S57;若否,则进入步骤S53;
[0023]步骤S53、判断所述商户名称集中的商户名称数量是否大于10,若是,则进入步骤S54;若否,则提示不存在品牌名称,并结束流程;
[0024]步骤S54、使用结巴分词对所述商户名称集中的商户名称进行分词,得到若干个词组,提取所述词组的词性,基于所述词性对各词组进行合并,得到合并词;
[0025]步骤S55、设定一词长阈值以及若干个停用词,筛选词长超过所述词长阈值,且不包含所述停用词的合并词,对筛选的各所述合并词进行词频统计,保留词频最高的前3个所述合并词;
[0026]步骤S56、判断各所述合并词对应的商户名称是否一致,若是,则将对应的商户名称作为备用品牌名称,并进入步骤S57;若否,则将词频最高的前10个所述合并词对应的商户名称作为备用品牌名称,并进入步骤S57;
[0027]步骤S57、对各所述备用品牌名称进行汇总,将词频大于5的所述备用品牌名称作为品牌名称。
[0028]第二方面,本专利技术提供了一种基于改进编辑距离的品牌名称提取系统,包括如下模块:
[0029]POI数据预处理模块,用于获取大量的POI数据,对各所述POI数据进行预处理;
[0030]商户名称分类模块,用于设定一三级分类标准,基于所述三级分类标准对预处理后的所述POI数据携带的商户名称进行分类;
[0031]相似性计算模块,用于基于改进编辑距离算法,计算相同类别下的各所述商户名称之间的相似性;
[0032]商户名称集创建模块,用于设定一相似阈值以及若干个商户名称集,将所述相似性大于相似阈值的各商户名称加入对应的商户名称集;
[0033]品牌名称提取模块,用于基于各所述商户名称集进行品牌名称提取。
[0034]进一步地,所述POI数据预处理模块具体用于:
[0035]获取同一商户的大量的POI数据,对各所述POI数据按预设规则进行无关数据剔除的预处理。
[0036]进一步地,所述相似性计算模块中,所述改进编辑距离算法具体为:
[0037]设字符串S={s1,s2,...,s
m
},字符串V={v1,v2,...,v
n
},利用贪心算法计算字符串S和字符串V的最长公共前缀T
pre
和最长公共后缀T
suf
,将字符串S和字符串V的首尾均减去最长公共前缀T
pre
和最长公共后缀T
suf
,得到字符串S

和字符串V


[0038]利用传统编辑距离算法计算字符串S

和字符串V

的编辑距离Dis;
[0039]基于编辑距离Dis、字符串S和字符串V计算相似性:
[0040][0041]进一步地,所述商户名称集创建模块中,所述相似阈值的取值为0.5。
[0042]进一步地,所述品牌名称提取模块具体包括:
[0043]第一商户名称数量校验单元,用于判断所述商户名称集中的商户名称数量是否大于等于5,若是,则进入第一商户名称一致性校验单元;若否,则进行下一个所述商户名称集的判断;
[0044]第一商户名称一致性校验单元,用于判断所述商户名称集中的各商户名称是否一致,若是,则将商户名称作为备用品牌名称,并进入汇总提取单元;若否,则进入第二商户名称数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进编辑距离的品牌名称提取方法,其特征在于:包括如下步骤:步骤S10、获取大量的POI数据,对各所述POI数据进行预处理;步骤S20、设定一三级分类标准,基于所述三级分类标准对预处理后的所述POI数据携带的商户名称进行分类;步骤S30、基于改进编辑距离算法,计算相同类别下的各所述商户名称之间的相似性;步骤S40、设定一相似阈值以及若干个商户名称集,将所述相似性大于相似阈值的各商户名称加入对应的商户名称集;步骤S50、基于各所述商户名称集进行品牌名称提取。2.如权利要求1所述的一种基于改进编辑距离的品牌名称提取方法,其特征在于:所述步骤S10具体为:获取同一商户的大量的POI数据,对各所述POI数据按预设规则进行无关数据剔除的预处理。3.如权利要求1所述的一种基于改进编辑距离的品牌名称提取方法,其特征在于:所述步骤S30中,所述改进编辑距离算法具体为:设字符串S={s1,s2,

,s
m
},字符串V={v1,v2,

,v
n
},利用贪心算法计算字符串S和字符串V的最长公共前缀T
pre
和最长公共后缀T
suf
,将字符串S和字符串V的首尾均减去最长公共前缀T
pre
和最长公共后缀T
suf
,得到字符串S'和字符串V';利用传统编辑距离算法计算字符串S'和字符串V'的编辑距离Dis;基于编辑距离Dis、字符串S和字符串V计算相似性:4.如权利要求1所述的一种基于改进编辑距离的品牌名称提取方法,其特征在于:所述步骤S40中,所述相似阈值的取值为0.5。5.如权利要求1所述的一种基于改进编辑距离的品牌名称提取方法,其特征在于:所述步骤S50具体包括:步骤S51、判断所述商户名称集中的商户名称数量是否大于等于5,若是,则进入步骤S52;若否,则进行下一个所述商户名称集的判断;步骤S52、判断所述商户名称集中的各商户名称是否一致,若是,则将商户名称作为备用品牌名称,并进入步骤S57;若否,则进入步骤S53;步骤S53、判断所述商户名称集中的商户名称数量是否大于10,若是,则进入步骤S54;若否,则提示不存在品牌名称,并结束流程;步骤S54、使用结巴分词对所述商户名称集中的商户名称进行分词,得到若干个词组,提取所述词组的词性,基于所述词性对各词组进行合并,得到合并词;步骤S55、设定一词长阈值以及若干个停用词,筛选词长超过所述词长阈值,且不包含所述停用词的合并词,对筛选的各所述合并词进行词频统计,保留词频最高的前3个所述合并词;步骤S56、判断各所述合并词对应的商户名称是否一致,若是,则将对应的商户名称作为备用品牌名称,并进入步骤S57;若否,则将词频最高的前10个所述合并词对应的商户名称作为备用品牌名称,并进入步骤S57;
步骤S57、对各所述备用品牌名称进行汇总,将词频大于5的所述备用品牌名称作为品牌名称。6.一种基于改进编辑距离的品牌名称提取系统,其特征在于:包括如下模块:POI数据预处理模块,用于获取大量的POI...

【专利技术属性】
技术研发人员:徐珊珊朱坚陆向东赵庆勇
申请(专利权)人:福建新大陆软件工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1