【技术实现步骤摘要】
一种基于统计学的企业名名称相似度检测方法
本专利技术涉及企业名称检测
,具体为一种基于统计学的企业名名称相似度检测方法。
技术介绍
企业名称是一个企业的头面,一个企业区别于其他企业的文字符号,依次由企业所在地的行政区划、字号、行业或者经营特点、组织形式等四部分组成,字号是区别不同企业的主要标志,一个企业能够被人们快速记住并防止与其他企业进行混淆是一个成功的企业名称所需要具备的特性,因此企业名称确立时需要与其他现有企业名称进行对比,确立相似度,避免过于相似导致的混淆和侵权问题,企业名称相似度检测中大量行政区划、行业或者经营特点、组织形式等数据都是出现频率非常高的热词,给相似度检测工作带来了大量干扰和误差,且需要通过人工去甄别、补充,导致企业名称相似度检测效率和精度较低,为此我们提出一种基于统计学的企业名名称相似度检测方法用于解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于统计学的企业名名称相似度检测方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案: ...
【技术保护点】
1.一种基于统计学的企业名名称相似度检测方法,其特征在于,包括如下步骤:/nS1、对企业名称进行中文分词,得到分词结果;/nS2、统计全网企业名称热词,从而建立停用词库;/nS3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;/nS4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;/nS5、对企业名称和待检验名称库内各名称进行相似度计算。/n
【技术特征摘要】
1.一种基于统计学的企业名名称相似度检测方法,其特征在于,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库;
S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;
S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算。
2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S2中,全网企业名称热词的确定方法包括:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。
4.根据权利要...
【专利技术属性】
技术研发人员:宋兵,
申请(专利权)人:江苏经贸职业技术学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。