公司名称的匹配方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27935617 阅读:33 留言:0更新日期:2021-04-02 14:15
本发明专利技术涉及一种公司名称的匹配方法、装置、计算机设备及存储介质,该公司名称的匹配方法包括如下步骤:S1:接收用户提交的公司名称;S2:对公司名称进行分词,并根据分词结构计算词的频次和词的权重;S3:以公司名称为点,相同词为边,构建点边关系;S4:有相同的边关系的两个公司名称,计算莱文斯坦距离相似度,并根据词权重计算两个公司名称的余弦距离相似度;S5:过滤掉低于阈值的边,量化出公司名称的相似度;S6:根据过滤后的边数据,计算连通图,将数据进行划分,找出相似或者相同的公司名称;该公司名称的匹配方法、装置、计算机设备及存储介质通过构建边关系避免两两计算,大量减少了计算量,提高计算效率和计算的准确性。

【技术实现步骤摘要】
公司名称的匹配方法、装置、计算机设备及存储介质
本专利技术涉及软件开发
,特别涉及一种公司名称的匹配方法、装置、计算机设备及存储介质。
技术介绍
大规模数据集公司名模糊匹配,是在海量公司名数据中找出同一个公司在不同的公司名称呼表达方式的集合。现有技术中,公开的公司名模糊匹配使用的算法为人工或者做切词,对公司名进行标准化,两两比对,对降低两两比对次数上并没有做优化。目前针对大规模数据集的公司名模糊匹配算法较少,主要是两两比对公司名的算法较多,多模糊匹配算法在性能上频次过高,且准确率低,导致计算大规模数据集较慢或不能计算,比对的算法比较单一,容易受某一些因素影响导致模糊匹配结果不够准确。因此,亟需一种效率较高、准确性较好的匹配方法。
技术实现思路
基于此,有必要提供一种效率较高、准确性较好的公司名称的匹配方法、装置、计算机设备及存储介质。本专利技术实施例一方面提供一种公司名称的匹配方法,包括如下步骤:S1:接收用户提交的公司名称;S2:对公司名称进行分词,并根据分词结构计算词的频次和本文档来自技高网...

【技术保护点】
1.一种公司名称的匹配方法,其特征在于,包括如下步骤:/nS1:接收用户提交的公司名称;/nS2:对公司名称进行分词,并根据分词结构计算词的频次和词的权重;/nS3:以公司名称为点,相同词为边,构建点边关系;/nS4:有相同的边关系的两个公司名称,计算莱文斯坦距离相似度,并根据词权重计算两个公司名称的余弦距离相似度;/nS5:过滤掉低于阈值的边,量化出公司名称的相似度;/nS6:根据过滤后的边数据,计算连通图,将数据进行划分,找出相似或者相同的公司名称。/n

【技术特征摘要】
1.一种公司名称的匹配方法,其特征在于,包括如下步骤:
S1:接收用户提交的公司名称;
S2:对公司名称进行分词,并根据分词结构计算词的频次和词的权重;
S3:以公司名称为点,相同词为边,构建点边关系;
S4:有相同的边关系的两个公司名称,计算莱文斯坦距离相似度,并根据词权重计算两个公司名称的余弦距离相似度;
S5:过滤掉低于阈值的边,量化出公司名称的相似度;
S6:根据过滤后的边数据,计算连通图,将数据进行划分,找出相似或者相同的公司名称。


2.如权利要求1所述的公司名称的匹配方法,其特征在于,对公司名称进行分词,并根据分词结构计算词的频次和词的权重包括:
1)分词:公司名称使用jieba分词,如果有行政区,要补充公司名称中的行政区;将全量公司名称分词后,形成公司名称的分词库;
2)计算词的频次:根据分词结果,统计每个分词在全量公司名称中出现的频率,对于出现频次大于设定阈值的词作为无意义词;
3)计算词的权重:根据所有的公司名称切出来的词,计算TF-IDF。


3.如权利要求2所述的公司名称的匹配方法,其特征在于,根据TF-IDF=TF*IDF公式,得出公司名称的分词计算公司:



TF=该分词i在公司名称j的出现频次/公司名称j的分词数量。


4.如权利要求1所述的公司名称的匹配方法,其特征在于,以公司名称为点,相同词为边,构建点边关系包括:
对海量的公司名称,根据公司名称有相同的词,则将他们建立边关系,构边计算;
构边时,将相同词的公司名称分为一个数据集,将数据集中数据量大于阈值的词进行分级膨胀。


5.如权利要求4所述的公司名称的匹配方法,其特征在于,所述分级膨胀的步骤包括:
1)分块输出:将数据集m平分n块,并将每块数据集和原来数据集组合成一条记录并输出,即每块大小是m/n条,并根据分布式计算特点,将输出结果数据进行重分区;<...

【专利技术属性】
技术研发人员:黄文辉廖志军黄咏毫万赐华冯璐茜
申请(专利权)人:中邮消费金融有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1