基于核心词相似度判断企业中文名称重复的方法技术

技术编号：10147688 阅读：285 留言：0更新日期：2014-06-30 16:51

本发明专利技术公开了一种基于核心词相似度判断企业中文名称重复的方法，通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中；对数据集市中保存的企业中文名称进行预处理；通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词；根据核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过考虑权重的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。本发明专利技术减少了匹配工作的处理量，提高了整个方法的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种，通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中；对数据集市中保存的企业中文名称进行预处理；通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词；根据核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过考虑权重的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。本专利技术减少了匹配工作的处理量，提高了整个方法的处理效率。【专利说明】
本专利技术属于B2B电子商务信息审核领域，特别是。
技术介绍
在国内，由于B2B电子商务在企业中的应用越来越普及，每天有大量的访问者在B2B电子商务平台上产生大量的注册行为，由于企业访问者使用不熟练、或者是企业本身具有扩大宣传的意图等，都会出现反复注册的情况，从而在B2B电子商务平台上出现大量重复企业的现象，这导致大量的冗余信息保存在B2B电子商务平台中，使平台的信息质量降低。另外，如果有些企业出于扩大宣传的意图，不仅会由于反复注册产生大量的重复身份信息，而且会出现大量相同的产品信息，降低了实际浏览者的体验效果，从而直接影响了 B2B电子商务平台的访问品质，因此防止这种行为对保证B2B电子商务平台的质量是非常重要的。在这些大量的反复注册信息中包含有大量的重复的企业中文名称信息，因此企业中文名称成为B2B电子商务运营商审核的重要标志。而目前采取的方法大体是，B2B电子商务运营商的工作人员在管理系统内，按一定规则，通过全文检索，或使用搜索引擎来人工判断，这种方法在准确性和...

【技术保护点】
一种基于核心词相似度判断企业中文名称重复的方法，包括以下步骤：步骤一：通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中；步骤二：对数据集市中保存的企业中文名称进行预处理；步骤三：在企业名称数据集市中，对于每个企业中文名称，与中国地域名称库进行比对，去掉名称中包含的地域特征的关键词；然后在该数据集市中增加1列，用于保存去掉地域特征关键词的企业中文名称；其中，中国地域名称库保存了国内所有地域的名称；步骤四：对于B2B电子商务平台中不断新增的企业中文名称，通过ETL加载到数据集市中，通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词；步骤五：取出每一个新增的企业中文名称的核心词，与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称，两者进行匹配，在数据集市中，得到所有包含核心词的企业中文名称集；步骤六：对于每一个新增的中文公司名称，根据其包含的核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过增加词语重要程度因素的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度；...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘少武，王婷，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人