基于核心词相似度判断企业中文名称重复的方法技术

技术编号:10147688 阅读:285 留言:0更新日期:2014-06-30 16:51
本发明专利技术公开了一种基于核心词相似度判断企业中文名称重复的方法,通过ETL,把B2B电子商务平台数据库中的企业中文名称,加载到企业名称数据集市中;对数据集市中保存的企业中文名称进行预处理;通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词;根据核心词所对应的企业中文名称集,从而找到对应的未去除名称地域关键词的企业中文名称,通过考虑权重的文本相似度计算处理方法,计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。本发明专利技术减少了匹配工作的处理量,提高了整个方法的处理效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,通过ETL,把B2B电子商务平台数据库中的企业中文名称,加载到企业名称数据集市中;对数据集市中保存的企业中文名称进行预处理;通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词;根据核心词所对应的企业中文名称集,从而找到对应的未去除名称地域关键词的企业中文名称,通过考虑权重的文本相似度计算处理方法,计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。本专利技术减少了匹配工作的处理量,提高了整个方法的处理效率。【专利说明】
本专利技术属于B2B电子商务信息审核领域,特别是。
技术介绍
在国内,由于B2B电子商务在企业中的应用越来越普及,每天有大量的访问者在B2B电子商务平台上产生大量的注册行为,由于企业访问者使用不熟练、或者是企业本身具有扩大宣传的意图等,都会出现反复注册的情况,从而在B2B电子商务平台上出现大量重复企业的现象,这导致大量的冗余信息保存在B2B电子商务平台中,使平台的信息质量降低。另外,如果有些企业出于扩大宣传的意图,不仅会由于反复注册产生大量的重复身份信息,而且会出现大量相同的产品信息,降低了实际浏览者的体验效果,从而直接影响了 B2B电子商务平台的访问品质,因此防止这种行为对保证B2B电子商务平台的质量是非常重要的。在这些大量的反复注册信息中包含有大量的重复的企业中文名称信息,因此企业中文名称成为B2B电子商务运营商审核的重要标志。而目前采取的方法大体是,B2B电子商务运营商的工作人员在管理系统内,按一定规则,通过全文检索,或使用搜索引擎来人工判断,这种方法在准确性和审核效率上存在很大的不足。专利“一种检测文本重复的方法”(专利申请号201110029493.8),根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。此专利技术方法在判断时先要得到关键词框架,框架与文本标题有关,没有考虑单个词在整个句子中的重要程度,例如在企业中文名称中,包含有多个词,每个词的重要程度都是不一样的,例如“焦点科技股份有限公司”,其中“焦点科技”就比“有限”、“公司”这两个词的重要性要高得多,如果不考虑不同词的重要程度,就无法准确判断他们的重复程度。专利“一种检测文本重复的方法及装置”(专利申请号201310144339.4),所述方法包括:获得待测文本和现有文本中的特征词和特征词序列;将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配;在特征词匹配成功时,获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置;判断是否存在一组匹配一致的特征词,所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系;若存在一组匹配一致的特征词,根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置,确定待测文本与现有文本的重复区域。该方法也没有考虑单个词语的重要程度,而且计算相似度时效率低。因此如何考虑文本中各个词的重要程度,并提高检测重复的效率是亟需解决的问题。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供及系统。该方法智能精准。本专利技术还在系统中实现了该方法。及系统。技术方案如下:包括以下步骤:步骤一:通过ETL,把B2B电子商务平台数据库中的企业中文名称,加载到企业名称数据集市中。其中,ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。步骤二:对数据集市中保存的企业中文名称进行预处理。(1)对每个企业中文名称,指针从首字开始,以2个字一组取I个词,然后指针每次向右移动一个字,继续以2个字一组取I个词,该企业中文名称取词结束后,对下一个企业中文名称进行取词。如此循环处理,直到所有企业中文名称取词结束,从而得到一系列2个字组成的词。(2)对每个企业中文名称,指针从首字开始,以3个字一组取词,然后指针每次向右移动一个字,继续以3个字一组取词,该企业中文名称取词结束后,对下一个企业中文名称进行取词。如此循环处理,直到所有企业中文名称取词结束,从而得到一系列3个字组成的词。(3)通过统计方法,计算所有的分词出现频率的大小,把频率高的分词挑选出来,保存在常见词库中。步骤三:在企业名称数据集市中,对于每个企业中文名称,与中国地域名称库进行比对,去掉名称中包含的地域特征的关键词。然后在该数据集市中增加I列,用于保存去掉地域特征关键词的企业中文名称。其中,中国地域名称库保存了国内所有地域的名称。步骤四:对于B2B电子商务平台中不断新增的企业中文名称,通过ETL加载到数据集市中,通过一种提取企业中文名称中核心词的方法来提取这些新增企业中文名称的核心步骤五:取出每一个新增的企业中文名称的核心词,与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称,两者进行匹配,在数据集市中,得到所有包含核心词的企业中文名称集。步骤六:对于每一个新增的中文公司名称,根据其包含的核心词所对应的企业中文名称集,从而找到对应的未去除名称地域关键词的企业中文名称,通过一种增加词语重要程度因素的文本相似度计算处理方法,计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。步骤七:根据业务需求提取相似度高的名称,帮助审核人员快速、准确判断企业中文名称的重复情况,对于相似度低的企业中文名称,加入到企业名称数据集市。一种提取企业中文名称中核心词的方法:步骤一:对于B2B电子商务平台新增的每个企业中文名称,从常见词库中依次取出常见词,从企业中文名称的左边开始,与常见词进相匹配,如果匹配成功,从企业中文名称中去掉包含的常见词,然后重新进行步骤一。如果匹配不成功,进行步骤二。步骤二:从这个企业中文名称中,从右边减少一个字,然后继续与常见词库中的常见词进行匹配,匹配不成功,继续重复步骤二,直到企业中文名称中最后一个字为止。步骤三:将步骤二的最后一个字保存起来,然后从企业中文名称去掉这个字,重新开始匹配,如果匹配不成功,进行步骤二,直到剩下最后一个字为止,把这个字与先前保存的字按先后顺序连接起来,保存,然后从企业中文名称去掉这个字,如果匹配成功,进行步骤四。步骤四:通过以上步骤处理后,保存下来的词作为企业中文名称的核心词。步骤五:通过上述步骤,对某个企业中文名称处理结束后,将得到步骤四保存的所有核心词。步骤六:对核心词分四种情况构成最终核心词:?核心词是由两个字组成,就加上企业中文名称右边最近的一个匹配词,共同组成这个企业中文名称的最终核心词。?核心词是三个或者四个字组成,就保持不变,直接作为最终核心词。?核心词大于四个字, 就截取前四个字作为最终核心词。?所获取的核心词为空值,就取整个企业中文名称作为最终核心词。一种增加词语重要程度因素的文本本文档来自技高网
...

【技术保护点】
一种基于核心词相似度判断企业中文名称重复的方法,包括以下步骤:步骤一:通过ETL,把B2B电子商务平台数据库中的企业中文名称,加载到企业名称数据集市中;步骤二:对数据集市中保存的企业中文名称进行预处理;步骤三:在企业名称数据集市中,对于每个企业中文名称,与中国地域名称库进行比对,去掉名称中包含的地域特征的关键词;然后在该数据集市中增加1列,用于保存去掉地域特征关键词的企业中文名称;其中,中国地域名称库保存了国内所有地域的名称;步骤四:对于B2B电子商务平台中不断新增的企业中文名称,通过ETL加载到数据集市中,通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词;步骤五:取出每一个新增的企业中文名称的核心词,与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称,两者进行匹配,在数据集市中,得到所有包含核心词的企业中文名称集;步骤六:对于每一个新增的中文公司名称,根据其包含的核心词所对应的企业中文名称集,从而找到对应的未去除名称地域关键词的企业中文名称,通过增加词语重要程度因素的文本相似度计算处理方法,计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度;步骤七:根据业务需求提取相似度高的名称,帮助审核人员快速、准确判断企业中文名称的重复情况,对于相似度低的企业中文名称,加入到企业名称数据集市。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘少武王婷
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1