基于词频逆文档频率和最大曲率点的实体解析分块方法技术

技术编号:40066254 阅读:17 留言:0更新日期:2024-01-16 23:28
本发明专利技术涉及基于词频逆文档频率和最大曲率点的实体解析分块方法,包括以下步骤:S1、提取记录中的字符串类型的属性,对于数据集中的每条元组,首先按照属性名提取出字符串类型的属性,然后进行分词,分词后的令牌去除停用词,以使得每条元祖均嵌入令牌,S2、计算词频文档,计算步骤S1中每条元组嵌入的令牌的词频数,移除掉总词频数为1的令牌,建立语料库,S3、筛选令牌,根据步骤S2中建立的语料库算出记录中每个令牌的词频逆文档频率值TF_IDF,S4、完成初步分块,将步骤S3中选出的令牌作为键对记录进行初步的索引分块;本发明专利技术具有保证块质量的同时使减少率大大提升的优点。

【技术实现步骤摘要】

本专利技术属于数据质量管理,具体涉及基于词频逆文档频率和最大曲率点的实体解析分块方法


技术介绍

1、实体解析是指识别一个或者多个数据库中指向同一实体的不同记录。实体解析(er)在许多应用中都非常重要,例如为客户匹配来自不同在线商店的产品记录,为国家安全检测人们的财务状况,或分析来自不同医疗机构的健康状况。在数据清理过程中,er是一项非常重要且具有挑战性的任务,因为它对被检查的整个数据的质量有很大的影响。

2、现有技术中的实体解析方法,分为三个步骤:分块,比较和分类。分块可以有效的减少记录对比较的次数。例如,给定一个数据集d,要比较的记录对的总数为中的每一条记录都需要和d中的其他记录进行比较),为了减少比较记录对的数量,块技术被广泛应用,它可以将潜在匹配的记录分组到同一个块中,由于比较只发生在同一块中的记录之间,因此阻塞可以将比较的记录对的数量减少到不超过其中m是最大块中的记录数,|b|是块数,比如,一种简单的分块方法是将所有具有相同姓名首字母,或者具有相同姓氏属性的记录放在同一块中,比较步骤时比较同一块中对于对之间的相似性,使用的是一些相似度本文档来自技高网...

【技术保护点】

1.基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:步骤S3中的词频_逆文档频率值TF_IDF的计算方法为:TF-IDFi,j=TFi,j*IDFi,j,其中i表示i条记录,j表示令牌j,TFi,j可由以下公式得到:其中ni,j代表令牌j在第i条记录中出现的次数,代表令牌j在所有记录中出现的总次数,nk,j代表令牌j在第k条记录中出现的次数,N代表总记录数;

3.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:所述步...

【技术特征摘要】

1.基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:步骤s3中的词频_逆文档频率值tf_idf的计算方法为:tf-idfi,j=tfi,j*idfi,j,其中i表示i条记录,j表示令牌j,tfi,j可由以下公式得到:其中ni,j代表令牌j在第i条记录中出现的次数,代表令牌j在所有记录中出现的总次数,nk,j代表令牌j在第k条记录中出现的次数,n代表总记录数;

3.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:所述步骤s5中的cf_ibf计算方法为:其中,b表示块集合中的总块数,bi表示包含记录i的块,bj表示包含记录j的块,bi,j表示同时包含i和j的块即记录i和j的公有块数,将此值作为相似度,根据cf_ibf值计算出最大曲率点,将最大曲率点作为门限值对每个块中的记录对进行筛选优化,即移除cf_ibf小于门限值的记录对;

4.根据权利要求3所述的基于词频逆文档频率和最大曲率点的实体解析分块方法,其特征在于:所述步骤s6的块集合优化具体过程如下;

5.根据权利要求4所...

【专利技术属性】
技术研发人员:史雯隽耿明明吴怀广张静陈浩然
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1