【技术实现步骤摘要】
海量数据实体相似对确定方法和系统
本专利技术属于数据处理
,具体涉及海量数据实体相似对确定方法和系统。
技术介绍
在实体性计算中,根据每个实体的属性,对部分实体进行相似性的标注,要求能得到实体之间的相似度。相似性实体的确定有着广泛的应用,由于在互联网应用更加广泛,还可以应用到智能工业物联网、智能农业、智能交通以及智能城市等多个方面,利用相似性分析实现传统的相似性搜索和智能推荐。而目前的实体相似对的确定方法在处理复杂的海量数据时效率有待提高,且准确度不高。
技术实现思路
本专利技术旨在解决现有实体相似对的确定方法处理复杂的海量数据时效率有待提高,且准确度不高的技术问题,提供了一种海量数据实体相似度确定方法和系统。为实现上述技术目的,本专利技术采用了以下技术方案。一方面,本专利技术提供了海量数据实体相似对确定方法,包括以下步骤:对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。进一步地,对数据根据相同属性值进行实体初步聚类包括:对原始数据库文件进行预处理后根据属性进行聚类,后输出各个属性的属性索引表。第二方面,本专利技术提供了海量数据实体相似对确定系统,包括:实体初步聚类模块,用于对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;实体对总相似度计算模块,用于计算实体初步聚 ...
【技术保护点】
1.海量数据实体相似对确定方法,其特征在于,包括以下步骤:/n对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。/n
【技术特征摘要】
1.海量数据实体相似对确定方法,其特征在于,包括以下步骤:
对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。
2.根据权利要求1所述的海量数据实体相似对确定方法,其特征在于,对数据根据相同属性值进行实体初步聚类包括:对原始数据库文件进行预处理后根据属性进行聚类,后输出各个属性的属性索引表。
3.根据权利要求2所述的海量数据实体相似对确定方法,其特征在于,对数据根据相同属性值进行实体初步聚类具体方法采用1次基于Map-Reduce的并行算法,包括:
Map部分执行以下步骤:对各个实体的各属性进行预处理,设置基于语义的数据变换函数以使得识别特定的属性值,构造属性索引表SEh:将具有相同属性值Aij的实体插入SEh中Aij对应位置下,其中SEh为属性索引表,Aij为第j个属性,以属性值Aij作为关键字key,具有该属性值的实体Ek为值value,进行映射;依据值key聚合所有具有相同属性值的实体,输出为:<key=Aij,value=Ei>;
Reduce部分执行以下步骤:
输入<key=Aij,value=Ei>,输出属性索引表SEh的属性索引表集合SE,SEh表示为:
<Aij,Em,En,……>,<Aik,Ep,Eq,……>,……,其中Aij、Aik为属性,Em,En,Ep,Eq为实体。
4.根据权利要求3所述的海量数据实体相似对确定方法,其特征在于,根据实体聚类结果确定初选相似实体对的具体方法包括:输入属性索引表集合SE,对遍历其相应属性索引表SEm;
对若该属性对应的实体个数小于2,则跳过该属性;否则将实体对聚集获得初选相似实体对,包括:分别统计每个实体及每个实体对出现的次数;根据同时出现在实体对中的第一个实体进行聚集;根据同时出现在实体对中的第二个实体进行聚集。
5.根据权利要求4所述的海量数据实体相似对确定方法,其特征在于,利用3次Map-Reduce并行算法获得初选想相似实体对的具体步骤包括:
第1次:分别统计每个实体及每个实体对出现的次数;
Map部分执行的步骤:输入键值对,所述键值对表示为:<key=单个实体或实体对,value=内容>;以属性索引表中每个属性值下单个实体Ei及实体对Ei+Ej为key,value为出现1次,进行映射,输出表示为:
<key=Ei,value=1>,<key=Ei+Ej,value=1>,……;
依据key值进行聚合,统计单个实体Ei出现次数Ti,及每个实体对Ei+Ej出现的次数Tij;
Reduce部分执行的步骤:输入表示为:<key=Ei,value=Ti>,<key=Ei+Ej,value=Tij>;
输出表示为:<Ei,Ti>,<Ei+Ej,Tij>,……
第2次:根据同时出现在实体对中的第一个实体进行聚集
Map部分执行的步骤:输入键值对,所述键值对表示为:
<key=单个实体或实体对,value=内容>;以实体对中出现的第一个实体Ei为key,value为实体对及其出现次数<Ei+Ej,Tij>,进行映射,单个实体及其出现次数顺序输出,依据key值进行聚合,聚集所有以Ei作为第一个实体出现的实体对,实体对及其出现次数顺序输出,输出表示为:<key=Ei,value=Ti>,<key=Ei,value=<Ei+Ej,Tij>>,……;
Reduce部分执行的步骤:
输入表示为:<key=E...
【专利技术属性】
技术研发人员:王宏志,秦谦,姜涛,
申请(专利权)人:江苏名通信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。