海量数据实体相似对确定方法和系统技术方案

技术编号:25835509 阅读:37 留言:0更新日期:2020-10-02 14:16
本发明专利技术公开了海量数据实体相似对确定方法和系统,包括对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。本发明专利技术首先进行了初选相似实体对的识别,再次基础上在进行相似实体对的确认,能够快速有效地进行大数据量、更新频繁和具有复杂结构数据上的实体相似度的判定。

【技术实现步骤摘要】
海量数据实体相似对确定方法和系统
本专利技术属于数据处理
,具体涉及海量数据实体相似对确定方法和系统。
技术介绍
在实体性计算中,根据每个实体的属性,对部分实体进行相似性的标注,要求能得到实体之间的相似度。相似性实体的确定有着广泛的应用,由于在互联网应用更加广泛,还可以应用到智能工业物联网、智能农业、智能交通以及智能城市等多个方面,利用相似性分析实现传统的相似性搜索和智能推荐。而目前的实体相似对的确定方法在处理复杂的海量数据时效率有待提高,且准确度不高。
技术实现思路
本专利技术旨在解决现有实体相似对的确定方法处理复杂的海量数据时效率有待提高,且准确度不高的技术问题,提供了一种海量数据实体相似度确定方法和系统。为实现上述技术目的,本专利技术采用了以下技术方案。一方面,本专利技术提供了海量数据实体相似对确定方法,包括以下步骤:对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。进一步地,对数据根据相同属性值进行实体初步聚类包括:对原始数据库文件进行预处理后根据属性进行聚类,后输出各个属性的属性索引表。第二方面,本专利技术提供了海量数据实体相似对确定系统,包括:实体初步聚类模块,用于对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;实体对总相似度计算模块,用于计算实体初步聚类模块确定的初选相似实体对在所有属性下的总相似度;实体对确定模块,用于将实体对总相似度计算模块获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如以上技术方案提供的所述方法的步骤。有益技术效果本专利技术首先进行了初选相似实体对的识别,再次基础上在进行相似实体对的确认,能够快速有效地进行大数据量、更新频繁和具有复杂结构数据上的实体相似度的判定;本专利技术提供了可选的相似对的相似度阈值的确认方法,更加科学,使得相似对的划分更加合理、准确;本专利技术采用了并行计算方法,提高了处理的速度和效率,更加适合应用于海量数据实体的识别。附图说明图1为本专利技术具体实施例中初步聚类算法流程图;图2为本专利技术具体实施例中阈值求解算法流程图;图3为本专利技术具体实施例海量数据实体相似对确定方法流程示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一、海量数据实体相似对确定方法(如图3所示),包括以下步骤:对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。本实施例中对数据根据相同属性值进行实体初步聚类的流程如图1所示。输入:关系表文件输出:各个属性的属性索引表1:对c预处理;设置基于语义的数据变换函数以使得识别特定的属性值(在具体实施例中,特定的属性值如表示同一属性值的“哈工大”和″哈尔滨工业大学”这样的识别,具体实施例中数据变换函数可以通过机器学习得到,其中的样例来自于将识别错误的样例进行众包得到);2:构造属性索引表SEh:将具有相同属性值Aij的实体插入SEh中Aij对应位置下此处对海量数据处理需用到1次基于Map-Reduce的并行算法:Map部分:输入:<key=行号,value=内容>处理:以属性值Aij作为key,具有该属性值的实体Ek为value,进行映射。输出:<key=Aij,value=Ek>处理:依据key值聚合所有具有相同属性值的实体。Reduce部分:输入:<key=Aij,value=<Ei,Ej,……>>处理:直接输出聚集结果;输出:<Aij,Em,En,……>,<Aik,Ep,Eq,……>,……3:输出属性索引表集合SE。图1示出了在初步聚类阶段,首先读取海量数据关系库文件,在本地对数据进行预处理,然后采用一次Map-Reduce架构实现具有相同属性值的实体的聚合,形成属性索引表,上传到HDFS等待处理。本实施例中根据实体聚类结果确定初选相似实体对的具体方法如下:输入:属性索引表集合SE输出:实体相似对集合文件1:对设定属性的权值,存入配置文件;2:对遍历其相应属性索引表SEm,对若节点个数小于2,则跳过该节点;否则将实体对聚集成便于计算相似度的形式。此处对海量数据处理需用到3次Map-Reduce并行算法:第1次:分别统计每个实体及每个实体对出现的次数Map部分:输入:键值对<key=行号,value=内容>处理:以属性索引表中每个属性值下单个实体Ei及实体对Ei+Ej为key,value为出现1次,进行映射。输出:<key=Ei,value=1>,<key=Ei+Ej,value=1>,……处理:依据key值进行聚合,统计单个实体Ei出现次数Ti,及每个实体对Ei+Ej出现的次数Tij。Reduce部分:输入:<key=Ei,value=Ti>,<key=Ei+Ej,value=Tij>处理:直接输出统计结果。输出:<Ei,Ti>,<Ei+Ej,Tij>,……第2次:根据同时出现在实体对中的第一个实体进行聚集。Map部分:输入:<key=行号,value=内容>处理:以实体对中出现的第一个实体Ei为key,value为实体对及其出现次数<Ei+Ej,Tij>,进行映射,单个实体及其出现次数顺序输出。输出:<key=Ei,value=Ti>,<key=Ei,value=<Ei+Ej,Tij>>,……处理:依据key值进行聚合,聚集所有以Ei作为第一个实体出现的实体对,实体对及其出现次数顺序输出。Reduce部分:输入:<key=Ek,value=Tk>,<key=Ei,value=<Ti,<Ei+Ej,Tij>,<Ei+Ek,Tik>>>,……处理:将聚集结果拆分后输出。输出:<Ei,Ti>,<Ei,Ti,<Ei+Ej,Tij>>本文档来自技高网...

【技术保护点】
1.海量数据实体相似对确定方法,其特征在于,包括以下步骤:/n对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。/n

【技术特征摘要】
1.海量数据实体相似对确定方法,其特征在于,包括以下步骤:
对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。


2.根据权利要求1所述的海量数据实体相似对确定方法,其特征在于,对数据根据相同属性值进行实体初步聚类包括:对原始数据库文件进行预处理后根据属性进行聚类,后输出各个属性的属性索引表。


3.根据权利要求2所述的海量数据实体相似对确定方法,其特征在于,对数据根据相同属性值进行实体初步聚类具体方法采用1次基于Map-Reduce的并行算法,包括:
Map部分执行以下步骤:对各个实体的各属性进行预处理,设置基于语义的数据变换函数以使得识别特定的属性值,构造属性索引表SEh:将具有相同属性值Aij的实体插入SEh中Aij对应位置下,其中SEh为属性索引表,Aij为第j个属性,以属性值Aij作为关键字key,具有该属性值的实体Ek为值value,进行映射;依据值key聚合所有具有相同属性值的实体,输出为:<key=Aij,value=Ei>;
Reduce部分执行以下步骤:
输入<key=Aij,value=Ei>,输出属性索引表SEh的属性索引表集合SE,SEh表示为:
<Aij,Em,En,……>,<Aik,Ep,Eq,……>,……,其中Aij、Aik为属性,Em,En,Ep,Eq为实体。


4.根据权利要求3所述的海量数据实体相似对确定方法,其特征在于,根据实体聚类结果确定初选相似实体对的具体方法包括:输入属性索引表集合SE,对遍历其相应属性索引表SEm;
对若该属性对应的实体个数小于2,则跳过该属性;否则将实体对聚集获得初选相似实体对,包括:分别统计每个实体及每个实体对出现的次数;根据同时出现在实体对中的第一个实体进行聚集;根据同时出现在实体对中的第二个实体进行聚集。


5.根据权利要求4所述的海量数据实体相似对确定方法,其特征在于,利用3次Map-Reduce并行算法获得初选想相似实体对的具体步骤包括:
第1次:分别统计每个实体及每个实体对出现的次数;
Map部分执行的步骤:输入键值对,所述键值对表示为:<key=单个实体或实体对,value=内容>;以属性索引表中每个属性值下单个实体Ei及实体对Ei+Ej为key,value为出现1次,进行映射,输出表示为:
<key=Ei,value=1>,<key=Ei+Ej,value=1>,……;
依据key值进行聚合,统计单个实体Ei出现次数Ti,及每个实体对Ei+Ej出现的次数Tij;
Reduce部分执行的步骤:输入表示为:<key=Ei,value=Ti>,<key=Ei+Ej,value=Tij>;
输出表示为:<Ei,Ti>,<Ei+Ej,Tij>,……
第2次:根据同时出现在实体对中的第一个实体进行聚集
Map部分执行的步骤:输入键值对,所述键值对表示为:
<key=单个实体或实体对,value=内容>;以实体对中出现的第一个实体Ei为key,value为实体对及其出现次数<Ei+Ej,Tij>,进行映射,单个实体及其出现次数顺序输出,依据key值进行聚合,聚集所有以Ei作为第一个实体出现的实体对,实体对及其出现次数顺序输出,输出表示为:<key=Ei,value=Ti>,<key=Ei,value=<Ei+Ej,Tij>>,……;
Reduce部分执行的步骤:
输入表示为:<key=E...

【专利技术属性】
技术研发人员:王宏志秦谦姜涛
申请(专利权)人:江苏名通信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1