基于非主属性离群点检测的实体匹配方法和计算机程序组成比例

技术编号：19692561 阅读：24 留言：0更新日期：2018-12-08 11:22

本发明专利技术公开了一种基于非主属性离群点检测的实体匹配方法，属于互联网技术领域，其特征在于：基于非主属性的离群点检测的实体匹配方法体现在两个方面，一方面利用非主属性值消除主属性值多样性带来的歧义，另一方面根据离群点模型快速的筛选数据，抽取匹配对；具体表现为：先根据不同源的公共非主属性集，根据不同非主属性的特性采用相应的规则对数据进行粗筛选，降低记录对的数据规模，在此基础上利用离群点模型中的五个步骤做进一步的筛选，得到初步的实体对集，然后根据生成的实体对集进行数据集的采样，最后利用机器学习选择合适的匹配器并训练。本发明专利技术在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。

全部详细技术资料下载

【技术实现步骤摘要】
基于非主属性离群点检测的实体匹配方法和计算机程序
本专利技术属于互联网
，特别是涉及一种基于非主属性离群点检测的实体匹配方法和计算机程序。
技术介绍
未来三十年，数据应用越来越凸现，这必将影响到民航信息化的建设和发展。随着移动互联网的推广，可以将一些便捷性的应用推向智能终端，通过大数据技术来分析旅客的行为，了解他们的关注点，以改善用户的航空体验。从全球民航发展情况看，由于市场竞争不断加剧，民航业长期处于微利运营水平。随着近年来全球金融危机的持续恶化，使得航空公司的生存压力日益增大。在日益艰难的市场环境中，航空公司希望通过不断提高旅客服务的水平，从而提升旅客忠诚度，提高公司盈利能力与行业竞争力。美国纽约的约翰·肯尼迪国际机场是美国三大商务机场之一。该机场建立了一个完善的集空管、机场、航空公司信息为一体的网上信息整合平台，向公众发布各类实时信息，方便旅客的出行。然而，如今随着信息化产业的不断技术发展，旅客对信息的需求不单单局限于相关航空数据，而更多的希望获取更加完善的非航数据，航空旅游数据等。2015年5月28日举行的第七届数字民航趋势发展峰会上，中国南航、世纪互联、浪潮集团等知名企业的专家汇聚一堂，就如何运用大数据、互联网、云计算新一代信息技术，提升航空业的管理和民营环境、改善客户服务质量、提供个性化的航旅服务等问题进行了探讨。在公共主动服务平台研发方面，国外厂商关注于利用现有技术和从其他行业收集而来的数据分析，来改善航空公司旅客的客户体验，通过抓取旅客在整个旅行途中的多内容数据和分析评估，为航空公司客户提供更个性化的服务。中国航信作为国内唯一的全球分...

【技术保护点】
1.一种基于非主属性离群点检测的实体匹配方法，其特征在于：基于非主属性的离群点检测的实体匹配方法体现在两个方面，一方面利用非主属性值消除主属性值多样性带来的歧义，另一方面根据离群点模型快速的筛选数据，抽取匹配对；具体表现为：先根据不同源的公共非主属性集，根据不同非主属性的特性采用相应的规则对数据进行粗筛选，降低记录对的数据规模，在此基础上利用离群点模型中的五个步骤做进一步的筛选，得到初步的实体对集，然后根据生成的实体对集进行数据集的采样，最后利用机器学习选择合适的匹配器并训练；上述五个步骤具体为：步骤一：对采集的实体数据进行数据预处理；步骤二：收集数据预处理结果，对数据集依据非主属性重叠度和非主属性相似性进行分块；通过分块策略将数据切分为多块，属于不同块的实体将不生成记录对；步骤三：A、对每一个记录对的不同非主属性进行相似度计算；B、将求出的属性相似度序列所形成的矢量；依次添加到特征矩阵M中；C、根据求得特征矩阵M，利用奇异值分解(SVD)，M＝USVT其中U和V分别为n×n,m×m的酉矩阵，S为n×m对角矩阵；提取矩阵V的前P个列向量，构成矩阵Vm×p；在此基础上，并采用均值法计算每...

【技术特征摘要】
1.一种基于非主属性离群点检测的实体匹配方法，其特征在于：基于非主属性的离群点检测的实体匹配方法体现在两个方面，一方面利用非主属性值消除主属性值多样性带来的歧义，另一方面根据离群点模型快速的筛选数据，抽取匹配对；具体表现为：先根据不同源的公共非主属性集，根据不同非主属性的特性采用相应的规则对数据进行粗筛选，降低记录对的数据规模，在此基础上利用离群点模型中的五个步骤做进一步的筛选，得到初步的实体对集，然后根据生成的实体对集进行数据集的采样，最后利用机器学习选择合适的匹配器并训练；上述五个步骤具体为：步骤一：对采集的实体数据进行数据预处理；步骤二：收集数据预处理结果，对数据集依据非主属性重叠度和非主属性相似性进行分块；通过分块策略将数据切分为多块，属于不同块的实体将不生成记录对；步骤三：A、对每一个记录对的不同非主属性进行相似度计算；B、将求出的属性相似度序列所形成的矢量；依次添加到特征矩阵M中；C、根据求得特征矩阵M，利用奇异值分解(SVD)，M＝USVT其中U和V分别为n×n,m×m的酉矩阵，S为n×m对角矩阵；提取矩阵V的前P个列向量，构成矩阵Vm×p；在此基础上，并采用均值法计算每一维的中心值N＝[u(sim(Build)),…,u(sim(lat-log))]，u(sim(Build))代表build相似度中所在列的均值利用欧式距离其中,xi∈M，yi∈N，求出每个序列的离群距离；D、根据求得的离群距离，设定相应的阈值θ，由步骤C中矩阵S的迹乘以一个(0,1)范围内的值来确定，大于该阈值θ的保留下来，小于该阈值θ的舍去，并保存下来；步骤四：根据离群检测模型筛选后的匹配对，使用启发式规则来限制被认为是潜在匹配的配对数量，...

【专利技术属性】
技术研发人员：曹卫东，王广森，王怀超，
申请(专利权)人：中国民航大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人