基于非主属性离群点检测的实体匹配方法和计算机程序组成比例

技术编号:19692561 阅读:24 留言:0更新日期:2018-12-08 11:22
本发明专利技术公开了一种基于非主属性离群点检测的实体匹配方法,属于互联网技术领域,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练。本发明专利技术在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。

【技术实现步骤摘要】
基于非主属性离群点检测的实体匹配方法和计算机程序
本专利技术属于互联网
,特别是涉及一种基于非主属性离群点检测的实体匹配方法和计算机程序。
技术介绍
未来三十年,数据应用越来越凸现,这必将影响到民航信息化的建设和发展。随着移动互联网的推广,可以将一些便捷性的应用推向智能终端,通过大数据技术来分析旅客的行为,了解他们的关注点,以改善用户的航空体验。从全球民航发展情况看,由于市场竞争不断加剧,民航业长期处于微利运营水平。随着近年来全球金融危机的持续恶化,使得航空公司的生存压力日益增大。在日益艰难的市场环境中,航空公司希望通过不断提高旅客服务的水平,从而提升旅客忠诚度,提高公司盈利能力与行业竞争力。美国纽约的约翰·肯尼迪国际机场是美国三大商务机场之一。该机场建立了一个完善的集空管、机场、航空公司信息为一体的网上信息整合平台,向公众发布各类实时信息,方便旅客的出行。然而,如今随着信息化产业的不断技术发展,旅客对信息的需求不单单局限于相关航空数据,而更多的希望获取更加完善的非航数据,航空旅游数据等。2015年5月28日举行的第七届数字民航趋势发展峰会上,中国南航、世纪互联、浪潮集团等知名企业的专家汇聚一堂,就如何运用大数据、互联网、云计算新一代信息技术,提升航空业的管理和民营环境、改善客户服务质量、提供个性化的航旅服务等问题进行了探讨。在公共主动服务平台研发方面,国外厂商关注于利用现有技术和从其他行业收集而来的数据分析,来改善航空公司旅客的客户体验,通过抓取旅客在整个旅行途中的多内容数据和分析评估,为航空公司客户提供更个性化的服务。中国航信作为国内唯一的全球分销服务提供商,拥有丰富的民航运营数据资源,各类数据由不同的信息系统进行处理,但信息不能有效的共享,信息不对称,流程不通畅,形成了大量的信息孤岛。能否将企业内部数据资源与外部数据资源有效的整合起来,为企业服务水平提升及行业数据标准化提供有力支撑,成为摆在企业面前的严峻挑战。建立公共服务平台就是要统一为企业和民航业提供完备、一致的数据,以及灵活多样、丰富有效的服务,为数据共享提供良好基础,为服务标准化、专业化提供更完善的应用管理平台。互联网等多内容数据资源汇聚整合:包括天气、事件、情景信息的采集,用于匹配旅客出行信息和其他行业数据,发现特定天气因素或情景因素导致的特殊民航信息规律等;整合非航数据(酒店信息、目的地旅游产品、租车、火车、大巴、社交网络等第三方媒体)、航空旅游数据(机票及航空公司增值附加服务,如餐食预定、贵宾通道等,CRM,旅客价值信息)、销售规则及渠道控制策略、订单库、交易数据库和文件系统等。综上所述,现有技术存在的缺陷为:本文引入的监督分类器模型是需要训练的,标签的标注是需要很大的工作量的,未来可以尝试采用弱监督或众包,使系统自动发现匹配,减少人工标注的工作量是下一步研究的重点。
技术实现思路
专利技术目的:本专利技术要解决的技术问题是对非航数据实体描述多样性,提供一种基于非主属性离群点检测的实体匹配方法。该方法通过非主属性值可较好的消除不同源中同一实体主属性值不同所带来的歧义。同时,根据非主属性值较快的排除不匹配记录。将非主属性与离群点检测模型相结合,即考虑了主属性值多样性带来的歧义,又考虑了非匹配对数量远大于匹配对数引起的数据不均衡,建立了基于非主属性的离群点检测的匹配方法。最后引入监督分类器模型进行训练、识别。并在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。技术方案本专利技术的目的一是提供一种基于非主属性离群点检测的实体匹配方法,包含下列步骤:步骤一:数据预处理,即处理原始的数据实体,并生成EM的输入数据集。根据输入数据和输出数据的不同,数据预处理主要包括两部分内容:数据抽取:根据实验的目标,找出不同源数据的共同非主属性,采用增量抽取的方式,并将抽取的数据存到另外的表格。并用正则表达式或自然语言处理技术,去除有明显错误或无意义的字段信息。数据归档和清洗:利用归档计算并统计数据的一些基本信息,比如:统计重复的数据,样本的个数等,从而方便数据的清洗,比如删除重复数据,文本标准化等替换一些其他特殊字符(“&”替换成“and”)等。从而达到统一的数据组织方式,将实体中杂乱的信息统一为相同的数据结构,为后续实体比较步骤提供数据输入。步骤二:记录对生成,即收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块。通过分块策略将数据切分为多块,属于不同块的实体将不生成记录对,从而减少记录对的生成量,提升处理效率。同时,由于不同块的记录间不会比较相似性,在一定程度上对效率也有所提升。分块策略描述如下:(a)属性值重叠度(overlap_size)分块,给定表1和表2,对其特定公共的非主属性,比如“酒店描述”、“地址”等文本类型的数据,假定某个记录对的地址有重叠,对每个重叠的词进行标记一次,如果该记录对标记数不小于重叠数,就可以说明其是同一实体,具体来说,如果设定overlap_size=3,也就是需要记录对的地址至少有三个重叠标记,满足该条件的进行保留,否则就筛掉。该过程中对于“的”、“在”这样的停用词是不进行标记的,故进行重叠度分块之前是要删除停用词的。(b)属性值相似度分块,即对记录对进行粗筛选,比如给定的表1和表2,对于其中的星级、价格(除国家旅游局评定的外),不同的网站有很大差异,比如携程和同程对“北京邮电会议中心”的星级分别为2.5钻和3钻,可将其差值的绝对值限制在不大于1.5,即可视为同一实体。步骤三:离群点检测模型,具体步骤如下:1)对每一个记录对的不同非主属性进行相似度计算。由于不同实体的属性的类型不同,通过选择不同的相似度计算方法(Haversine公式、余弦相似度等)进行计算,来提高可信度。在该过程中针对地址的相似度,是将其转化为经纬度,计算有Great-circledistance和Haversine公式两种方法,本文中采用Haversine公式来计算给定两个点之间的距离。有以下两步:(a)给定两点的经纬度的距离为:其中:haversin(θ)=sin2(θ/2)=(1-cos(θ))/2R为地球半径,可取平均值6371km;ω1,ω2表示两点的经度;表示两点的纬度;Δλ表示两点经度的差值。(b)将求得的经纬度距离利用min-max标准化即其中,haversine是经纬度的距离,min是经纬度距离的最小值,max是经纬度距离的最大值。2)将求出的属性相似度序列所形成的矢量,比如(sim(Build),sim(Renovated),sim(lat-log)),其中(lat-log是经纬度),依次添加到矩阵中,构成特征矩阵M:3)根据求得的离群距离在特征矩阵M的基础上,利用奇异值分解SVD,M=USVT来提取矩阵V的前P个列向量[10],构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat-log))],利用欧式距离其中,xi∈M,yi∈N,来求每个序列的离群距离。4)根据求得的离群距离,设定相应的阈值θ,由第3)步中矩阵S的迹乘以一个(0,1)范围内的值来确定,大于该阈值的保留下来,小于该阈值的舍去,并用字典保存下来。步骤四本文档来自技高网
...

【技术保护点】
1.一种基于非主属性离群点检测的实体匹配方法,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练;上述五个步骤具体为:步骤一:对采集的实体数据进行数据预处理;步骤二:收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块;通过分块策略将数据切分为多块,属于不同块的实体将不生成记录对;步骤三:A、对每一个记录对的不同非主属性进行相似度计算;B、将求出的属性相似度序列所形成的矢量;依次添加到特征矩阵M中;C、根据求得特征矩阵M,利用奇异值分解(SVD),M=USVT其中U和V分别为n×n,m×m的酉矩阵,S为n×m对角矩阵;提取矩阵V的前P个列向量,构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat‑log))],u(sim(Build))代表build相似度中所在列的均值利用欧式距离...

【技术特征摘要】
1.一种基于非主属性离群点检测的实体匹配方法,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练;上述五个步骤具体为:步骤一:对采集的实体数据进行数据预处理;步骤二:收集数据预处理结果,对数据集依据非主属性重叠度和非主属性相似性进行分块;通过分块策略将数据切分为多块,属于不同块的实体将不生成记录对;步骤三:A、对每一个记录对的不同非主属性进行相似度计算;B、将求出的属性相似度序列所形成的矢量;依次添加到特征矩阵M中;C、根据求得特征矩阵M,利用奇异值分解(SVD),M=USVT其中U和V分别为n×n,m×m的酉矩阵,S为n×m对角矩阵;提取矩阵V的前P个列向量,构成矩阵Vm×p;在此基础上,并采用均值法计算每一维的中心值N=[u(sim(Build)),…,u(sim(lat-log))],u(sim(Build))代表build相似度中所在列的均值利用欧式距离其中,xi∈M,yi∈N,求出每个序列的离群距离;D、根据求得的离群距离,设定相应的阈值θ,由步骤C中矩阵S的迹乘以一个(0,1)范围内的值来确定,大于该阈值θ的保留下来,小于该阈值θ的舍去,并保存下来;步骤四:根据离群检测模型筛选后的匹配对,使用启发式规则来限制被认为是潜在匹配的配对数量,...

【专利技术属性】
技术研发人员:曹卫东王广森王怀超
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1