【技术实现步骤摘要】
数据识别方法、装置及计算设备
[0001]本专利技术实施例涉及数据处理
,具体涉及一种数据识别方法、装置及计算设备。
技术介绍
[0002]随着计算机和互联网技术的快速发展,我们处于信息爆炸时代,为了处理大量的信息,出现了大数据的概念。所谓大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。虽然用于做大数据分析的计算机越来越多,性能越来越好,但是面对海量数据仍然力不从心,因此需要先解决大数据中的相似数据和冗余数据,以减少存储空间、网络带宽的占用以及数据分析量。
[0003]目前的数据识别方法主要通过关键字相似度匹配的方式,识别准确度并不高。
技术实现思路
[0004]鉴于上述问题,本专利技术实施例提供了一种数据识别方法、装置及计算设备,能够提高识别准确度。
[0005]根据本专利技术实施例的第一方面,提供了一种数据识别方法,包括:获取预设时间段内的至少两个待识别 ...
【技术保护点】
【技术特征摘要】
1.一种数据识别方法,其特征在于,包括:获取预设时间段内的至少两个待识别指标数据,所述至少两个待识别指标数据包括第一指标数据和第二指标数据,所述第一指标数据包括第一指标标识、与所述第一指标标识对应的第一指标值,所述第二指标数据包括第二指标标识、与所述第二指标标识对应的第二指标值;根据所述第一指标值和所述第二指标值,确定所述第一指标数据和所述第二指标数据之间的相关系数;获取所述第一指标数据的第一来源信息以及所述第二指标数据的第二来源信息;根据所述第一来源信息和所述第二来源信息,确定所述第一指标数据和所述第二指标数据之间的血缘重合度系数;根据所述相关系数和所述血缘重合度系数,识别所述第一指标数据和所述第二指标数据之间的关系。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一指标值和所述第二指标值,确定所述第一指标数据和所述第二指标数据之间的相关系数,具体包括:分别对所述第一指标值、所述第二指标值进行压缩,以得到与所述第一指标标识对应的第一压缩指标值以及与所述第二指标标识对应的第二压缩指标值;根据所述第一压缩指标值和所述第二压缩指标值,确定所述第一指标数据和所述第二指标数据之间的相关系数。3.根据权利要求2所述的方法,其特征在于,所述分别对所述第一指标值、所述第二指标值进行压缩,以得到与所述第一指标标识对应的第一压缩指标值以及与所述第二指标标识对应的第二压缩指标值,具体包括:按照预设单位时间,将与第一指标标识对应的全部第一指标值相加,得到所述预设时间段内的若干所述第一压缩指标值;按照所述预设单位时间,将与第二指标标识对应的全部第二指标值相加,得到所述预设时间段内的若干所述第二压缩指标值。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一压缩指标值和所述第二压缩指标值,确定所述第一指标数据和所述第二指标数据之间的相关系数,具体包括:根据以下公式确定所述相关系数:其中,X
i
为第i个所述第一压缩指标值,Y
i
为第i个所述第二压缩指标值,i≤n,n为样本数,μ
X
为所述预设时间段内的全部所述第一压缩指标值的平均值,μ
Y
为所述预设时间段内的全部所述第二压缩指标值的平均值。5.根据权利要求1所述的方法,其特征在于,所述获取所述第一指标数据的第一来源信息以及所述第二指标数据的第二来源信息,具体包括:通过结构化查询语言获取所述第一来源信息以及所述第二来源信息。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一来源...
【专利技术属性】
技术研发人员:颜涛,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。