一种大数据去重方法及装置制造方法及图纸

技术编号：20680708 阅读：39 留言：0更新日期：2019-03-27 18:48

本发明专利技术公开了一种大数据去重方法及装置，该方法包括：接收待去重数据，待去重数据包括发生时间及数据字符串；根据发生时间及数据字符串，生成待去重数据对应的Redis键值对；将Redis键值对插入Redis服务器对中，根据Redis服务器对的返回结果，确定待去重数据是否为重复数据。本发明专利技术通过服务器集群进行大数据去重，将数据运算尽可能分散到集群环境中的不同节点上。且在去重时采用可高并发访问的键值对数据库Redis，从空间和时间的角度都确保了去重运算占用最小的系统资源。通过将待去重数据的发生时间扩展到多个临近时间，能够有效过滤掉时间接近的近似数据，去重准确性高、精度高，且通用性好，能够应用于各种数据具有时间连续性特点的大数据应用场景中。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据去重方法及装置
本专利技术属于数据处理
，具体涉及一种大数据去重方法及装置。
技术介绍
目前大数据技术在各个领域得到了广泛应用。在一些大数据应用场景中数据存在一定的时间连续性，如在交通大数据中车辆经过卡口的阅读器时阅读器将车辆的过车记录上传给大数据平台，车过车记录就存在一定的时间连续性，如果车辆在卡口处缓行或静止，则阅读器会在短时间内重复上传该车辆的过车记录，造成大数据平台存储很多重复或近似的数据。因此大数据平台需要对收到的数据进行去重处理。当前，相关技术中提供了一种数据去重方法，即在一个去重周期内每收到一个数据，从该数据中确定预设数目个关键字，判断该去重周期内收到的其他每个数据中是否存在包含这些关键字的数据，如果是，则将该数据删除。如果否，则存储该数据。但相关技术中简单的关键字去重，无法消除近似数据，去重的准确性很差，去重之后仍然存在大量的数据冗余，浪费大量的存储空间，还会形成信息污染，掩盖真正有价值的信息。
技术实现思路
为解决以上问题，本专利技术提供一种大数据去重方法及装置，将待去重数据的发生时间扩展到多个临近时间，能够有效过滤掉时间接近的近似数...

【技术保护点】
1.一种大数据去重方法，其特征在于，所述方法包括：接收待去重数据，所述待去重数据包括发生时间及数据字符串；根据所述发生时间及所述数据字符串，生成所述待去重数据对应的Redis键值对；将所述Redis键值对插入Redis服务器对中，根据所述Redis服务器对的返回结果，确定所述待去重数据是否为重复数据。

【技术特征摘要】
1.一种大数据去重方法，其特征在于，所述方法包括：接收待去重数据，所述待去重数据包括发生时间及数据字符串；根据所述发生时间及所述数据字符串，生成所述待去重数据对应的Redis键值对；将所述Redis键值对插入Redis服务器对中，根据所述Redis服务器对的返回结果，确定所述待去重数据是否为重复数据。2.根据权利要求1所述的方法，其特征在于，所述根据所述发生时间及所述数据字符串，生成所述待去重数据对应的Redis键值对，包括：根据所述发生时间及所述数据字符串，生成所述待去重数据对应的Redis键；根据所述发生时间，生成所述Redis键对应的键值；将所述Redis键及所述键值组成所述待去重数据对应的Redis键值对。3.根据权利要求2所述的方法，其特征在于，所述根据所述发生时间及所述数据字符串，生成所述待去重数据对应的Redis键，包括：根据所述发生时间及预设周期长度，计算所述待去重数据对应的周期标识；根据所述数据字符串及所述周期标识，生成所述待去重数据对应的Redis键。4.根据权利要求2所述的方法，其特征在于，所述根据所述发生时间，生成所述Redis键对应的键值，包括：将所述发生时间扩展为预设数目个临近时间；将所述预设数目个临近时间确定为所述Redis键对应的键值。5.根据权利要求2所述的方法，其特征在于，所述根据所述Redis服务器对的返回结果，确定所述待去重数据是否为重复数据，包括：判断所述Redis服务器对的返回结果是否等于所述Redis键值对包括的键值的数目；如果是，则确定所述待去重数据不是重复数据；如果否，则确定所述待去重数据是重复数据，丢弃所述待去重数据。6...

【专利技术属性】
技术研发人员：郭冰，程广艺，罗天成，夏曙东，
申请(专利权)人：北京千方科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人