【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本公开涉及数据处理中的大数据、信息流、智能搜索、深度学习
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
[0002]随着网络技术的发展,大数据遍布各个领域,大数据中包含丰富的信息,但同时不可避免的存在异常数据,这给后续的使用带来了不便,如何准确的识别大数据中的异常数据非常重要。
[0003]在实际应用中,由于异常数据形式多样,与时俱变,需要一种异常数据识别方法以提高大数据中的异常数据识别效果,提高数据的稳定性。
技术实现思路
[0004]本公开提供了一种数据处理方法、装置、设备及存储介质。
[0005]根据本公开的第一方面,提供了一种数据处理方法,包括:
[0006]获取待处理数据;
[0007]基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
[0008]基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;r/>[0009]根本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取待处理数据;基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。2.根据权利要求1所述的方法,其中,所述基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值,包括:对所述待处理数据和所述样本集包括的至少一个样本数据进行数值化处理,得到所述待处理数据对应的待处理数值序列和所述至少一个样本数据对应的至少一个样本数值序列;计算所述待处理数值序列与所述至少一个样本数值序列之间的至少一个距离;根据所述至少一个距离,确定所述待处理数据与所述至少一个样本数据之间的至少一个相似度值。3.根据权利要求1或2所述的方法,其中,所述基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据,包括:确定出所述至少一个相似度值中的最大相似度值;判定所述最大相似度值是否大于或等于预置的相似度阈值;响应于所述最大相似度值大于或等于所述相似度阈值,确定所述最大相似度值对应的样本数据为目标匹配数据。4.根据权利要求3所述的方法,还包括:响应于所述最大相似度值小于所述相似度阈值,输出处理提示;获取处理人员针对所述处理提示作出的处理结果和标注信息;将携带有所述标注信息的所述待处理数据添加至所述样本集。5.根据权利要求1至4任一项所述的方法,还包括:基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度;从所述预置数据库中,确定出所述样本集,所述样本集包括的各样本数据与所述待处理数据之间的匹配度均大于或等于匹配度阈值。6.根据权利要求5所述的方法,其中,所述基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度,包括:基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的各相同对象数量;确定各相同对象数量与所述待处理数据包括对象总数之间的各比值;基于各比值,确定所述待处理数据与各数据之间的匹配度。7.根据权利要求5所述的方法,其中,所述基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度,包括:基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据
与所述待处理数据具有的相同对象数量;基于各数据与所述待处理数据具有的相同对象数量,确定所述待处理数据与各数据之间的匹配度。8.一种数据处理装置,包括:获取单元,用于获取待处理数据;处理单元,用于基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;匹配确定单元,用于基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目...
【专利技术属性】
技术研发人员:高建虎,吴杰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。