【技术实现步骤摘要】
确定数据相似性的方法、装置、电子设备以及存储介质
[0001]本公开涉及数据处理
,尤其涉及数据相似度的识别领域。
技术介绍
[0002]在推荐系统、用户行为识别、自然语言处理领域等多个领域数据相似性具有非常重要的作用,对于不同维度大小的数据序列相似度的识别难以采用同一的标准量化,相关技术中,对于不同维度大小的数据序列需要通过降维、裁剪或者数据补齐等方法将不同维度大小的数据序列处理为统一大小的序列,这种数据处理方法会损失原数据序列的部分信息,且由于需要对数据进行降维等预处理,会造成处理过程较复杂,效率低下,并最终导致数据相似性的识别结果的准确性较差。
技术实现思路
[0003]本公开提供了一种确定数据相似性的方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种确定数据相似性的方法,包括:获取目标数据集,从目标数据集中选择至少两条目标数据序列;确定至少两条目标数据序列中各个第一元素的目标并集;根据目标并集构建至少两条目标数据序列分别对应的概率矩阵,其中,概率矩阵中每一行的 ...
【技术保护点】
【技术特征摘要】
1.一种确定数据相似性的方法,包括:获取目标数据集,从所述目标数据集中选择至少两条目标数据序列;确定所述至少两条目标数据序列中各个第一元素的目标并集;根据所述目标并集构建所述至少两条目标数据序列分别对应的概率矩阵,其中,所述概率矩阵中每一行的转移概率之和为0或者1,所述概率矩阵中的元素用于指示所述第一元素之间的转移概率;根据所述概率矩阵确定所述至少两条目标数据序列之间的相似度。2.根据权利要求1所述的方法,其中,所述确定所述至少两条目标数据序列中各个第一元素的目标并集,包括:获取所述目标数据序列中所述各个第一元素的时间顺序;基于所述时间顺序对所述目标数据序列进行排序,得到所述至少两条目标数据序列对应的至少两条目标时间序列,其中,所述目标数据序列与所述目标时间序列一一对应;获取所述至少两条目标时间序列各自对应的元素集合;确定所述元素集合的并集为所述目标并集。3.根据权利要求2所述的方法,其中,所述根据所述目标并集构建所述至少两条目标数据序列分别对应的概率矩阵,包括:确定所述目标并集的第二元素的个数;根据所述第二元素的个数构建初始矩阵,其中,所述初始矩阵的行数以及列数等于所述第二元素的个数,且所述初始矩阵中的每个元素值为0;根据所述目标数据序列中的各个所述第一元素的变化情况更新所述初始矩阵,得到所述概率矩阵。4.根据权利要求3所述的方法,其中,根据所述目标数据序列中的各个所述第一元素的变化情况更新所述初始矩阵,得到所述概率矩阵,包括:根据所述目标数据序列中的各个所述第一元素之间的变化情况,确定所述目标并集中的所述第一元素之间的转移概率;基于所述转移概率更新所述初始矩阵中的零值,得到所述至少两条目标数据序列各自对应的概率矩阵。5.根据权利要求4所述的方法,其中,所述根据所述目标数据序列中的各个所述第一元素之间的变化情况,确定所述目标并集中的所述第一元素之间的转移概率,包括:检测所述目标数据序列中同一所述第一元素出现的第一次数;以所述目标数据序列中第一个所述第一元素为起点,依次遍历每个所述第一元素确定每个所述第一元素的相邻元素,得到遍历结果,其中,...
【专利技术属性】
技术研发人员:高建虎,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。