当前位置: 首页 > 专利查询>中山大学专利>正文

基于样本扫描的不确定数据序列K近邻方法及系统技术方案

技术编号:29939059 阅读:27 留言:0更新日期:2021-09-04 19:20
本发明专利技术提出一种基于样本扫描的不确定数据序列K近邻方法,包括通过计算所有不确定序列的所有样本与查询序列的距离,将距离与样本所属不确定序列编号一同进行保存和排序;构建并初始化第一数组、第二数组和控制变量;对排序后的样本数组从第一个样本开始扫描;根据控制变量计算当前样本对其所属的不确定序列的概率贡献后更新累加到第二数组对应的元素中并根据当前样本所属的不确定序列更新第一数组对应的元素;判断待测不确定序列在第一数组中对应的元素是否不小于每个不确定序列的样本数,若是,则待测不确定序列的所有样本已经完成扫描,找出其中最大的K个元素;否则,扫描下一个样本;本方法高效解决了不确定序列的K近邻问题。近邻问题。近邻问题。

【技术实现步骤摘要】
基于样本扫描的不确定数据序列K近邻方法及系统


[0001]本专利技术涉及数据处理
,具体涉及一种基于样本扫描的不确定数据序列K近邻方法及系统。

技术介绍

[0002]随着信息采集技术的发展进步和现实应用中需求的不断增大,不确定数据开始大量地出现。不确定数据已经广泛存在于各个应用领域,而传统的针对确定数据的管理和挖掘的技术无法有效地对这些数据进行处理,也就不能满足现实应用的要求。因此,针对不确定数据的管理和挖掘的问题开始进入人们的视野,并得到越来越多的重视。
[0003]K近邻算法是在数据挖掘与机器学习中一种简单而常用的监督学习算法,在解决分类问题和回归问题中都有应用。公开号为CN109522408A的中国专利技术专利申请于2019年3月26日公开了一种信息流素材创意文本的分类方法,包括基于关联分析提取频繁特征词集合及其关联的训练文本和利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再基于近邻类别进行文本分类。该方法在执行分类时虽然降低时间复杂度,且能够较好提高分类的准确性,但其并不适用于不确定序列模型的K近邻问题,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于样本扫描的不确定数据序列K近邻方法,其特征在于,包括以下步骤:S1:获取待计算的数据集,包括所有不确定序列和查询序列;S2:计算所有不确定序列的所有样本与查询序列的距离,将距离与样本所属不确定序列编号一同保存在样本数组中;S3:根据距离从小到大对样本数组进行排序;S4:构建第一数组、第二数组和控制变量,并对第一数组、第二数组和控制变量进行初始化;其中:所述第一数组用于记录每个不确定序列已被扫描的样本数;所述第二数组用于记录当前扫描到的样本为每个不确定序列累加的概率贡献;控制变量用于计算当前样本对其所属的不确定序列的概率贡献;S5:对排序后的样本数组从第一个样本开始扫描;根据控制变量计算当前样本对其所属的不确定序列的概率贡献后更新累加到第二数组对应的元素中,同时,根据当前样本所属的不确定序列更新第一数组对应的元素;S6:判断待测不确定序列在第一数组中对应的元素是否不小于每个不确定序列的样本数,若是,则待测不确定序列的所有样本已经完成扫描,执行步骤S7;否则,返回步骤S5,扫描下一个样本;S7:扫描第二数组,找出其中最大的K个元素,其在数组的位置即是带计算数据集中查询序列的K近邻的编号。2.根据权利要求1所述的基于样本扫描的不确定数据序列K近邻方法,其特征在于,在所述步骤S1中,待计算的数据集D包括N个不确定序列和查询序列Q,其中,第i个不确定序列X
i
的所有样本表示为1≤i≤N,1≤j≤m,m为不确定序列X
i
的样本数量;因此,在所述步骤S2中,所有不确定序列X
i
的所有样本与查询序列Q的距离表示为将距离与样本所属不确定序列编号i一同保存在样本数组samples中,使得:samples[(i

1)*m+j]
·
i=i其中,dist表示样本数组samples中用于保存距离的元素。3.根据权利要求2所述的基于样本扫描的不确定数据序列K近邻方法,其特征在于,在所述步骤S4中,初始化长度为N的第一数组和第二数组,使其所有元素为0,初始化控制变量logp=N*ln m,在后续扫描中,第一数组记录每个不确定序列已被扫描的样本数,由于样本从小到大扫描,因此满足以下关系:m

scanned[i]=#S

(X
i
,Q,distance)其中,scanned[
·
]表示第一数组;#S

(X
i
,Q,distance)表示不确定序列X
i
中与查询序列Q之间距离大于给定距离distance的样本的数量;第二数组记录目前扫描到的样本为每个不确定序列累加的概率贡献,具体表示为:其中,res[
·
]表示第二数组;P

(D,Q,s)表示数据集D中所有不确定序列的#S

(X
i
,Q,s)
对样本数量的比值的乘积;控制变量logp是P

(D,Q,s)取对数的结果,在这之上再加上N*ln m保持其值为正数,具体为:logp=ln P

(D,Q,distance)+N*ln m。4.根据权利要求3所述的基于样本扫描的不确定数据序列K近邻方法,其特征在于,在所述步骤S5中,令当前元素为sample,i=sample
·
i,dist=sample
·
distance,根据控制变量logp的计算式,有:e
logp

N*ln m
=P

(D,Q,distance)计算当前样本对其所属的不确定序列X
i
的概率贡献为:e
logp

ln
(m

scanned[i])

N*ln m并将其更新累加到第二数组对应的元素res[i]中;同时,根据当前样本所属的不确定序列更新第一数组对应的元素,具体表示为:scanned[i]+=1。5.根据权利要求4所述的基于样本扫描的不确定数据序列K近邻方法,其特征在于,在所述步骤S6中,当待测不确定序列的所有样本已经完成扫描时,此后的P

(D,Q,distance)=0,其它不确定序列的未扫描样本对其概率贡献均为0,因此,结束扫描过程。6.基于样本扫描的不确定数据序列K近邻系统,其特征在于,包括数据集获取模块、距离计算模块、样本保存模块、排序模块、数据构建模块、变量...

【专利技术属性】
技术研发人员:王文标林瀚
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1