当前位置: 首页 > 专利查询>张琼琼专利>正文

一种基于大数据的混合匹配方法组成比例

技术编号:38708936 阅读:10 留言:0更新日期:2023-09-08 14:49
本发明专利技术公开了一种基于大数据的混合匹配方法,属于数据处理技术领域,首先利用偏好优化函数对评分矩阵和匹配侧特征矩阵进行处理,生成偏好矩阵,同时引入时间衰减公式和稀疏信息补充规则,解决兴趣的时间影响与稀疏特性;然后结合匹配侧特征矩阵、评分矩阵,利用聚类算法划分匹配侧类簇,并获取匹配侧一类簇对应的评分矩阵;接着基于模糊层次分析法剔除异常数据,保证匹配数据的可信度;之后采用交替最小二乘法与基于物品的协同过滤法对数据进行筛选;最后从高到低对匹配侧的预测评分向量进行排序,产生匹配列表。本发明专利技术提供的一种基于大数据的混合匹配方法作用效果显著,适于广泛推广。推广。推广。

【技术实现步骤摘要】
一种基于大数据的混合匹配方法


[0001]本专利技术涉及数据处理
,特别涉及,一种基于大数据的混合匹配方法。

技术介绍

[0002]互联网的快速发展产生了海量数据信息,导致人们从中选择自己需要的信息变得非常困难。因此,推荐系统应运而生,能够解决信息过载问题,已被广泛应用于电影、音乐、新闻、图书、车货匹配等领域。推荐算法通过用户之间或物品之间的相似性,对用户喜好的物品进行预测与推荐。但是现有的推荐算法仅使用自身的历史数据,且热门数据与大量数据相似,具有很强的头部效应,从而产生匹配不准确,难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性等方面的问题;同时由于时间的推移,人们对对应数据的看法或兴趣度会发生变化,现有技术普遍存在由于时间原因产生的数据稀疏与准确度低的问题。

技术实现思路

[0003]针对上述缺陷,本专利技术解决的技术问题在于,提供一种基于大数据的混合匹配方法,以解决现在技术所存在的由于时间原因产生的数据稀疏与准确度低;难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性的问题。
[0004]本专利技术提供了一种基于大数据的混合匹配方法,包括:
[0005]步骤1、通过埋点法对匹配侧行为产生的数据进行采集,创建数据仓库的运营层,所述运营层用于存储匹配侧原始行为数据,其中匹配侧包括匹配侧一、匹配侧二;
[0006]步骤2、基于数据仓库的明细层和服务层,结合数据仓库内的多元数据获取与匹配侧一对应的对匹配侧二的评分矩阵,所述明细层用于将匹配侧原始行为进行归一后按权重进行计算后存储,所述服务层用于将匹配侧行为评分进行标准化生成匹配侧评分矩阵;
[0007]步骤3、在匹配侧评分矩阵的基础上,基于模糊层次分析法,获取匹配侧的可信度评估结果,根据可信度评估结果剔除异常数据;
[0008]步骤4、采用交替最小二乘法与基于物品的协同过滤法,对剔除异常数据后的数据进行初步筛选,得到初始匹配列表;
[0009]步骤5、采用基于逻辑回归的排序法对初始匹配列表中的数据进行打分排序,生成针对对应匹配侧的匹配列表。
[0010]优选地,所述步骤2的具体步骤包括:
[0011]步骤2.1、基于时间衰减函数,对运营层的多源数据进行预处理,得到匹配侧一矩阵W;
[0012]步骤2.2、采用基于多源数据的聚类算法对匹配侧一矩阵W进行处理,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,...,R
k
};
[0013]步骤2.3、若匹配侧一为已有数据,则找到已有数据所在匹配侧一类簇对应的评分矩阵R
c
,若匹配侧一为新数据,则根据余弦相似度函数将新数据逐一与各匹配侧一类簇的质心计算相似度,找到与新数据相似度最大的质心,得到相似度最大的质心所在匹配侧一
类簇对应的评分矩阵R
c

[0014]优选地,所述步骤3的具体步骤包括:
[0015]步骤3.1、采用模糊层次分析法,获取匹配侧二各个指标的标准化偏好权重及标准化权重矩阵;
[0016]步骤3.2、结合各个指标的标准化偏好权重与匹配侧二对应指标的评分矩阵获取各个指标的一级指标模糊综合评分;
[0017]步骤3.3、根据各个指标的一级指标模糊综合评分构造准则层评分矩阵;
[0018]步骤3.4、结合准则层评分矩阵与标准化权重矩阵获取二级指标综合评分;
[0019]步骤3.5、根据二级指标综合评分结果,得出可信度评价值,将可信度评价值与预设的可信度参考值比较,获取可信度评估结果;
[0020]步骤3.6、根据可信度评估结果剔除可信度低的异常数据,并更新服务层的匹配侧评分矩阵。
[0021]优选地,所述步骤4的具体步骤包括:
[0022]步骤4.1、基于更新后的匹配侧评分矩阵,进行交替最小二乘模型的训练,采用训练好的交替最小二乘模型获取匹配侧特征矩阵及基于交替最小二乘模型的初级推荐列表;
[0023]步骤4.2、基于获取的匹配侧特征矩阵,通过余弦相似度计算得到匹配侧相似度矩阵,基于匹配侧评分矩阵与匹配侧相似度矩阵,得出采用基于物品的协同过滤法获取的中级推荐列表;
[0024]步骤4.3、将获取的初级推荐列表与中级推荐列表进行存储并取交集,得到初始匹配列表。
[0025]优选地,所述步骤2.3中匹配侧u
x
和匹配侧u
y
之间的余弦相似度函数表示为:其中分别表示匹配侧u
x
、匹配侧u
y
在特征p
z
上的取值,p
z
表示第z个对应的特征,s、n、t分别表示不同特征对应的数值。
[0026]优选地,所述步骤2.1的具体步骤包括:
[0027]步骤2.1.1、对匹配侧一特征数据、对匹配侧二的评分数据、匹配侧二特征数据进行以特征工程为主的数据预处理,得到匹配侧一特征矩阵A,对匹配侧二的评分矩阵R和匹配侧二特征矩阵B;
[0028]步骤2.1.2、对评分矩阵R进行统计处理得到对匹配侧二的使用矩阵R

,结合匹配侧二特征矩阵B并利用偏好优化函数进行处理得到对匹配侧二的偏好矩阵H;
[0029]步骤2.1.3、基于时间衰减函数,对偏好矩阵H进行优化,将A、R和优化后的H合并得到匹配侧一矩阵W。
[0030]优选地,所述步骤2.2的具体步骤包括:
[0031]步骤2.2.1、在W中随机选取k个匹配侧一单体作为初始质心;
[0032]步骤2.2.2、根据余弦相似度函数计算W中剩余匹配侧一单体和每个质心的余弦相似度并将匹配侧一单体全部划分到最大的匹配侧一类簇
中;
[0033]步骤2.2.3、求取各匹配侧一类簇中所有匹配侧一单体的均值,并将均值作为新的质心;
[0034]步骤2.2.4、重复获取质心的余弦相似度并在余弦相似度的基础上获取新的质心,直至不再改变或达到设定的参数值,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,

,R
k
}。
[0035]优选地,所述步骤2.1.3中偏好矩阵H优化的具体步骤包括:
[0036]所述步骤2.1.3.1、将时间衰减函数代入偏好矩阵H中,得到关于时间衰减的偏好矩阵,其中时间衰减函数表示为λ表示衰减因数;t
u,i
表示匹配侧一对匹配侧二的特征i的评分时间,t
now
表示当前时间,u表示匹配侧一做出评分的对应单体,表示匹配侧一评分的最小值,表示匹配侧一评分的最大值;
[0037]所述步骤2.1.3.2、在时间衰减的偏好矩阵基础上,采用补充函数完成稀疏信息的补充,其中补充函数表示为I表示经过评价的特征集;表示匹配侧一对匹配侧二中属性c的评分均值;z
u,c
表示匹配侧一对属性c的兴趣度向量,s
u,j
表示匹配侧一对稀本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的混合匹配方法,其特征在于,包括:步骤1、通过埋点法对匹配侧行为产生的数据进行采集,创建数据仓库的运营层,所述运营层用于存储匹配侧原始行为数据,其中匹配侧包括匹配侧一、匹配侧二;步骤2、基于数据仓库的明细层和服务层,结合数据仓库内的多元数据获取与匹配侧一对应的对匹配侧二的评分矩阵,所述明细层用于将匹配侧原始行为进行归一后按权重进行计算后存储,所述服务层用于将匹配侧行为评分进行标准化生成匹配侧评分矩阵;步骤3、在匹配侧评分矩阵的基础上,基于模糊层次分析法,获取匹配侧的可信度评估结果,根据可信度评估结果剔除异常数据;步骤4、采用交替最小二乘法与基于物品的协同过滤法,对剔除异常数据后的数据进行初步筛选,得到初始匹配列表;步骤5、采用基于逻辑回归的排序法对初始匹配列表中的数据进行打分排序,生成针对对应匹配侧的匹配列表。2.根据权利要求1所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2的具体步骤包括:步骤2.1、基于时间衰减函数,对运营层的多源数据进行预处理,得到匹配侧一矩阵W;步骤2.2、采用基于多源数据的聚类算法对匹配侧一矩阵W进行处理,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,...,R
k
};步骤2.3、若匹配侧一为已有数据,则找到已有数据所在匹配侧一类簇对应的评分矩阵R
c
,若匹配侧一为新数据,则根据余弦相似度函数将新数据逐一与各匹配侧一类簇的质心计算相似度,找到与新数据相似度最大的质心,得到相似度最大的质心所在匹配侧一类簇对应的评分矩阵R
c
。3.根据权利要求2所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤3的具体步骤包括:步骤3.1、采用模糊层次分析法,获取匹配侧二各个指标的标准化偏好权重及标准化权重矩阵;步骤3.2、结合各个指标的标准化偏好权重与匹配侧二对应指标的评分矩阵获取各个指标的一级指标模糊综合评分;步骤3.3、根据各个指标的一级指标模糊综合评分构造准则层评分矩阵;步骤3.4、结合准则层评分矩阵与标准化权重矩阵获取二级指标综合评分;步骤3.5、根据二级指标综合评分结果,得出可信度评价值,将可信度评价值与预设的可信度参考值比较,获取可信度评估结果;步骤3.6、根据可信度评估结果剔除可信度低的异常数据,并更新服务层的匹配侧评分矩阵。4.根据权利要求3所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤4的具体步骤包括:步骤4.1、基于更新后的匹配侧评分矩阵,进行交替最小二乘模型的训练,采用训练好的交替最小二乘模型获取匹配侧特征矩阵及基于交替最小二乘模型的初级推荐列表;步骤4.2、基于获取的匹配侧特征矩阵,通过余弦相似度计算得到匹配侧相似度矩阵,基于匹配侧评分矩阵与匹配侧相似度矩阵,得出采用基于物品的协同过滤法获取的中级推
荐列表;步骤4.3、将获取的初级推荐列表与中级推荐列表进行存储并取交集,得到初始匹配列表。5.根据权利要求2所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.3中匹配侧u
x
和匹配侧u
y
之间的余弦相似度函数表示为:其中分别表示匹配侧u
x
、匹配侧u
y
在特征p
z
上的取值,p
z
表示第z个对应的特征,s、n、t分别表示不同特征对应的数值。6.根据权利要求5所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.1的具体步骤包括:步骤2.1.1、对匹配侧一特征数据、对匹配侧二的评分数据、匹配侧二特征数据进行...

【专利技术属性】
技术研发人员:张琼琼
申请(专利权)人:张琼琼
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1