基于自回归模型的多源动态数据在线真值发现系统技术方案

技术编号:33292350 阅读:62 留言:0更新日期:2022-05-01 00:14
本发明专利技术涉及一种基于自回归模型的多源动态数据在线真值发现系统,包括如下模块:数据源,收集多源动态数据;在线真值发现算法模块,包括三个子模块:自回归模型子模块、动态数据源权重计算子模块、最优化真值计算子模块;自回归模型子模块,用于从历史真值数据中挖掘出真值演化的时间模式;动态数据源权重计算子模块,将最优化真值计算子模块已经计算出的历史真值信息与数据源提供的数据信息相比较,动态调整数据源权重,并传递至最优化真值计算子模块;最优化真值计算子模块,利用动态数据源权重计算子模块获得的信息与自回归模型子模块预测的真值信息,通过最小化目标函数,动态计算当前时刻的潜在真值。本发明专利技术能快速准确地计算出多源动态冲突数据中的潜在真值。算出多源动态冲突数据中的潜在真值。算出多源动态冲突数据中的潜在真值。

【技术实现步骤摘要】
基于自回归模型的多源动态数据在线真值发现系统


[0001]本专利技术属于数据挖掘和数据库
,具体涉及一种在多源动态冲突数据中挖掘潜在真实数据的在线真值发现系统。

技术介绍

[0002]随着网络技术的发展以及科学技术的进步,在现实世界中每天都会产生海量的数据。这些数据或来自网络,或来自真实物理世界的传感器收集,或是一些人力的手工记录。
[0003]由于客观世界中无法避免的存在噪声,人们获取的数据可能并不是真实的。尤其当人们从多个来源来获取某一事物的数据时,往往不同的数据源对同一事物会产生相互冲突的数据。
[0004]造成这一问题的原因有很多,客观上由于收集设备的精度造成和实际真实数据的偏差;主观上,由于数据收集者的错误操作,亦或是故意地对数据造假都将导致人们得到的数据与实际真实数据存在偏差。同时,不同的数据源对于同一信息,也存在着不同的可靠性,人们有理由相信来自知名的媒体所报道的新闻,比起来自于从未听说的某不知名自媒体的新闻要可信很多。
[0005]真值发现的目的就是为了从多个冲突的数据源中挖掘出最有可能正确的潜在真实数据。近些年来,真值发现问题吸引了大量研究者的关注,研究人员从不同的角度,提出了各种各样的真值发现方法。例如,最简单的Voting、Average、Median算法,分别采取投票、求平均值、中位数的方式来寻找真值。然而,这类算法忽视了一个基本问题:所有的数据源并不具有相同的可靠性。显然,这三种算法都没有考虑数据源的可靠性,即把所有数据源的可靠性都视作是相同的。因而,这类算法虽然简单,但实际表现往往不是很好。
[0006]考虑到数据源的可靠性,现有的CRH算法针对不同的数据类型分别设计不同的损失函数、CATD算法用于解决在数据中大量存在长尾效应时的真值发现问题;基于概率图模型的LTM算法用贝叶斯方法来研究多源分类数据中的真值发现问题、GTM算法用于解决数值数据中的真值发现问题。
[0007]然而,现有的多数真值发现算法大多把真值当作是一种静态的数据,这些真值发现算法都是为了静态数据而设计的。这些算法都是一种批量处理算法,适用于处理静态批量数据。这类算法精度虽高,但是复杂度以及计算量都不适合用于动态流动数据中的真值发现问题。这类算法也都忽略了真值发现的一个重要问题——真值演化问题。
[0008]在许多现实生活场景中,潜在的真值通常随时间的改变而动态变化,而不是保持静止不变。并且,对于动态流数据,利用算法已经计算出的真实数据与数据源提供的数据相比较,应该动态地改变数据源的权重信息,而不是使数据源的权重信息保持不变。
[0009]基于上述现状,本专利技术对动态真值发现问题的研究,提出了一种新的在线真值发现技术方案,其利用时间序列分析中的自回归模型来挖掘真值演化过程中的基本模式,利用计算出的历史真值数据来预测出当前时刻可能的真值数据,并将此应用于真值优化的目标函数,将真值演化模式与真值优化问题相结合,从而计算出多源动态冲突数据中的潜在
真值,并能动态地计算出数据源的权重信息。

技术实现思路

[0010]基于现有技术存在的不足之处,本专利技术提供一种基于自回归模型的在线真值发现系统,其用于在多源动态数据中挖掘出潜在真实数据。
[0011]本专利技术结合了传统真值发现中的优化技术,也利用了时间序列分析中的自回归模型的特点,挖掘出真值在时间尺度上的演化模式。
[0012]与传统方法不同的是,本专利技术涉及到在线算法,仅利用估计出的历史真值数据,而无需利用历史所有数据,就可以快速处理来自不同数据源的动态流动数据,从而高效准确地估计出当前时刻数据真值,以及利用计算出的历史真值信息与数据源提供的数据信息相结合,从而动态地得出不同数据源的权重信息。
[0013]为了实现上述目的,本专利技术采用以下技术方案:
[0014]本专利技术技术方案涉及如下基本概念:
[0015]数据源:提供冲突数据的来源,常见的如网站、数据库、传感器等。
[0016]实体:现实世界中存在的事物,如一个城市、一座山峰等。
[0017]实体属性:描述实体特征的属性,如一个城市的日平均气温、一座山峰的海拔等。
[0018]真值:描述实体的客观真实数据信息。
[0019]本专利技术通过最小化以下公式来求解源权重与数据真值:
[0020][0021]其中,
[0022][0023]式中,w
s
对应于数据源s的权重、表示将要计算出的实体i在时刻t的潜在真值、为数据源s在时刻t提供的关于实体i的数据信息、表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数、表示在t时刻数据源s能提供数据信息的实体集合、是自回归模型预测的关于数据源s在时刻t的预测真值。
[0024]本专利技术一种基于自回归模型的多源动态数据在线真值发现系统,其包括如下模块:
[0025]数据源,收集多源动态数据;每个数据源可以对多个实体提供数据信息,在任意时刻对同一实体,至多提供1个数据信息;
[0026]在线真值发现算法模块,实时运行在计算设备上,包括三个子模块:自回归模型子模块、动态数据源权重计算子模块、最优化真值计算子模块;
[0027]自回归模型子模块,用于从历史真值数据中挖掘出真值演化的时间模式,使计算出的真值信息更加符合真值趋势发展方向;
[0028]动态数据源权重计算子模块,用于动态更新数据源权重;将最优化真值计算子模块已经计算出的历史真值信息与数据源提供的数据信息相比较,动态调整数据源权重,并传递至最优化真值计算子模块,应用于真值计算中;
[0029]最优化真值计算子模块,利用动态数据源权重计算子模块获得的信息与自回归模型子模块预测的真值信息,通过最小化目标函数,,动态计算当前时刻的潜在真值。
[0030]优选的,目标函数如下:
[0031][0032]优选的,自回归模型子模块通过建模体现真值潜在的演化模式,即优选的,自回归模型子模块通过建模体现真值潜在的演化模式,即其中,表示实体i在当前时刻t的真值;表示实体i在当前时刻t的自回归模型的预测真值;φ
j
是自回归模型的系数;∈
t
为高斯白噪声。在实际预测中,可以除去高斯白噪声项,得到
[0033]优选的,动态数据源权重计算子模块动态更新数据源权重,数据源s的权重计算公式为:
[0034][0035]其中,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s在当前时刻t所能提供的数据信息的个数,表示数据源s在当前时刻t所能提供的数据信息的个数,表示在当前时刻t的数据源s的累计误差,当前时刻t的数据源s的累计误差,表示在t时刻数据源s能提供数据信息的实体集合,
[0036]每次更新数据源s的权重w
s
时,同时记录与则下次再更新w
s...

【技术保护点】

【技术特征摘要】
1.一种基于自回归模型的多源动态数据在线真值发现系统,其特征在于,包括如下模块:数据源,收集多源动态数据;在线真值发现算法模块,包括三个子模块:自回归模型子模块、动态数据源权重计算子模块、最优化真值计算子模块;自回归模型子模块,用于从历史真值数据中挖掘出真值演化的时间模式;动态数据源权重计算子模块,将最优化真值计算子模块已经计算出的历史真值信息与数据源提供的数据信息相比较,动态调整数据源权重,并传递至最优化真值计算子模块;最优化真值计算子模块,利用动态数据源权重计算子模块获得的信息与自回归模型子模块预测的真值信息,通过最小化目标函数,动态计算当前时刻的潜在真值。2.根据权利要求1所述的一种基于自回归模型的多源动态数据在线真值发现系统,其特征在于:自回归模型子模块通过建模体现真值潜在的演化模式,即其中,表示实体i在当前时刻t的真值;表示实体i在当前时刻t的自回归模型的预测真值;φ
j
是自回归模型的系数;∈
t
为高斯白噪声。3.根据权利要求2所述的一种基于自回归模型的多源动态数据在线真值发现系统,其特征在于:动态数据源权重计算子模块动态更新数据源权重,数据源s的权重计算公式为:其中,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数,表示数据源s在当前时刻t所能提供的数据信息的个数,表示数据源s在当前时刻t所能提供的数据信息的个数,表示在当前时刻t的数据源s的累计误差,刻t的数据源s的累计误差,表示在t时刻数据源s能提供数据信息的实体集合,4.根据权利要求3所述的...

【专利技术属性】
技术研发人员:虞晓韩邵忠心陈超
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1