根据可视反馈自动调整值序列分析任务的方法和系统技术方案

技术编号:10095292 阅读:118 留言:0更新日期:2014-05-28 19:42
本发明专利技术涉及一种根据可视反馈自动调整值序列分析任务的方法和系统。提供了一种用于针对值序列选择分析过程的方法,所述方法包括:在计算机显示器上显示值序列;接收一个或多个由用户提供的注释序列,其中所述注释覆盖所述计算机显示器上的所述值序列的至少一个子区间;使用所述用户提供的注释序列从一组值序列分析方法中选择最佳值序列分析方法,其中选择最佳值序列分析方法包括确定所述最佳值序列分析方法的参数值;以及向所述用户呈现所选择的最佳值序列分析方法和参数以及所述注释序列的最佳重构。

【技术实现步骤摘要】
根据可视反馈自动调整值序列分析任务的方法和系统
本公开涉及用于预处理值序列(valueseries)数据的方法,值序列数据包含时间序列数据,以便选择适当的分析方法并调整参数。
技术介绍
选择正确的分析方法并且适当地调整其参数是进行有用的分析应用的先决条件。对于时间或值序列的分析尤为如此。调整和选择正确的分析方法一方面需要统计专业知识以便理解方法及其调整过程,而另一方面需要领域专业知识以便解释数据并且理解感兴趣的任务。统计分析通常对于领域专家而言难以理解和使用,而统计人员则浪费时间来获得用于解决感兴趣的任务的必需领域专业知识。一个典型的实例是对从传感器数据获得的时间序列进行降噪。这些序列可以展现任何事物,从添加到实际信号的随机噪声到极值或完全的传感器故障。存在许多已知的方法以便过滤噪声并且从数据中删除异常值。简单的实例是基于移动平均的平滑算法、基于样条的方法,或者诸如低通滤波器之类的过滤技术。这些方法具有挑战。●设置参数并非易事,其通常需要例如关于传感器属性的大量背景知识。在大量多种多样并且高度可调整的方法中选择最佳降噪方法需要统计上的专业知识。●“正确的”过滤参数可以随时间改变,甚至可能频繁改变。例如,传感器可以在白天和夜间展现不同的属性。●搜索空间可以很大,这从计算复杂性和统计显著性的角度产生挑战。由于这些原因,预处理大量时间序列以便分析仍是一项工作非常密集的任务,需要有关过滤器属性和原始数据分布的渊博统计知识。与此相反,一种改进的方法将:●足够简单以便专家无需太多的统计知识即可使用;●将交互量降至最低;以及●允许将方法细粒度地应用于单个或一组序列。现有技术通过试错方法执行该操作,其中专家测试不同的方法和参数以调整这些方法以便查找最合适的方法。但是,这种方法可能需要大量手动工作并且容易出错。如果给定监管式学习任务,则一种替代方案是将包装器与进化计算一起使用以便优化该任务的参数。因为该优化的搜索空间可以很大,所以这些方法可能过度拟合并且具有高计算复杂性。此外,这些方法仅适用于监管式任务。还存在用于群集的半监管式学习方法,这些方法通常获得实体对并且将它们标记为相似或不同。根据这点,可以获知最佳参数和距离度量。虽然这些方法可能非常适合于某些数据集,但它们通常需要许多标记的对,并且依赖良好的现有特性,这些特性通常不可用于值序列。此外,这些方法通常针对群集进行调整并且不适用于分析值序列。最重要的是,与用户的交互限于用户提供的标签,这限制了用户和分析系统之间的交互。
技术实现思路
根据本专利技术的一个方面,提供一种用于针对值序列选择分析过程的计算机实现的方法,包括:在计算机显示器上显示值序列;接收一个或多个由用户提供的注释序列,其中所述注释覆盖所述计算机显示器上的所述值序列的至少一个子区间;使用所述用户提供的注释序列从一组值序列分析方法中选择最佳值序列分析方法,其中选择最佳值序列分析方法包括确定所述最佳值序列分析方法的参数值;以及向所述用户呈现所选择的最佳值序列分析方法和参数以及所述注释序列的最佳重构。根据本专利技术的进一步方面,所述方法包括:在向所述用户呈现所选择的最佳值序列分析方法之后,从所述用户处接收用户提供的附加注释序列,以及从一组值序列分析方法中选择最佳地重构所述用户提供的注释序列的另一最佳值序列分析方法。根据本专利技术的进一步方面,所述方法包括:在所述计算机显示器上显示多个值序列,其中至少一个由用户提供的注释序列连接不同值序列中的点。根据本专利技术的进一步方面,所述值序列是时间序列,并且还包括根据用户提供的注释序列将所述时间序列划分为段。根据本专利技术的进一步方面,选择最佳地重构所述用户提供的注释序列的最佳值序列分析方法包括针对所述用户注释的段,确定最小化所述段中的时间序列点与所述用户注释之间的误差的最佳过滤器。根据本专利技术的进一步方面,选择最佳地重构所述用户提供的注释序列的最佳值序列分析方法包括针对所述用户未注释的段,标识相似的已注释的段,并且确定最小化所述未注释的段与所述已注释的段中的时间序列点之间的误差的最佳过滤器。根据本专利技术的进一步方面,根据所述未注释的段和所述已注释的段的方差和频率分布而标识相似的已注释的段。根据本专利技术的进一步方面,根据由所述最佳过滤器过滤之前和之后的所述未注释的段之间的误差分布而标识相似的已注释的段。根据本专利技术的进一步方面,所述方法包括:根据每个段的总体特性,将未针对其标识相似的已注释的段的所有段聚集成一个或多个群集,以及向所述用户呈现每个群集的表示以便注释。根据本专利技术的进一步方面,所述方法包括提取最大程度地关联用户提供的不同注释序列的特性。根据本专利技术的进一步方面,所述特性包括滞后值和窗口宽度中的一个或多个。根据本专利技术的进一步方面,所述最佳值序列分析方法最佳地重构所述用户提供的注释序列。附图说明图1示出根据本专利技术的一个实施例的具有两组分组值的值序列的图;图2是根据本专利技术的一个实施例的用于根据用户提供的一个或多个值序列注释来选择值序列分析方法的方法的流程图;图3是示出根据本专利技术的一个实施例的从选择的值序列点获得特性的图;图4是根据本专利技术的一个实施例的用于实现根据用户提供的一个或多个值序列注释来选择值序列分析方法的方法的示例性计算机系统的框图。具体实施方式本专利技术的示例性实施例如在此描述的,通常包括用于根据用户提供的一个或多个值序列注释来选择值序列分析方法的系统和方法。因此,虽然本专利技术易于具有各种修改和备选形式,但在附图中通过实例的方式示出本专利技术的特定实施例并且将在此详细描述。但是,应当理解,并非旨在将本专利技术限于所公开的特定形式,相反,本专利技术目的是覆盖所有落入本专利技术的精神和范围内的修改物、等效物和备选物。本公开的实施例提供实现方法的值序列分析系统,这些方法允许用户以图形方式注释时间或值序列并且利用这些注释自动调整感兴趣的值序列分析任务。注释表示用户(如果给出他/她的领域知识)将什么视为“信息”而不是噪声、异常值、随机关联或无关模式。用户将值序列形式的反馈返回到分析系统。这种类型的反馈允许新的交互方案,这些交互方案采用询问用户有关他/她的专业知识并且检索反馈的方式,以及利用用户的反馈以便解决感兴趣的任务的方式。本公开的实施例允许用户以图形方式沿着时间和值维度标记用户视为与感兴趣的任务相关的一个或多个值序列的子段。感兴趣的任务可以是任何事物,从值序列的纯预处理和降噪到预测、回归、模式提取、分类、特性提取或者复杂关系的定义(只要任务涉及值序列或一组值序列)。用户的反馈则采用选择或简述的值序列段的形式。这些值序列段通常从原始值序列导出。反馈不一定涉及独有的序列值,但可以涉及任意数量的序列值。用户例如可以定义跨越相同或不同值序列的两个或多个子段相关,因此它们在时间上的共同出现表示某些有价值的信息。根据本公开的实施例的方法不同于根据原始数据标记时间间隔,并且不同于监管式学习。根据本公开的实施例的注释不是标签,而是以可以不同于原始信号的形式突出信号各部分或者信号各部分之间的关系。信号部分指时间维度上的段,但也指值维度上的分解。使用根据本公开的实施例的方法,用户做到两全其美:(1)使注释简单并且直观;以及(2)具有有限数量的注释,可以自动分析整个序列或者一组序列而不必手动定义过程。自动调整由分析系统选择的本文档来自技高网
...
根据可视反馈自动调整值序列分析任务的方法和系统

【技术保护点】
一种用于针对值序列选择分析过程的计算机实现的方法,所述方法包括以下步骤:在计算机显示器上显示值序列;接收一个或多个由用户提供的注释序列,其中所述注释覆盖所述计算机显示器上的所述值序列的至少一个子区间;使用所述用户提供的注释序列从一组值序列分析方法中选择最佳值序列分析方法,其中选择最佳值序列分析方法包括确定所述最佳值序列分析方法的参数值;以及向所述用户呈现所选择的最佳值序列分析方法和参数以及所述注释序列的最佳重构。

【技术特征摘要】
2012.11.15 US 13/677,9371.一种用于针对时间序列选择分析过程的计算机实现的方法,所述方法包括以下步骤:在计算机显示器上显示时间序列;接收一个或多个由用户提供的注释序列,其中所述注释覆盖所述计算机显示器上的所述时间序列的至少一个子区间;使用所述用户提供的注释序列从一组时间序列分析方法中选择最佳时间序列分析方法,其中选择最佳时间序列分析方法包括确定所述最佳时间序列分析方法的参数值;根据所述用户提供的注释序列将所述时间序列划分为段;以及向所述用户呈现所选择的最佳时间序列分析方法和参数以及所述注释序列的最佳重构,其中,选择最佳时间序列分析方法包括,针对所述用户未注释的段,标识相似的已注释的段,并且确定最小化所述未注释的段与所述已注释的段中的时间序列点之间的误差的最佳过滤器,其中,根据由所述最佳过滤器过滤之前和之后的所述未注释的段之间的误差分布而标识相似的已注释的段。2.根据权利要求1的方法,还包括在向所述用户呈现所选择的最佳时间序列分析方法之后,从所述用户处接收用户提供的附加注释序列,以及从一组时间序列分析方法中选择最佳地重构所述用户提供的注释序列的另一最佳时间序列分析方法。3.根据权利要求1的方法,还包括在所述计算机显示器上显示多个时间序列,其中至少一个由用户提供的注释序列连接不同时间序列中的点。4.根据权利要求1的方法,其中选择最佳时间序列分析方法包括针对所述用户注释的段,确定最小化所述段中的时间序列点与所述用户注释之间的误差的最佳过滤器。5.根据权利要求1的方法,其中根据所述未注释的段和所述已注释的段的方差和频率分布而标识相似的已注释的段。6.根据权利要求1的方法,还包括根据每个段的总体特性,将未针对其标识相似的已注释的段的所有段聚集成一个或多个群集,以及向所述用户呈现每个群集的表示以便注释。7.根据权利要求1的方法,还包括提取最大程度地关联用户提供的不同注释序列的特性。8.根据权利要求7的方法,其中所述特性包括滞后值和窗口宽度中的一个或多个。9.根据权利要求1的方法,其中所述最佳时间序列分析方法最佳地重构所述用户提供的注释序列。10.一种用于针对值序列选择分析过程的系统...

【专利技术属性】
技术研发人员:P·庞佩O·费舒尔M·沃斯特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1