一种基于局部离群因子与符号回归的自动断点检测方法技术

技术编号:35577503 阅读:16 留言:0更新日期:2022-11-12 16:02
本发明专利技术属于不连续函数回归技术领域,涉及一种基于局部离群因子与符号回归的自动断点检测方法,首先利用局部离群因子方法确定数据集中的候选断点个数位置,然后根据候选断点生成候选断点组,最后基于符号回归算法对候选断点组进行拟合,选择拟合度最高的断点作为输出结果。本发明专利技术的方法能自动识别断点个数和位置。通过构造候选断点与切分数据集,利用LOF算法的异常值检测功能,可全面精准地识别数据集中存在的断点,可拟合复杂分布数据。基于符号回归算法进行拟合,实现数据分布假设、解释性强、拟合度高的数据建模。计算速度快。基于LOF算法的断点检测过程,只需将数据集的每个点遍历一次,无冗余计算过程。无冗余计算过程。无冗余计算过程。

【技术实现步骤摘要】
一种基于局部离群因子与符号回归的自动断点检测方法


[0001]本专利技术属于不连续函数回归
,涉及一种基于局部离群因子与符号回归的自动断点检测方法。

技术介绍

[0002]非参数回归是统计学的重要分支,在社会、经济、医疗等诸多领域中有着重要地位,关于非参数回归函数的统计推断问题也越来越被人们重视。但是在很多实际应用中,不连续的回归函数,即回归函数带断点的情况更适合去描述相关现象。如国六标准颁布前后的大气污染序列建模、奖助学金模式下的学生成绩建模、金融危机前后的股票市场价格指标序列建模等。这些问题都存在一个共性,即某一变量达到特定数值后,回归模型会突然发生变化。现有研究中,通常使用断点回归设计(Regression Discontinuity Design)、门槛回归(ThresholdRegression)和时间序列分段算法(Time series Breakout Detection)对不连续回归问题进行建模。
[0003]邹红等人发表的“基于断点回归设计的经验证据”基于断点回归设计,利用退休制度对城镇男性户主退休决策的外生冲击,检验了我国是否存在退休消费骤降现象。结果表明退休显著降低了城镇家庭非耐用消费支出的9%、与工作相关支出的25.1%、文化娱乐支出的18.6%和在家食物支出的7.4%。
[0004]在该方法中,断点的识别和预测较为困难,通常需要丰富的领域知识以及人们的直觉,人为假设断点的位置和数量,因此会受到人类认知偏见的限制。并且在确定断点位置后需要使用传统回归方法来估计断点位置两边的模型,而传统回归方法则需要事先假定模型结构,这样就有可能过滤掉更适合的潜在模型。
[0005]赵春燕发表的“人口老龄化对区域产业结构升级的影响——基于面板门槛回归模型的研究”采用面板回归门槛模型,通过利用1998

2015年我国30个省份的面板数据,证实老龄化对产业结构升级影响的门槛效应。实证结果显示:老龄化产业对结构升级影响存在显著门槛效应,当城镇化水平大于门槛值时,老龄化促进产业结构升级;反之,老龄化阻碍产业结构升级。
[0006]此研究相较于断点回归设计优势在于可以自动搜寻门限值,将回归模型区分为多个区间,每个区间的回归方程表达不同。该方法局限在于回归模型是一个固定的表达式,通过最小化残差平方和进行参数估计,但是不同的实际问题服从不同的数据分布,这种做法找到的模型可能拟合度不高且缺乏一定的解释性,会遗漏一定的信息。
[0007]熊智等人发表的“城市轨道交通客流量时间序列分段拟合方法”利用曲线拟合方法挖掘地铁客流量时间序列趋势性特征,通过整体拟合、人工分段拟合和自动分段拟合,对北京市36个地铁站单日内客流量进行时间序列建模优化。研究表明:分段拟合利用局部函数建模客流量变化的动力学过程,相较整体拟合能更好地逼近实际。
[0008]该研究涉及的时间序列自动分段拟合方法是通过人工确定分段个数,然后通过遍历分段点的取值组合,计算每种组合下的MSE之和,取MSE之和最小的最优分段点。该方法的
优势在于对每个可能的分段数据集都进行了拟合,分段结果较为精准。但局限在于需要人工确认分段个数,并且需要遍历每一种取值组合,时间复杂度太高,计算速度较慢。
[0009]中国专利CN201710881294.7公开了一种基于断点回归的公交专用道政策评价方法,采用的技术方案是利用实测数据对两种不同类型机动车的速度进行断点回归,结合图像分析间断点前后结果变量的突变情况,定量评估专用道对公交车和社会车辆速度的影响,辅助城市交通管理部门制定和优化公交专用车道政策。
[0010]该专利涉及的断点回归方法,首先确定断点的位置,即公交专用道开放的时间点,然后使用传统回归方法来估计断点位置两边的模型,而传统回归方法则需要事先假定模型结构,这样就有可能过滤掉更适合的潜在模型。
[0011]精确地识别断点以及为分段数据建立合理模型,是解决不连续回归问题的关键,现有方法还存在的以下问题:
[0012](1)无法确定断点个数和断点位置。现有的方法通常需要丰富的领域知识以及人们的直觉,人为假设断点的位置和数量,因此会受到人类认知偏见的限制。
[0013](2)无法对复杂数据进行拟合。现有方法在确定断点个数和断点位置后,通过事先假定的模型结构和参数估计确定最终的回归结果,模型结构大多是线性回归模型,难以对非线性结构进行拟合,这种做法有可能会过滤掉更适合的潜在模型。

技术实现思路

[0014]本专利技术针对传统不连续回归问题中无法确定断点个数和断点位置、无法对复杂数据进行拟合等问题,提出了一种基于局部离群因子与符号回归的自动断点检测方法,首先利用局部离群因子方法确定数据集中的候选断点个数位置,然后根据候选断点生成候选断点组,最后基于符号回归算法对候选断点组进行拟合,选择拟合度最高的断点作为输出结果。
[0015]为了达到上述目的,本专利技术的技术方案如下:
[0016]一种基于局部离群因子与符号回归的自动断点检测方法,包括如下步骤:
[0017]步骤000:对于给定数据集,设定基本参数生成初始断点与对应数据集;
[0018]步骤010:设定基本参数;对于给定的数据集D,设置三个基本参数:带宽 bandwidth、离群比例outlier和阈值threshold;计算数据集长度T,设定计数器i初始值为0。
[0019]步骤020:生成初始断点与对应数据集;令初始断点bp
i
=x[N* bandwidth/2+i],对应初始数据集d
i
=D[i:N*(bandwidth/2+outlier)+i]。
[0020]步骤100:根据生成的数据集与LOF算法返回候选断点;
[0021]步骤110:对LOF算法输出结果进行转换;将数据集d
i
作为局部离群因子算法LOF的输入,计算LOF算法输出结果res中,后N*outlier中值为

1的个数与 N*outlier的比值,记为score,即score=sum(res[

N*outlier:]==

1)/N* outlier。
[0022]步骤120:选择候选断点;对score进行判断,若score>=threshlod,判断断点x
i
为候选断点。令i=i+1。
[0023]步骤200:根据候选断点生成符号回归数据集;
[0024]步骤210:生成候选断点组;计算候选断点的数量num_bp,将候选断点数量按照从1
至num_bp进行排列组合,生成候选断点组bp_candidate。
[0025]步骤220:划分原始数据集;根据每一个候选断点组对原始数据集进行切分,生成对应的切分数据集D
kj
,其中,{k∈R|1≤k≤len(bp_candidate)},{j∈ R|0≤j≤num_bp}
[0026]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部离群因子与符号回归的自动断点检测方法,其特征在于,步骤如下:(1)对于给定数据集,设定基本参数,生成初始断点与对应初始数据集对于给定的二维数据集D={(x0,y0),(x1,y1),...,(x
N
,y
N
)},其中x为自变量,y为因变量;设置三个基本参数:带宽bandwidth、0<bandwidth<1,离群比例outlier、0<outlier<bandwidth/2,和阈值threshold、0≤threshold≤1;计算二维数据集的长度N,设定计数器i初始值为0;令初始断点bp
i
=x[N*bandwidth/2+i],对应初始数据集d
i
=D[i:N*(bandwidth/2+outlier)+i];(2)根据生成的初始数据集与LOF算法返回候选断点将初始数据集d
i
作为LOF算法的输入,LOF算法的输出将正常数据点标记为1,离群点标记为

1;计算LOF算法输出结果res中,后N*outlier中值为

1的个数与N*outlier的比值,记为score,即score=sum(res[

N*outlier:]==

1)/N*outlier;对score进行判断,若score≥threshlod,判断断点bp
i
为候选断点;以此类推,令i=i...

【专利技术属性】
技术研发人员:杨光飞李文丽钱翔宇关晓微
申请(专利权)人:大连凌空数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1