当前位置: 首页 > 专利查询>云南大学专利>正文

基于改进的空间同位模式挖掘工业污染对癌症影响的方法技术

技术编号:38478874 阅读:10 留言:0更新日期:2023-08-15 16:57
本发明专利技术公开了一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,包括以下步骤:计算污染源实例集的偏移坐标、癌症实例与污染源实例之间的欧式距离以及污染源局部平均浓度和全局平均浓度;根据污染源影响半径判断癌症实例与污染源实例间是否存在空间邻近关系;生成癌症实例集的星型邻居集以及星型影响实例表;计算候选模式改进后的影响率、加权影响率以及影响度,并判断候选模式的影响度与影响度阈值的关系,若满足关系则输出频繁模式。解决了传统空间同位模式挖掘方法在污染源与癌症同位关系发掘上存在的不合理地只用一个距离阈值来决定邻近关系、基于参与度的频繁性度量方式要求不满足污染源与患癌风险之间的关系等问题。的关系等问题。的关系等问题。

【技术实现步骤摘要】
consideration[J].Information Sciences,2017,396:144

61.”考虑实例间距离远近的影响,定义了一种新的根据距离进行密度加权的算法。随着空间同位模式挖掘的流行,不少研究工作将该挖掘理论运用到实际应用中,如基于POI数据的空间同位模式挖掘获取了城市服务业之间的空间关联结构“胡添,刘涛,杜萍,et al.空间同位模式支持下城市服务业关联发现及特征分析[J].地球信息科学学报,2021,23(6):10.”。基于概率的同位模式挖掘方法探究儿童癌症与污染物之间的关系“LI J,ADILMAGAMBETOV A,JABBAR M S M,et al.On discovering co

location patterns in datasets:a case study of pollutants and child cancers[J].Geoinformatica,2016,20(4):651

92.”,该方法将污染源视为不确定性数据,并对其进行真实世界的建模,发现了一些化学污染物的组合与某些癌症存在显著的关联关系。由于挖掘过程对网格粒度的选取较为敏感,不同粒度得到的结果差异很大,“谢旺,王丽珍,陈红梅,et al.基于空间序偶模式挖掘污染源与癌症病例的关系[J].数据分析与知识发现,2021,5(02):14

31.”首次提出空间序偶模式用于挖掘污染源对癌症的影响关系,但是该挖掘方法先基于参与度挖掘出频繁空间序偶模式,又对模式影响度进行了计算,挖掘频繁强空间序偶模式,计算过程繁琐。影响度的计算只是将污染源对癌症病例的影响做了累加,未考虑污染源自身差异,以及外界对污染源扩散的干扰,使得结果不够合理。并且挖掘结果受癌症病例数目影响较大,当病例数目分布不均匀时,影响度大的模式几乎集中在病例较少的癌症特征。
[0005]尽管多年来许多学者对污染源与癌症关系的挖掘方法进行了大量研究,但是现有主流的空间同位模式挖掘方法在污染源与癌症同位关系发掘上存在以下局限:首先,通常根据一个距离阈值来判断实例是否邻近,对模式的频繁性度量只计算邻近的模式实例的出现次数。对于污染源和癌症病例来说,癌症病例离污染源越近,患癌的风险也会随之提高,所以模式的频繁性度量准则既要能衡量实例频繁同位的频率,也要考虑污染源实例与癌症实例距离远近不同带来的影响变化。加之企业污染源排放浓度不同,影响范围也存在差异,只用一个距离阈值来决定邻近关系并不合理。其次,基于参与度的频繁性度量方式要求所有的特征实例平等地对模式做出贡献,污染源实例所属致癌类别不同,致使人类患癌的风险也不相同,所以在计算污染源实例的“贡献”时,不应该对其一视同仁。最后,模式中的特征并不需要满足特定的顺序,例如模式{松茸,松树}与{松树,松茸}都能显示这两个物种生存空间的同位关系。然而,对于污染源和癌症来说,研究诸如{污染源A,污染源B}、{癌症A,癌症B}此类模式并无实际意义,更倾向研究类似{污染源A,癌症A}共存关系,这就要求在生成候选模式时须有一种特定的方式。

技术实现思路

[0006]本专利技术实施例的目的在于提供一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,以解决传统空间同位模式挖掘方法在污染源与癌症同位关系发掘上存在的不合理地只用一个距离阈值来决定邻近关系、基于参与度的频繁性度量方式要求不满足污染源与患癌风险之间的关系、模式中的特征不能满足特定的顺序等问题。
[0007]为解决上述技术问题,本专利技术所采用的技术方案是,一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,包括以下步骤:
[0008]步骤S1、根据风向、风速计算污染源实例集的偏移坐标,根据偏移坐标计算癌症实
例c
s
.t与污染源实例p
i
.j之间的欧式距离dist(c
s
.t,p
i
.j);
[0009]步骤S2、对输入的污染源实例集的浓度进行计算处理,得到污染源局部平均浓度和全局平均浓度;
[0010]步骤S3、根据污染源局部平均浓度和全局平均浓度的关系,判断污染源影响半径大小,进而判断癌症实例c
s
.t与污染源实例p
i
.j间是否存在空间邻近关系;
[0011]步骤S4、生成癌症实例集的星型邻居集;
[0012]步骤S5、基于星型邻居集生成候选模式的星型影响实例表;
[0013]步骤S6、基于KDE核密度估计模型,计算候选模式改进后的影响率
[0014]步骤S7、基于污染源所属致癌类别计算候选模式的加权影响率WER
pi
(c
s
);
[0015]步骤S8、计算候选模式的影响度,并判断候选模式的影响度WEI(SOPP_c)与影响度阈值min_pii的关系,如果WEI(SOPP_c)≥min_pii,则输出频繁模式。
[0016]进一步地,所述步骤S2具体为:
[0017]步骤S21、污染源实例p
i
.j不同时段的浓度值集合局部平均浓度为的平均值,计算如下:
[0018][0019]其中,conc
t
表示t时段的浓度值,t∈[1,q]。
[0020]步骤S22、全局平均浓度为污染源特征p
i
的实例集的局部平均浓度和的平均值,计算如下:
[0021][0022]其中,表示实例集中的污染源特征p
i
的实例数量。
[0023]进一步地,所述步骤S3具体为:
[0024]步骤S31、根据污染源局部平均浓度和全局平均浓度的关系,将污染源影响半径划分为三个等级,分别表示为r
min
,r
mid
,r
max
,且r
min
<r
mid
<r
max
,且r
min
,r
mid
,r
max
分别对应污染源低、中、高等级的浓度;
[0025]步骤S32、污染源实例p
i
.j的影响半径判断如下:
[0026][0027]步骤S33、判断实例间的空间邻近关系R
c_p
,如果则称癌症实例c
s
.t与污染源实例p
i
.j存在邻近关系R
c_p
,记做其中为癌症实例c
s
.t的活动半径。
[0028]进一步地,所述步骤S4中的星型邻居集指与癌症实例c
s
.t满足空间邻近关系的污染源实例的集合。
[0029]进一步地,所述步骤S5具体为:
[0030]步骤S51、在癌症实例c
s
.t的星型邻居中,单个污染源特征p
i
的实例集称为p
i
对c
s
.t的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,其特征在于,包括以下步骤:步骤S1、根据风向、风速计算污染源实例集的偏移坐标,根据偏移坐标计算癌症实例c
s
.t与污染源实例p
i
.j之间的欧式距离dist(c
s
.t,p
i
.j);步骤S2、对输入的污染源实例集的浓度进行计算处理,得到污染源局部平均浓度和全局平均浓度;步骤S3、根据污染源局部平均浓度和全局平均浓度的关系,判断污染源影响半径大小,进而判断癌症实例c
s
.t与污染源实例p
i
.j间是否存在空间邻近关系;步骤S4、生成癌症实例集的星型邻居集;步骤S5、基于星型邻居集生成候选模式的星型影响实例表;步骤S6、基于KDE核密度估计模型,计算候选模式改进后的影响率步骤S7、基于污染源所属致癌类别计算候选模式的加权影响率步骤S8、计算候选模式的影响度,并判断候选模式的影响度WEI(SOPP_c)与影响度阈值min_pii的关系,如果WEI(SOPP_c)≥min_pii,则输出频繁模式。2.根据权利要求1所述的一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,其特征在于,所述步骤S2具体为:步骤S21、污染源实例p
i
.j不同时段的浓度值集合局部平均浓度为的平均值,计算如下:其中,conc
t
表示t时段的浓度值,t∈[1,q],步骤S22、全局平均浓度为污染源特征p
i
的实例集的局部平均浓度和的平均值,计算如下:其中,表示实例集中的污染源特征p
i
的实例数量。3.根据权利要求1所述的一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,其特征在于,所述步骤S3具体为:步骤S31、根据污染源局部平均浓度和全局平均浓度的关系,将污染源影响半径划分为三个等级,分别表示为r
min
,r
mid
,r
max
,且r
min
<r
mid
<r
max
,且r
min
,r
mid
,r
max
分别对应污染源低、中、高等级的浓度;步骤S32、污染源实例p
i
.j的影响半径r
pi.j
判断如下:
步骤S33、判断实例间的空间邻近关系R
c_p
,如果则称癌症实例c
s
.t与污染源实例p
i
.j存在邻近关系R
c_p
,记做其中为癌症实例c
s
.t的活动半径。4.根据权利要求1所述的一种基于改进的空间同位模式挖掘工业污染对癌症影响的方法,其特征在于,所述步骤S4中的星型邻居集指与癌症实例c
s
.t满足空间邻近关系的污染源实例的集合...

【专利技术属性】
技术研发人员:王丽珍张玲莉王东升杨培忠周丽华陈红梅肖清
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1