System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于热点知识共现聚类的环境特征数据集构建方法技术_技高网

基于热点知识共现聚类的环境特征数据集构建方法技术

技术编号:41155798 阅读:2 留言:0更新日期:2024-04-30 18:20
基于热点知识共现聚类的环境特征数据集构建方法,涉及环境工程技术领域。本发明专利技术是为了解决根据研究人员主观经构建的水环境特征集存在低价值要素的问题。本发明专利技术将目标环境的各项指标作为检索词进行检索,对检索结果的索引词进行共现分析;对共现分析获得的索引词进行同义词合并以及不清晰词语筛除获得关键词;利用关键词构建共现聚类网络,并导出各集群中各关键词的信息数据;分别计算各个关键词的时间距离权重并排序;将排名前十的关键词及其次级下位概念的关键词作为特征词;将处于不同应用场景下的特征词作为场景特征词,并判断其价值;对高价值场景特征词的信息数据进行交叉衍生,构建出不同时空分辨率下的场景特征数据。

【技术实现步骤摘要】

本专利技术属于环境工程。


技术介绍

1、在信息时代环境大数据呈现爆发式的增长趋势,水环境领域产生了大量的存储数据且急速增长,同时数据类型与结构也向着复杂化和多样化的趋势发展。城市及流域尺度下水环境质量的变化受到大量的环境特征因素的影响,而在目前的研究中,由于缺乏科学合理的普适的特征要素选择方法,大量的特征集往往是根据研究人员的主观经验构成,构建的特征集存在大量低价值环境特征要素。同时在目前环境特征种类的筛选过程中,缺乏对流域尺度下环境大数据内部知识关系的构建和挖掘方法,降低分析预测模型的构建准确度以及其运行效率。因此,构建专题化水环境特征集将发挥环境数据的巨大潜力价值。


技术实现思路

1、本专利技术是为了解决根据研究人员主观经构建的水环境特征集存在低价值要素,缺乏对流域尺度下环境大数据内部关系的构建和挖掘方法,降低了分析预测模型的构建准确度以及其运行效率的问题,现提供基于热点知识共现聚类的环境特征数据集构建方法

2、基于热点知识共现聚类的环境特征数据集构建方法,具体包括:

3、将目标环境的各项指标作为检索词进行检索,对检索结果的索引词进行共现分析,获得与检索词共同出现且出现频率超出预设频率阈值的索引词;

4、对共现分析获得的索引词进行同义词合并以及不清晰词语筛除,获得关键词;

5、利用关键词构建共现聚类网络,获得多个关键词集群,并导出各关键词集群中各关键词的信息数据;

6、分别计算各个关键词的时间距离权重,并将时间距离权重由大到小进行排序;

7、将排名前十的关键词以及属于其次级下位概念的关键词作为特征词,并根据所述各关键词集群中各关键词的信息数据找到特征词的信息数据;

8、将处于不同应用场景下的特征词作为场景特征词,判断各场景特征词的价值,并将价值低于预设价值阈值的场景特征词删除,获得高价值场景特征词;

9、对高价值场景特征词的信息数据进行交叉衍生,构建出不同时空分辨率下的场景特征数据并构成数据集,完成目标环境特征数据集的构建。

10、进一步的,上述目标环境的各项指标包括:目标环境所在城市、目标环境数据和目标环境的流域;基于pubmed进行检索,且检索时限为10年。

11、进一步的,在对检索结果的索引词进行共现分析之前,先使用endnote软件对检索结果的索引词进行格式转换,使得检索结果的索引词可读,然后利用vosviewer对索引词进行共现分析。

12、进一步的,上述对共现分析获得的索引词进行同义词合并以及不清晰词语筛除,包括:

13、将意义近似的索引词合并为一个具有代表性的词语,实现同义词合并,所述意义近似的索引词包括同一个词语的简写和缩写、同一个词语的不同称谓、以及同一个词语的单复数形式;

14、将具有通用性的形容词删除,实现不清晰词语筛除。

15、进一步的,上述利用关键词构建共现聚类网络,包括:

16、将共同出现频率大于预设聚类阈值的多个关键词构成一个关键词集群;

17、在一个关键词集群中,与群内其它关键词共同出现频率最高的关键词为该关键词集群的核心词。

18、进一步的,上述各关键词集群中各关键词的信息数据包括:关键词的聚类种类、同一个关键词集群内各关键词与核心词的连接强度、各关键词在检索得到的参考文献中的出现频率、以及各关键词被研究的时间长度。

19、进一步的,上述分别计算各个关键词的时间距离权重,包括:

20、采用下式计算关键词的时间距离权重:

21、w=w1a1+w2a2+w3a3+...+wnan,

22、其中,w为关键词的时间距离权重,wn为在距今n年的时间里关键词被研究的时间加权值,an为n年前关键词的被研究频率。

23、进一步的,上述判断各场景特征词的价值,包括:

24、通过强化学习的方法构建场景特征词的特征数据集,并基于该特征数据集通过灰色关联分析算法建立各场景特征词的相关矩阵,在各场景特征词的相关矩阵中引入共线性检验法来判断各场景特征词的价值。

25、进一步的,上述对高价值场景特征词的信息数据进行交叉衍生,包括:

26、将高价值场景特征词的信息数据按照地域层级以及时间层级进行划分,并将不同地域层级和时间层级的技术进行交叉衍生,使得高价值场景特征词的信息数据在空间维度和时间维度得到扩充。

27、进一步的,上述地域层级包括省、市和县3层;上述时间层级包括年、月和日3层。

28、本专利技术的优势如下:

29、本专利技术提出的环境特征体系构建方法,能够确定环境特征关键研究热点,识别多维特征的交互逻辑,建立目标专题知识集群图谱,初步构建环境特征体系。针对全量环境特征体系数据庞杂、特性差异明显等特点,基于共线性分析建立冗余特征筛除模型,结合灰色关联分析算法建立环境特征贡献度矩阵,实现环境低价值特征筛除,基于级联融合方法完成对环境特征的高价值衍生。本方法面向环境建模过程中科学高效识别有效特征的需求,能够加强模型对热点关键词的识别能力,为环境智慧建模过程的特征选择提供科学决策支撑,适用于环境工程、数学建模与计算机技术交叉领域。

本文档来自技高网...

【技术保护点】

1.基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,具体包括:

2.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述目标环境的各项指标包括:目标环境所在城市、目标环境数据和目标环境的流域;基于Pubmed进行检索,且检索时限为10年。

3.根据权利要求1或2所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,在对检索结果的索引词进行共现分析之前,先使用Endnote软件对检索结果的索引词进行格式转换,使得检索结果的索引词可读,然后利用Vosviewer对索引词进行共现分析。

4.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述对共现分析获得的索引词进行同义词合并以及不清晰词语筛除,包括:

5.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述利用关键词构建共现聚类网络,包括:

6.根据权利要求5所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述各关键词集群中各关键词的信息数据包括:关键词的聚类种类、同一个关键词集群内各关键词与核心词的连接强度、各关键词在检索得到的参考文献中的出现频率、以及各关键词被研究的时间长度。

7.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述分别计算各个关键词的时间距离权重,包括:

8.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述判断各场景特征词的价值,包括:

9.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述对高价值场景特征词的信息数据进行交叉衍生,包括:

10.根据权利要求9所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述地域层级包括省、市和县3层;

...

【技术特征摘要】

1.基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,具体包括:

2.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述目标环境的各项指标包括:目标环境所在城市、目标环境数据和目标环境的流域;基于pubmed进行检索,且检索时限为10年。

3.根据权利要求1或2所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,在对检索结果的索引词进行共现分析之前,先使用endnote软件对检索结果的索引词进行格式转换,使得检索结果的索引词可读,然后利用vosviewer对索引词进行共现分析。

4.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述对共现分析获得的索引词进行同义词合并以及不清晰词语筛除,包括:

5.根据权利要求1所述的基于热点知识共现聚类的环境特征数据集构建方法,其特征在于,所述利用关键词构建共现...

【专利技术属性】
技术研发人员:詹巍李月雷田禹赵天瑞
申请(专利权)人:哈尔滨工业大学人工智能研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1