【技术实现步骤摘要】
古气候重建数据处理方法及装置
[0001]本申请涉及计算机
,具体涉及一种古气候重建数据处理方法及装置。
技术介绍
[0002]过去千年是当代与未来气候环境变化的背景;北半球千年气候环境变化高分辨率数据是揭示气候系统变化规律、诊断全球增暖机理、预测预估未来情景及影响的科学基础。目前仅少数国家提供这类数据集。这类数据均源于代用资料,指标物理意义欠清晰,不同资料时空代表性、分辨率、定年精度各异;且数据可靠性尚未系统评估。因此,开展北半球千年尺度气候高分辨率数据集研制及可靠性研究,是提升全球变化领域国际影响力的重要需求。
[0003]古气候重建方面的成果一般以论文的形式发布,不同的论文之间,数据的类型、格式和属性都有较大的差异,即使对于同一时期的历史气候,又能根据代用指标的不同获得不同的结果。阻碍了古气候重建数据的利用。
技术实现思路
[0004]本申请实施例提供了一种古气候重建数据处理方法及装置,能够促进古气候重建数据的利用。
[0005]第一方面,本申请实施例提供了一种古气候重建数据处理方 ...
【技术保护点】
【技术特征摘要】
1.一种气候数据处理方法,其特征在于,包括:接收古气候重建文本数据;对所述古气候重建文本数据进行预处理,将自然语言数据转换为数学语言数据;将所述数学语言数据输入训练好的模型,以预设的结构映射存入数据库。2.根据权利要求1所述的方法,其特征在于,对所述历史气候数据进行预处理,包括:对每一古气候重建文本数据,删除其中的标点符号、数字和英文字母;采用python的jieba模块,进行中文分词处理,并根据停用词表去除文本中无意义的停用词;生成不含语句结构和虚词的词汇表格。3.根据权利要求2所述的方法,其特征在于,对模型训练包括:对预处理后的历史气候数据进行文本向量化,生成一个二维词频矩阵,所述矩阵的每行代表一篇古气候重建文本数据,每列代表某个单词或词语在不同古气候重建文本数据中的词频。4.根据权利要求3所述的方法,其特征在于,所述词频的计算使用TF
‑
IDF方法,计算公式如下:式如下:TF为词频,IDF为逆文本频率指数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:用三层贝叶斯概率模型对所述二维词频矩阵进行处理。6.根据权利要求5所述的方法,其特征在于,用三层贝叶斯概率模型对所述二维词频矩阵进行处理,包括:步骤1、设定待分类主题个数n,迭代次数为s;步骤2、计算类间散度矩阵和类内散度:S1=∑N(u
i
‑
u)(u
i
‑
u)
T
S2=∑∑(x
‑
u
i
)(x
‑
u
i
)
...
【专利技术属性】
技术研发人员:郑景云,张学珍,关旭源,
申请(专利权)人:中国科学院地理科学与资源研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。