人工智能在气候预测领域应用初探（一）-南京天气在线气象科技有限责任公司-人工智能AI短临预报-AI模式修订与评估-气象大数据-气象数据服务

人工智能在气候预测领域应用初探（一）

2024-02-05 15:56:51 点击：

刘冠州，唐伟

引言

根据国家标准化管理委员会发布的《人工智能标准化白皮书(2018年)》，人工智能(Artificial Intelligence,AI)是指利用数字计算机或者由数字计算机控制的机器，模拟、延伸和扩展人类的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。现阶段，随着计算机硬件设施性能的显著提升、研究数据的大量增长且存储成本的大幅降低以及算法的明显改进，人工智能技术飞速发展，呈现出深度学习、跨界融合、人机协同、自主操控等发展趋势。

在人工智能领域，一般包括机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物识别、增强现实（Augmented Reality,AR）/虚拟现实（Virtual Reality,VR）七大关键技术。机器学习（Machine Learning,ML）是一门交叉学科，涉及统计学、系统辨识、逼近论、神经网络、优化论、计算机科学、脑科学等诸多领域。它研究计算机如何模拟或实现人类的学习行为。获取新知识或技能，重组现有知识结构，不断提高自身性能，是人工智能技术的核心。常使用并且表现突出的主流机器学习方法包括两大类：（1）传统机器学习，如决策树、随机森林、支持向量机、朴素贝叶斯、梯度提升树、极端梯度提升树等；（2）深度学习，如卷积神经网络、循环神经网络、递归神经网络、深度玻尔兹曼机、深度置信网络等。

随着气候变化及其负面影响的日益加剧，干旱、洪涝等气象灾害频发且破坏加剧对人类的生活造成很大影响，提高气候预测的能力也变得愈加重要和急迫，对气候预测的需求越来越大。将人工智能应用于月-季尺度上的气候预测以及更长时间尺度的气候预估，是一项巨大的挑战。人工智气候预测需要海量的优质数据，数据是机器学习的核心，是AI发展的瓶颈,数据决定模型质量的上限。随着对气候系统变化机制的日益深入理解，地球系统的观测数据、再分析资料以及数值模拟数据在过去40年里飞速增长，气候变化科学数据存量越来越大，存储类型越来越丰富。尤其是第五阶段国际耦合模式比较计划（Coupled Model Intercomparison Project-Phase 5,CMIP5）和第六阶段国际耦合模式比较计划（Coupled Model Intercomparison Project-Phase 6,CMIP6），为气候变化、气候预测和气候预估研究提供了数千万亿字节量级的数据资源。同时在高性能计算机、“大数据”和先进算法的支持下，机器学习技术蓬勃发展,为提高气候预测的技巧提供了新的思路和契机，气候预测领域的人工智能应用也在逐渐展开。在模式改进等特定领域，人们已经认识到人工智能技术的巨大潜在利益。传统模式中的不同要素显示出被人工智能技术取代或增强的潜力。许多气候研究人员已经采用人工智能方法来加深对特定地球系统组成部分的理解，相关领域涌现了一大批创新性的研究成果，下文将分类详述。

1.气候模式参数化改进

Krasnopolsky等人2005年提出了一种基于统计/机器学习和大气模型中确定性建模的协同组合的方法。该方法使用神经网络作为统计或机器学习技术，用于模型物理参数化的精确和快速仿真或统计近似。它被用于为美国国家大气研究中心（National Center for Atmospheric Research,NCAR）社区大气模型开发一个大气长波辐射参数化的精确和快速近似，这是模型物理中最耗时的部分。开发的神经网络仿真比原始参数化快两个数量级到50-80倍。用原始参数化及其神经网络模拟进行的并行10年气候模拟的比较证实，这些模拟产生几乎相同的结果。Gentine等人2018年提出了一种基于机器学习的对流参数化的新方法，使用一个具有指定海面温度的水行星作为概念证明。用气候模型的超参数化版本来训练深度神经网络，其中对流由数千个嵌入的二维云解析模型来解析，对流的机器学习表示可以巧妙地预测对气候模拟最重要的超参数化的对流加热、润湿和辐射特征。

气溶胶-云的相互作用效应是气候模式中不确定性的主要来源，因此量化不确定性的来源从而指导研究工作是很重要的。然而，全球气溶胶模型的计算费用阻碍了对其输出进行全面的统计分析。Lee等人2013年对一个全球三维气溶胶微物理学模型进行了基于方差的分析，以量化模型估计的云凝结核当前浓度中参数不确定性的大小和主要原因。根据专家的启发，确定了28个模型参数，基本上涵盖了所有重要的气溶胶过程、排放和气溶胶大小分布的表示。然后，基于为每个模型网格单元构建的仿真器的蒙特卡罗型采样，进行不确定性分析，在全球范围内改进云活性气溶胶的建模。

2.集合预报

Luo等人2007年使用机器学习的贝叶斯方法来融合由多个气候模型生成的集合季节性气候预报，以获得更好的概率性和确定性预报。研究给出了两个实例：赤道太平洋海表温度的季节预报和俄亥俄河流域的降水预报。这些预报的交叉验证显示，与来自气候模型和气候预报的原始预报相比，合并预报的均方根误差和排序概率得分更小，表明确定性和概率性预报技能都有所提高。因此，这种方法在季节性水文预报中有很大的应用潜力。

气候模型是复杂的数学模型，由气象学家、地球物理学家和气候科学家设计，并作为计算机模拟运行，以预测气候。来自世界各地不同实验室的20个全球气候模型的预测差异很大，这些模型为政府间气候变化专门委员会(Intergovernmental Panel on Climate Change,IPCC)提供信息。给定来自20个IPCC全球气候模型的温度预测，以及超过100年的历史温度数据，Monteleoni等人2011年用深度学习算法对观测序列进行建模，其中当前最佳气候模型作为隐变量。

在历史全球平均温度数据上，在线学习算法的平均预测损失几乎与事后表现最好的气候模型相匹配。此外，它的性能超过了平均模型预测，这是气候科学的默认做法，中值预测和最小二乘线性回归。通过对2098年的气候模型预测进行实验。使用任何一个气候模型的预测来模拟标签，发现在线学习算法相对于其他气候模型和技术显著提高了性能。同时针对非洲、欧洲和北美的特定地理区域进行了IPCC全球气候模型温度预测实验。在年度和月度时间尺度的历史数据上，以及在未来的模拟中，学习算法通常优于每个地区的最佳气候模型和线性回归。值得注意的是，学习算法始终优于当前基准模型的平均预测。

3.气候变化影响评估

准确估计珍稀濒危物种的地上生物量（Aboveground Biomass,AGB）对于保护森林生态系统和濒危物种以及为分析过去和未来气候变化对森林生物量的影响提供有用信息尤为重要。Wu等人2019年使用三个已开发和两个广泛使用的模型，包括广义回归神经网络（Generalized Regression Neural Network,GRNN）、成组数据处理方法（Group Method of Data Handling,GMDH）、自适应神经模糊推理系统（Adaptive Neuro-Fuzzy Inference System,ANFIS）、人工神经网络（Artificial Neural Network,ANN）和支持向量机（Support Vector Machine,SVM），来估计中国天然林中刺桐AGB的可行性。结果表明，这些模型可以利用有限的气象数据解释AGB的变化，建议使用这些先进的模型来估计森林的AGB。

目前，地表吸收的太阳能有一半以上用于蒸发水分。气候变化预计会加剧水文循环并改变蒸散量，对生态系统、区域和全球气候的反馈产生影响。蒸散量的变化在全球范围内缺乏直接的观测约束，陆地水循环的变化、气候变化和可变性影响的关键诊断标准仍然不确定。Jung等人2010年提供了一个从1982年到2008年全球陆地蒸散的数据驱动的估计，整合使用了全球监测网络、气象和遥感观测以及机器学习算法。此外，使用基于过程的陆面模式集合评估了同一时期的蒸散变化。

大气环流模型(General Circulation Models,GCMs)是经常用于评估气候变化影响的气候模型，它的分辨率较粗，因此从GCMs获得的模拟结果在相对较小的流域尺度水文过程中可用性不高。Ghosh和Mujumdar2008年提出了一种基于稀疏贝叶斯学习和相关向量机(Relevance Vector Machine,RVM)的统计降尺度方法，以使用GCM模拟的气候变量模拟季风期(6月、7月、8月、9月)流域尺度的径流。由美国气象环境预报中心(National Centers For Environmental Prediction,NCEP)和美国国家大气研究中心(NCAR)联合制作的再分析数据被用于训练模型，以建立径流和气候变量之间的统计关系。由此获得的关系用于预测GCM模拟的未来径流。统计方法包括主成分分析、模糊聚类和RVM。不同的核函数用于比较目的。该模型被应用于印度的马哈纳迪河流域。将使用RVM获得的结果与最先进的支持向量机(SVM)的结果进行比较，以展示RVMs相对于SVMs的优势。

Goyal等人2014年研究了人工神经网络(ANN)、最小二乘支持向量回归(Least Squares – Support Vector Regression,LS-SVR)、模糊逻辑和自适应神经模糊推理系统(ANFIS)技术在提高亚热带气候下日蒸发量估计准确性方面的能力。通过比较发现，模糊逻辑和最小二乘支持向量回归方法可以成功地应用于从现有气候资料模拟日蒸发过程，机器学习模型优于传统的经验方法。

干旱是水循环的间歇性干扰，深刻影响着陆地碳循环。然而，耦合的水循环和碳循环对干旱的响应和潜在的机制仍然不清楚。Yang等人2016年提供了第一个全球综合的干旱对生态系统水分利用效率影响的数据WUE(Water Use Efficiency)。使用数据自适应机器学习方法构建两个观测WUE数据集，发现WUE对干旱的反应在干旱(WUE随着干旱而增加)和半干旱/半湿润生态系统(WUE随着干旱而减少)之间形成对比，这归因于生态系统过程对水文气候条件变化的不同敏感性。干旱生态系统的WUE变率主要受物理过程(即蒸发)控制，而半干旱/半湿润地区的WUE变率主要受生物过程(即同化)调节。同时多年来水文气候条件的变化会加剧干旱对WUE的影响。结果表明，未来的干旱事件，加上气候变率的增加，将进一步威胁半干旱/半湿润生态系统，并可能导致生物群落重组，首先是低生产力和高水分敏感性的草地。

发展中国家农业生产率的提高被认为在减贫中发挥了关键作用。但在世界大部分地区，这种生产率仍然没有得到很好的衡量，这阻碍了评估和瞄准提高生产率干预措施的努力。Burke和Lobell在2017年使用高分辨率卫星图像，结合从肯尼亚数千块小农土地上收集的田间数据，运用随机森林等方法估计了非洲小农的田间产量变化。结果表明该方法对衡量具体干预措施的影响、描述收益差距的来源和规模以及开发针对非洲小农户的金融产品都有潜在能力。

旱地环境中的土地退化和沉积物再活化被认为是一个重大的全球环境问题。鉴于目前稳定的沙丘系统在气候变化和人类活动压力增加的情况下有可能重新激活，确定外部扰动在驱动地貌响应中的作用至关重要。Buckland等人2019年开发了一种新的方法，使用人工神经网络(ANN)应用于内布拉斯加州沙丘历史再活化-沉积事件的时间序列，以确定半干旱草原上历史时期的沙沉积与外部气候条件、土地利用和野火发生之间的关系。结果表明，植被生长和沉积物再沉积事件都可以准确估计。单个因素的敏感性测试表明，当气候保持在目前的条件下时，局部强迫(过度放牧和野火)具有统计上的显著影响。然而，主要的影响是气候引起的干旱。此方法有很大的潜力，可以估计未来景观对各种潜在脆弱旱地环境的气候和土地利用情景的敏感性。

4.气候数据集改进

淡水资源具有很高的社会相关性，在当前气候变化的背景下，了解其过去的可变性对于水资源管理至关重要。Ghiggi等人2019年进行了1902年至2014年期间全球网格月径流的重建。径流观测用于训练机器学习算法，该算法基于来自大气再分析的前期降水和温度来预测月径流率。这种重建的准确性通过交叉验证进行评估，并与大型河流流域的独立流量观测值进行比较。与13个最先进的全球水文模型径流模拟的集合相比，所提供的数据集与径流观测值的一致性更好，使其成为大规模水文气候过程研究、水资源评估以及评估和完善现有水文模型的理想候选。

在过去的20年里，大量的研究采用了基于人工神经网络的遥感信息降水量估算的产品(Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks ,PERSIANN)。目前，PERSIANN提供了几种基于不同空间和时间尺度的不同算法的降水产品。Nguyen等人2018年概述了可用的PERSIANN降水反演算法及其差异，使用气候预测中心基于统一规范的分析作为基准，在不同的空间和时间尺度上对美国可用的业务产品进行了评估，挖掘PERSIANN产品的优势和局限性，并提出了未来将通过进一步整合深度学习算法改进该数据集。

全球历史气候网络每日数据库包含全球各地气象站的每日最高和最低温度等变量。如果不考虑由于收集观测值的时间造成的偏差，基于每日最低和最高温度的气候汇总统计数据将是不准确的。Rischard等人2018年提出了一种新的方法来解决这个问题：通过从附近记录每小时温度的站点信息来估算测量位置的每小时温度，然后可以使用这些信息来创建温度极值的准确汇总。关键的困难是温度曲线的这些插补必须满足落在观察到的每日最小值和最大值之间的限制，并且在24小时内至少达到一次这些值，通过开发一个时空高斯过程模型，用于输入来自附近站点的每小时测量值，然后开发一种新颖且易于实现的马尔可夫链蒙特卡罗算法，用于从满足上述约束的后验分布中进行采样。结果显示，插补的温度很好地恢复了隐藏的温度而且该模型可以利用数据中包含的信息来推断每天测量的时间。

过去一个世纪，特别是最近二十年，降水特征发生了前所未有的变化，这给社会带来了严重的社会经济问题，如水文气象极端事件，特别是洪水和干旱。这些变化的根源在于不断变化的气候条件；然而，它的威胁性影响只能通过十年降水预测(Decadal Precipitation Predictions ,DPPs)的规划来处理。由于降水预测的复杂性，DPP代表了一个非常具有挑战性的前景。由于有限的技术和粗糙的空间分辨率，由大气环流模式(GCMs)提供的DPPs不能直接用于影响评估。Salvi等人2017年基于九个GCM量化美国大陆DPPs的季节性和区域性平均技能，通过应用基于线性和核回归的统计降尺度方法来解决与有限技能和分辨率相关的问题。这两种统计方法都显示出相对于原始GCM数据的改进，特别是在长期统计特性和不确定性方面。

（本文推送前略有修改，未完待续）END

——————————————————————————————————

来源 |中国信息化,2023,(10):29-35

作者单位 | 中国气象局气象发展与规划院

编辑 | 冯裕健

上一篇：没有啦
下一篇：JAMES:用深度学习应对深度不确定性 2024/2/4