-
近年来,随着科技的不断进步和经济的快速发展,居民的生活水平越来越高,城市人口也在不断扩增,环境污染问题已经成为人们所关注的一个焦点。严重的大气污染不仅会对气候、植物和生态系统产生影响,还会对人们的日常出行和身体健康带来威胁[1-4]。细颗粒物是加重雾霾天气的罪魁祸首,其与雾气结合到一起使得大气能见度降低,交通事故发生的频次也随之增加[5];高浓度的大气污染物也会通过呼吸作用进入人体组织,从而引发一系列的呼吸系统疾病和心脑血管疾病[6-9]。因此,准确预测空气污染物浓度就显得十分重要,不仅有助于提高人们的生活质量并降低损失,还可以为政府部门制定相关对策提供理论依据。
目前,国内外对于空气污染的预报方法主要分为2种:数值预报和统计预报。数值预报模式往往要考虑污染物在大气中所经历的复杂的化学与物理过程,需要建立相对完备的气象以及排放源等相关模型,运算也比较复杂;统计预报是通过已经发生的大量历史数据进行归纳分析,寻找历史数据的特征并总结规律,从而预报出未来的大气污染物浓度,模型的构建比较简单。长沙市作为湖南省内唯一一个新一线城市 ,是湖南省经济发展的主心骨,长沙市的空气污染带来的经济损失,对整个湖南省的经济发展都会造成极大影响。因此,长沙市大气污染的预报与防治更是重中之重。
随着机器学习算法走进大气科学领域,统计预报方法更是被推上了一个新高度,最具代表性的机器学习算法包括神经网络算法、随机森林算法和支持向量机算法等。作为一个新兴领域,近些年机器学习在气象与环境污染预测等方面被广泛应用[10-12]。谢申汝等[13]通过建立支持向量机模型对大气细颗粒物进行了预测,发现输入参数的不同会对预测结果会产生较大影响;单大可[14]研究发现长短期记忆神经网络结构凭借其对时序数据较强的处理能力,可以应用于温度的精细化预报;李萍等[15]通过建立基于高斯核的支持向量机模型对北京、上海和广州3个一线城市的空气污染指数(AQI)进行了预测,结果发现比传统预测模型的预测效果更好;陶晔[16]使用随机森林与长短期记忆神经网络相结合的方法对气温和降水进行了预测,得到了比其他方法误差更小的预测结果;孙全德等[17]通过建立机器学习模型对数值天气预报模式ECMWF对华北地区近地面10 m风速的预报结果进行了订正,结果发现机器学习算法在改善局地精准气象预报方面有着巨大的潜力。
本文利用空气质量监测数据和气象数据,基于支持向量机算法和随机森林算法建立SO2、NO2、O3、CO、PM10和PM2.5这6种污染物日均浓度的预报模型,寻找出最适合于长沙地区的空气质量预报模型。
基于机器学习的长沙市空气污染物浓度预报研究
Research on air pollutant concentration forecast in Changsha based on machine learning
-
摘要: 基于2014~2019年长沙市6种空气污染物日均浓度的监测数据、同期的气象数据,利用随机森林重要性评估的方法对影响污染物浓度的预报因子进行筛选,构建了基于随机森林算法和支持向量机算法的2种机器学习预报模型对6种空气污染物浓度分别进行预报。结果表明:各污染物浓度预报结果的均方根误差随着AQI指数的增加而变大;经随机森林变量筛选优化之后2种模型对各种污染物浓度的预报准确率都有所提升,且预报准确率都随着预报时效的增大而降低。整体而言,支持向量机回归模型对长沙市空气污染预报具有更强的泛化能力,误差更小。Abstract: Based on the monitoring data of daily average concentrations of six air pollutants in Changsha from 2014 to 2019 and the meteorological data during the same period, using the random forest importance assessment method to screen the forecast factors affecting the pollutant concentration, two machine learning forecasting models based on random forest algorithm and support vector machine algorithm were constructed to forecast the concentrations of the six air pollutants. The results showed that the root mean square error of the forecasting results for each pollutant became larger with the increase of AQI index. The forecast accuracy of the two models for various pollutant concentrations improved with screening and optimizing the random forest variables. And the forecast accuracy decreased with the increase of the forecast timeliness. Overall, the support vector machine regression model had a stronger generalization ability and less error for the air pollution forecasting in Changsha.
-
Key words:
- air pollution /
- forecast /
- random forest /
- support vector machine /
- machine learning
-
表 1 大气污染物浓度24 h预报中预报因子的变量序号及其物理意义
变量 变量序号 物理意义 输入 X1~X6 前1 d的SO2、NO2、O3、CO、
PM10和PM2.5浓度X7~X12 前2 d的SO2、NO2、O3、CO、
PM10和PM2.5浓度X13~X18 前3 d的SO2、NO2、O3、CO、
PM10和PM2.5浓度X19~X24 前4 d的SO2、NO2、O3、CO、
PM10和PM2.5浓度X25~X30 前5 d的SO2、NO2、O3、CO、
PM10和PM2.5浓度X31 星期效应 X32~X33 预测日的最高气温与最低气温 X34 预测日的天气状况 X35~X36 预测日的风向与风速 输出 Y1~Y6 预测日的SO2、NO2、O3、
CO、PM10和PM2.5浓度表 2 空气质量为优时各预报模型的均方根误差分布
模型 SO2/μg·m−3 NO2/μg·m−3 O3/μg·m−3 CO/mg·m−3 PM10/μg·m−3 PM2.5/μg·m−3 SVM 0.674 2.743 7.727 0.077 7.788 6.896 SVM+S 0.586 2.356 7.004 0.065 6.123 5.285 RF 2.445 6.455 11.096 0.094 10.152 8.491 RF+S 1.604 3.745 9.915 0.063 10.004 7.837 表 3 空气质量为良时各预报模型的均方根误差分布
模型 SO2/μg·m−3 NO2/μg·m−3 O3/μg·m−3 CO/mg·m−3 PM10/μg·m−3 PM2.5/μg·m−3 SVM 0.893 3.890 7.379 0.092 9.264 7.533 SVM+S 0.810 3.402 6.560 0.084 8.457 6.994 RF 2.365 8.706 12.524 0.123 10.921 7.003 RF+S 1.319 4.829 8.491 0.083 11.370 7.291 表 4 空气质量为轻度污染时各预报模型的均方根误差分布
模型 SO2/μg·m−3 NO2/μg·m−3 O3/μg·m−3 CO/mg•m−3 PM10/μg·m−3 PM2.5/μg·m−3 SVM 0.942 5.824 5.188 0.151 13.107 16.182 SVM+S 0.957 4.942 4.334 0.144 11.477 13.836 RF 3.445 12.144 12.108 0.171 15.472 15.814 RF+S 1.918 6.707 5.832 0.111 16.533 14.309 表 5 空气质量为中度污染及以上时各预报模型的均方根误差分布
模型 SO2/μg·m−3 NO2/μg·m−3 O3/μg·m−3 CO/mg·m−3 PM10/μg·m−3 PM2.5/μg·m−3 SVM 0.814 3.44 4.311 0.169 13.8 18.906 SVM+S 0.811 3.284 5.222 0.169 12.62 17.586 RF 3.641 7.666 4.925 0.225 14.236 35.739 RF+S 1.6 4.652 3.297 0.139 17.091 25.338 表 6 不同污染等级下4种方法预报结果均方根误差的均值分布
污染等级 SO2/μg·m−3 NO2/μg·m−3 O3/μg·m−3 CO/mg·m−3 PM10/μg·m−3 PM2.5/μg·m−3 优 1.327 3.825 8.936 0.075 8.517 7.127 良 1.347 5.207 8.739 0.096 10.003 7.205 轻度污染 2.107 7.931 7.425 0.142 14.494 14.653 中度污染及以上 1.717 4.761 4.439 0.176 14.437 24.392 表 7 2种方案24 h预报结果的评价指标对比
预报
模型污染物 MAE RMSE R2 P 方案A 方案B 方案A 方案B 方案A 方案B 方案A 方案B
RFSO2 2.062 1.185 2.574 1.482 45.970 76.045 67.986 81.607 NO2 6.424 3.748 8.373 4.696 68.174 90.012 79.570 88.082 O3 9.085 6.169 11.761 8.618 84.224 90.963 84.622 89.558 CO 0.100 0.070 0.133 0.094 59.217 79.334 88.694 92.117 PM10 8.571 9.137 11.514 12.077 83.850 82.286 83.086 81.969 PM2.5 7.430 6.713 11.760 10.054 85.464 88.567 83.778 85.345
LIB-
SVMSO2 0.610 0.547 0.826 0.756 89.823 91.636 90.510 91.494 NO2 2.957 2.497 3.798 3.355 93.373 94.965 90.597 92.058 O3 5.354 4.929 7.216 6.496 93.605 94.797 90.937 91.656 CO 0.080 0.072 0.102 0.094 84.846 86.671 90.955 91.874 PM10 6.996 5.976 9.787 8.696 88.697 91.187 86.194 88.207 PM2.5 6.388 5.641 9.325 8.264 89.816 92.167 86.053 87.684 注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3。 表 8 2种方案48h预报结果的评价指标对比
预报
模型污染物 MAE RMSE R2 P 方案A 方案B 方案A 方案B 方案A 方案B 方案A 方案B
RFSO2 2.333 2.186 2.791 2.620 41.532 47.040 63.773 66.067 NO2 6.695 6.592 8.415 8.477 68.029 67.802 78.710 79.038 O3 10.983 10.182 14.510 13.436 74.243 77.598 81.408 82.764 CO 0.107 0.105 0.143 0.142 54.997 56.635 87.941 88.150 PM10 15.664 14.792 20.068 19.041 53.162 57.787 69.086 70.807 PM2.5 14.975 12.022 21.723 17.884 45.121 62.361 67.305 73.753
LIB-
SVMSO2 1.364 1.092 1.772 1.486 66.529 73.207 78.829 83.044 NO2 5.267 4.806 6.791 6.428 79.631 82.229 83.251 84.717 O3 10.762 8.683 13.597 11.399 77.921 83.836 81.782 85.301 CO 0.114 0.088 0.144 0.114 63.580 69.255 87.056 90.075 PM10 14.088 12.758 19.101 17.694 70.074 72.764 72.197 74.822 PM2.5 10.997 10.329 16.101 15.727 69.310 71.484 75.991 77.449 注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3。 -
[1] 白志鹏, 蔡斌彬, 董海燕, 等. 灰霾的健康效应[J]. 环境污染与防治, 2006, 28(3): 198 − 201. doi: 10.3969/j.issn.1001-3865.2006.03.012 [2] 李丽光, 丁抗抗, 王宏博, 等. 辽宁省城郊霾日变化特征分析[J]. 气象与环境学报, 2018, 34(6): 125 − 132. doi: 10.3969/j.issn.1673-503X.2018.06.015 [3] 杨永安, 张凯, 余全智, 等. 浅议生态旅游和环境保护的关系[J]. 绿色科技, 2014(9): 205 − 208. doi: 10.3969/j.issn.1674-9944.2014.09.092 [4] 赵帝, 刘光聪, 王帆, 等. 沈阳市大气PM2.5污染风险评估与应对[J]. 环境保护科学, 2019, 45(5): 69 − 78. [5] 刘志强, 王玲, 张爱红, 等. 基于贝叶斯模型的雾霾天高速公路交通事故发生机理研究[J]. 重庆理工大学学报(自然科学), 2018, 32(1): 43 − 49. [6] 先世友. 大气颗粒污染物对户外运动人群心肺功能的不利影响研究[J]. 环境科学与管理, 2020, 45(10): 77 − 81. doi: 10.3969/j.issn.1673-1212.2020.10.017 [7] 吉庸, 顾申枫. 上海地区生活环境中主要空气污染物浓度与儿童哮喘发生率的关系[J]. 海南医学, 2019, 30(4): 471 − 474. doi: 10.3969/j.issn.1003-6350.2019.04.018 [8] 田瑜, 王金艳, 钟翠萍, 等. 兰州市大气环境因素对过敏性鼻炎和慢性鼻炎的影响[J]. 兰州大学学报(自然科学版), 2016, 52(6): 789 − 795. doi: 10.13885/j.issn.0455-2059.2016.06.011 [9] 李全喜. 兰州市气象和环境因子对脑出血和冠心病的影响研究[D]. 兰州: 兰州大学, 2019. [10] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [11] 郭建平. 农业气象灾害监测预测技术研究进展[J]. 应用气象学报, 2016, 27(5): 620 − 630. doi: 10.11898/1001-7313.20160510 [12] 李颖, 陈怀亮. 机器学习技术在现代农业气象中的应用[J]. 应用气象学报, 2020, 31(3): 257 − 266. doi: 10.11898/1001-7313.20200301 [13] 谢申汝, 钱彬彬, 杨宝华. 基于LIBSVM的PM2.5浓度预测模型[J]. 洛阳理工学院学报(自然科学版), 2017, 27(2): 9 − 12. [14] 单大可. 基于深度学习的气温预测[D]. 福州: 福建师范大学, 2018. [15] 李萍, 倪志伟, 朱旭辉, 等. 基于分形流形学习的支持向量机空气污染指数预测模型[J]. 系统科学与数学, 2018, 38(11): 1296 − 1306. doi: 10.12341/jssms13489 [16] 陶晔. 基于长短期记忆网络的气象预测研究[D]. 南京: 南京信息工程大学, 2019. [17] 孙全德, 焦瑞莉, 夏江江, 等. 基于机器学习的数值天气预报风速订正研究[J]. 气象, 2019, 45(3): 426 − 436. doi: 10.7519/j.issn.1000-0526.2019.03.012 [18] 薛伟锋, 褚莹倩, 吕莹, 等. 基于主成分分析和模糊综合评价的地下水水质评价——以大连市为例[J]. 环境保护科学, 2020, 46(5): 87 − 92. doi: 10.16803/j.cnki.issn.1004-6216.2020.05.015 [19] 李嵩, 王冀, 张丹闯, 等. 大气PM2.5污染指数预测优化模型仿真分析[J]. 计算机仿真, 2015, 32(12): 400 − 403. doi: 10.3969/j.issn.1006-9348.2015.12.086 [20] 王国胜, 郭联金, 董晓清, 等. 深圳市区空气污染的人工神经网络预测[J]. 环境工程学报, 2015, 9(7): 3393 − 3399. doi: 10.12030/j.cjee.20150752 [21] 孙宝磊, 孙暠, 张朝能, 等. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 2017, 37(5): 1864 − 1871. doi: 10.13671/j.hjkxxb.2016.0391 [22] 李璐, 刘永红, 蔡铭, 等. 基于气象相似准则的城市空气质量预报模型[J]. 环境科学与技术, 2013, 36(5): 156 − 161. doi: 10.3969/j.issn.1003-6504.2013.05.031 [23] LIU Y, ZHU Q, YAO D, et al. Forecasting urban air quality via a back-propagation neural network and a selection sample rule[J]. Atmosphere, 2015, 6(7): 891 − 907. doi: 10.3390/atmos6070891 [24] SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest[J]. Machine Learning, 2010, 45(1): 5 − 32. [25] 付旭东. 基于机器学习的短时风场预报与订正研究[D]. 兰州: 兰州大学, 2020.