-
近年来,空气污染已经成为了公众所热议的话题,尤其是对于发达城市而言,其影响的人群更多更广。中国空气污染状况呈现出冬半年较严重,夏半年较轻,北方地区较严重,南方地区较轻的分布特征[1]。为了遏制空气污染的进一步恶化,相关部门采取了一系列高效的空气污染防治措施并取得了不错的效果[2],即便如此,仍然不能放缓空气污染防治的脚步,气象部门应不断规范污染预报预警信息的发布,加强气象灾害的防御工作,以便带来不必要的损失。
空气污染带来的危害不仅局限于人体健康方面,其对气候、植物以及生态系统也会产生影响[3-7]。大气污染给人体健康带来的危害是多方面的,主要会造成生理机能障碍和呼吸系统疾病,人体眼睛与鼻子等器官中的粘膜组织受到污染气体的刺激也会引发患病。大气污染物,尤其是二氧化硫、氟化物等对植物的危害也是十分严重的,当污染物浓度很高时,会对植物产生急性危害,使植物叶表面产生伤斑,或者直接使叶片枯萎而脱落;当污染物浓度不高时,会对植物产生慢性危害,尽管表面上危害症状并不明显,但实际上植物的生理机能已受到了侵袭,进而使得产量下降,品质变差。除此之外,大气污染还能对气候产生影响,可以减少到达地面的太阳辐射量,二氧化硫经过氧化会形成硫酸,伴随自然降雨落到地面,破坏建筑物和农作物。
由于空气污染会给居民的生产生活带来不便,因此对于空气质量的准确预报就非常重要。目前国内的学者们在空气污染物浓度预测方面做了诸多尝试,其主要方法有数值预报和统计预报。相比于数值预报,统计预报无需考虑复杂多样的化学物理过程,模型的构建过程比较简单,使用起来也更加方便,尤其是近年来一些机器学习算法在环境和气象预测领域表现优异[8-13],使得统计预报方法的应用越来越广泛。李龙等[14]利用最小二乘支持向量机对PM2.5浓度做了预测,研究发现引入综合气象指数可以使得预测结果的误差降低约30%,此外还发现了PM2.5浓度与住院率、医院门诊量高度相关;刘杰等[15]构建了包括机器学习算法在内的4种模型对PM2.5质量浓度进行了预测,通过对比研究,发现支持向量机可以更好地捕捉到PM2.5质量浓度与预报因子之间的非线性关系,整体的预测准确度更高,可作为首选方法;李勇等[16]将小波分析与BP神经网络相结合对PM10浓度进行了预测,发现结合后的模型比传统的BP模型预测精度更高;梁泽等[17]利用经遗传算法优化的径向基神经网络模型预测了北京市24 小时的平均PM2.5浓度值,结果发现该模型预测性能良好且无需输入地理位置信息与气象等数据,依赖变量少且预测准确率高(R2高达75%),能够对多种时空情境下的城市空气污染物浓度进行预测;为了提高多变天气情况下PM2.5浓度的预测准确率,李芬等[18]对天气类型进行聚类与识别,基于LSTM算法构建了不同天气类型下的PM2.5浓度预测模型,研究发现该方法比传统BP神经网络与支持向量机方法效果更好。本文利用空气质量监测数据(包括SO2、NO2、O3、CO、PM10和PM2.5)与气象数据,基于RF-Kmeans-LIBSVM算法建立PM2.5与PM10日均浓度的预报模型,为相关部门制定决策提供理论依据。
基于RF-Kmeans-LIBSVM的乌鲁木齐市颗粒物浓度预测研究
Particle concentration forecast of Urumqi based on RF-Kmeans-LIBSVM
-
摘要: 为了准确预测空气中颗粒物的浓度变化情况,减少空气污染给居民的生产生活带来的危害,该研究提出一种基于RF-Kmeans-LIBSVM的大气颗粒物浓度预测模型。首先采用RF算法对影响PM2.5和PM10浓度的因子进行重要性评估,选择出影响最大的2个因子作为聚类属性,然后采用Kmeans算法对空气污染监测数据进行聚类,把PM2.5和PM10序列划分为相似性较高的若干类,最后运用经聚类分析之后的训练样本建立PM2.5和PM10浓度预测模型。以乌鲁木齐市监测点2015年1月1日~2020年12月31日的PM2.5和PM10浓度日均监测数据为例,使用改进方法和传统方法分别进行预测。结果表明:与传统支持向量机相比,改进后的模型的预测准确率明显提升,对于PM2.5,误差评价指标MAE和RMSE分别下降33.1%和26.5%;对于PM10,误差评价指标MAE和RMSE分别下降15.7%和12.7%。研究说明利用RF-Kmeans聚类分析的方法来提高传统支持向量机在PM2.5和PM10浓度预测中的泛化能力具有可行性。Abstract: In order to accurately predict the concentration of particulate matter in the air and reduce the harm caused by air pollution to the residents, this study proposes an atmospheric particulate matter concentration prediction model based on RF-Kmeans-LIBSVM. First, the RF algorithm is used to evaluate the importance of the factors that affect PM2.5, PM10 concentration. The two serious influential factors in the factor set are selected as clustering attributes, and then the Kmeans algorithm is used to cluster the air pollution monitoring data. PM2.5, PM10 sequences are divided into several categories with the high similarity. Finally, the training samples after cluster analysis are used to establish a PM2.5, PM10 concentration prediction model. Taking the daily average PM2.5, PM10 concentration monitoring data from the monitoring point in Urumqi from January 1, 2015 to December 31, 2020 as an example, the forecast is performed by the improved method and the traditional method. The results show that compared with the traditional support vector machine, the prediction accuracy of the improved model is significantly increased. For PM2.5, the error evaluation indexes MAE and RMSE decrease by 33.1% and 26.5%, respectively. For PM10, the error evaluation indexes MAE and RMSE decrease by 15.7% and 12.7%, respectively. The study shows that it is feasible to use the RF-Kmeans cluster analysis method to improve the generalization ability of traditional support vector machines in PM2.5, PM10 concentration prediction.
-
Key words:
- PM2.5 /
- PM10 /
- cluster analysis /
- support vector machine /
- forecast
-
表 1 颗粒物物浓度预测中预报因子的变量符号及其物理意义
变量 变量符号 物理意义 输入变量 X1 前日的PM2.5浓度 X2 前日的PM10浓度 X3 前日的SO2浓度 X4 前日的NO2浓度 X5 前日的O3浓度 X6 前日的CO浓度 X7 前日的AQI指数 X8 预测日的最高气温 X9 预测日的最低气温 X10 预测日的天气状况 X11 预测日的风速 X12 预测日的风向 输出变量 Y1 预测日PM2.5浓度 Y2 预测日PM10浓度 表 2 聚类结果
类别 PM2.5 PM10 测试集数 平均浓度/
μg·m−3测试集数 平均浓度/
μg·m−3第一类 229 19.66 155 47.57 第二类 67 46.85 81 60.07 第三类 37 112.78 96 109.53 第四类 33 169.25 34 186.37 表 3 不同模型预测性能的比较
颗粒物 模型 MAE/μg·m−3 RMSE/μg·m−3 准确率/% PM2.5 LIBSVM 10.65 14.97 77.6 RF-Kmeans-LIBSVM 7.13 11.00 85.0 PM10 LIBSVM 16.96 22.18 78.7 RF-Kmeans-LIBSVM 14.29 19.73 82.0 -
[1] 闫绪娴, 范玲, 施江南. 我国空气质量综合指数时空分布特征及其对旅游效益的影响——基于31个主要旅游城市情况的分析[J]. 陕西师范大学学报: 哲学社会科学版, 2020, 49(2): 125 − 138. [2] 张丹. 我国城市大气污染现状及防治对策[J]. 中国资源综合利用, 2019, 37(12): 156 − 158. doi: 10.3969/j.issn.1008-9500.2019.12.046 [3] 田瑜, 王金艳, 钟翠萍, 等. 兰州市大气环境因素对过敏性鼻炎和慢性鼻炎的影响[J]. 兰州大学学报(自然科学版), 2016, 52(6): 789 − 795. doi: 10.13885/j.issn.0455-2059.2016.06.011 [4] 刘志强, 王玲, 张爱红, 等. 基于贝叶斯模型的雾霾天高速公路交通事故发生机理研究[J]. 重庆理工大学学报(自然科学), 2018, 32(1): 43 − 49. [5] 吉庸, 顾申枫. 上海地区生活环境中主要空气污染物浓度与儿童哮喘发生率的关系[J]. 海南医学, 2019, 30(4): 471 − 474. doi: 10.3969/j.issn.1003-6350.2019.04.018 [6] 李全喜. 兰州市气象和环境因子对脑出血和冠心病的影响研究[D]. 兰州: 兰州大学, 2019. [7] 先世友. 大气颗粒污染物对户外运动人群心肺功能的不利影响研究[J]. 环境科学与管理, 2020, 45(10): 77 − 81. doi: 10.3969/j.issn.1673-1212.2020.10.017 [8] 李璐, 刘永红, 蔡铭, 等. 基于气象相似准则的城市空气质量预报模型[J]. 环境科学与技术, 2013, 36(5): 156 − 161. doi: 10.3969/j.issn.1003-6504.2013.05.031 [9] 李嵩, 王冀, 张丹闯, 等. 大气PM2.5污染指数预测优化模型仿真分析[J]. 计算机仿真, 2015, 32(12): 400 − 403. doi: 10.3969/j.issn.1006-9348.2015.12.086 [10] 孙宝磊, 孙暠, 张朝能, 等. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 2017, 37(5): 1864 − 1871. doi: 10.13671/j.hjkxxb.2016.0391 [11] 孙全德, 焦瑞莉, 夏江江, 等. 基于机器学习的数值天气预报风速订正研究[J]. 气象, 2019, 45(3): 426 − 436. doi: 10.7519/j.issn.1000-0526.2019.03.012 [12] 李颖, 陈怀亮. 机器学习技术在现代农业气象中的应用[J]. 应用气象学报, 2020, 31(3): 257 − 266. doi: 10.11898/1001-7313.20200301 [13] ZHANG H, WU P B, YIN A J, et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China: Acomparison of multiple linear regressions and the random forest model[J]. Science of the Total Environment, 2017, 592(8): 704 − 713. [14] 李龙, 马磊, 贺建峰, 等. 基于特征向量的最小二乘支持向量机PM2.5浓度预测模型[J]. 计算机应用, 2014, 34(8): 2212 − 2216. doi: 10.11772/j.issn.1001-9081.2014.08.2212 [15] 刘杰, 杨鹏, 吕文生, 等. 基于气象因素的PM2.5质量浓度预测模型[J]. 山东大学学报(工学版), 2015, 45(6): 76 − 83. doi: 10.6040/j.issn.1672-3961.0.2014.214 [16] 李勇, 白云, 李川. 基于小波分析与BP神经网络的PM10浓度预测模型[J]. 环境监测管理与技术, 2016, 28(5): 24 − 28. doi: 10.3969/j.issn.1006-2009.2016.05.006 [17] 梁泽, 王玥瑶, 岳远紊, 等. 耦合遗传算法与RBF神经网络的PM2.5浓度预测模型[J]. 中国环境科学, 2020, 40(2): 523 − 529. doi: 10.3969/j.issn.1000-6923.2020.02.007 [18] 李芬, 杨程, 赵晋斌, 等. 基于天气类型聚类和LSTM的PM2.5短期预测模型[J]. 水电能源科学, 2021, 39(3): 199 − 202. [19] SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest[J]. Machine Learning, 2010, 45(1): 5 − 32. [20] NAGHIBI S A, AHMADI K, DANESHI A. Application of support vector machine, random forest, and genetic algorithm optimized random forest models in groundwater potential mapping[J]. Water Resources Management, 2017, 31(9): 2761 − 2775. doi: 10.1007/s11269-017-1660-3 [21] BELGIU M, DRAGUT L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114(4): 24 − 31. [22] CHEN T, TRINDER J C, NIU R Q. Object-oriented landslide mapping using ZY-3 satellite imagery, random forest and mathematical morphology, for the three-gorges reservoir, China[J]. Remote Sensing, 2017, 9(4): 333. doi: 10.3390/rs9040333 [23] 付旭东. 基于机器学习的短时风场预报与订正研究[D]. 兰州: 兰州大学, 2020. [24] 喻其炳, 李勇, 白云, 等. 基于聚类分析与偏最小二乘法的支持向量机PM2.5预测[J]. 环境科学与技术, 2017, 40(6): 157 − 164. [25] 王慧勤, 雷刚. 基于LIBSVM的风速预测方法研究[J]. 科学技术与工程, 2011, 11(22): 5440 − 5442. doi: 10.3969/j.issn.1671-1815.2011.22.051 [26] 张代林, 王帅, 张小勇. LIBSVM回归算法在焦炭强度预测中的应用[J]. 钢铁, 2018, 53(11): 14 − 21. doi: 10.13228/j.boyuan.issn0449-749x.20180144