基于RF-Kmeans-LIBSVM的乌鲁木齐市颗粒物浓度预测研究

李爱英

doi:10.16803/j.cnki.issn.1004-6216.2022.04.019

新疆维吾尔自治区环境工程评估中心，新疆乌鲁木齐 830016

作者简介: 李爱英（1977-），女，硕士、高级工程师。研究方向：环境影响评价。E-mail：32326719@qq.com

基金项目:

甘肃省自然科学基金资助项目（21JR7RA501）

中图分类号: P456

Particle concentration forecast of Urumqi based on RF-Kmeans-LIBSVM

Xinjiang Uygur Autonomous Region Environmental Engineering Assessment Center, Urumqi 830016, China

摘要: 为了准确预测空气中颗粒物的浓度变化情况，减少空气污染给居民的生产生活带来的危害，该研究提出一种基于RF-Kmeans-LIBSVM的大气颗粒物浓度预测模型。首先采用RF算法对影响PM_2.5和PM₁₀浓度的因子进行重要性评估，选择出影响最大的2个因子作为聚类属性，然后采用Kmeans算法对空气污染监测数据进行聚类，把PM_2.5和PM₁₀序列划分为相似性较高的若干类，最后运用经聚类分析之后的训练样本建立PM_2.5和PM₁₀浓度预测模型。以乌鲁木齐市监测点2015年1月1日～2020年12月31日的PM_2.5和PM₁₀浓度日均监测数据为例，使用改进方法和传统方法分别进行预测。结果表明：与传统支持向量机相比，改进后的模型的预测准确率明显提升，对于PM_2.5，误差评价指标MAE和RMSE分别下降33.1%和26.5%；对于PM₁₀，误差评价指标MAE和RMSE分别下降15.7%和12.7%。研究说明利用RF-Kmeans聚类分析的方法来提高传统支持向量机在PM_2.5和PM₁₀浓度预测中的泛化能力具有可行性。

Abstract: In order to accurately predict the concentration of particulate matter in the air and reduce the harm caused by air pollution to the residents, this study proposes an atmospheric particulate matter concentration prediction model based on RF-Kmeans-LIBSVM. First, the RF algorithm is used to evaluate the importance of the factors that affect PM_2.5,PM₁₀ concentration. The two serious influential factors in the factor set are selected as clustering attributes, and then the Kmeans algorithm is used to cluster the air pollution monitoring data. PM_2.5,PM₁₀ sequences are divided into several categories with the high similarity. Finally, the training samples after cluster analysis are used to establish a PM_2.5, PM₁₀ concentration prediction model. Taking the daily average PM_2.5, PM₁₀ concentration monitoring data from the monitoring point in Urumqi from January 1, 2015 to December 31, 2020 as an example, the forecast is performed by the improved method and the traditional method. The results show that compared with the traditional support vector machine, the prediction accuracy of the improved model is significantly increased. For PM_2.5, the error evaluation indexes MAE and RMSE decrease by 33.1% and 26.5%, respectively. For PM₁₀, the error evaluation indexes MAE and RMSE decrease by 15.7% and 12.7%, respectively. The study shows that it is feasible to use the RF-Kmeans cluster analysis method to improve the generalization ability of traditional support vector machines in PM_2.5, PM₁₀ concentration prediction.

Key words:

变量

变量符号

物理意义

输入变量

X₁

前日的PM_2.5浓度

X₂

前日的PM₁₀浓度

X₃

前日的SO₂浓度

X₄

前日的NO₂浓度

X₅

前日的O₃浓度

X₆

前日的CO浓度

X₇

前日的AQI指数

X₈

预测日的最高气温

X₉

预测日的最低气温

X₁₀

预测日的天气状况

X₁₁

预测日的风速

X₁₂

预测日的风向

输出变量

Y₁

预测日PM_2.5浓度

Y₂

预测日PM₁₀浓度

类别

PM_2.5

PM₁₀

测试集数

平均浓度/
μg·m⁻³

测试集数

平均浓度/
μg·m⁻³

第一类

229

19.66

155

47.57

第二类

46.85

60.07

第三类

112.78

109.53

第四类

169.25

186.37

颗粒物

模型

MAE/μg·m⁻³

RMSE/μg·m⁻³

准确率/%

PM_2.5

LIBSVM

10.65

14.97

77.6

RF-Kmeans-LIBSVM

7.13

11.00

85.0

PM₁₀

LIBSVM

16.96

22.18

78.7

RF-Kmeans-LIBSVM

14.29

19.73

82.0

基于RF-Kmeans-LIBSVM的乌鲁木齐市颗粒物浓度预测研究

作者简介: 李爱英（1977-），女，硕士、高级工程师。研究方向：环境影响评价。E-mail：32326719@qq.com
新疆维吾尔自治区环境工程评估中心，新疆乌鲁木齐 830016

收稿日期: 2021-09-23

网络出版日期: 2022-08-22

基金项目:

甘肃省自然科学基金资助项目（21JR7RA501）

关键词:

Particle concentration forecast of Urumqi based on RF-Kmeans-LIBSVM

Xinjiang Uygur Autonomous Region Environmental Engineering Assessment Center, Urumqi 830016, China

Received Date: 2021-09-23

Available Online: 2022-08-22

Keywords:

全文HTML

近年来，空气污染已经成为了公众所热议的话题，尤其是对于发达城市而言，其影响的人群更多更广。中国空气污染状况呈现出冬半年较严重，夏半年较轻，北方地区较严重，南方地区较轻的分布特征^[1]。为了遏制空气污染的进一步恶化，相关部门采取了一系列高效的空气污染防治措施并取得了不错的效果^[2]，即便如此，仍然不能放缓空气污染防治的脚步，气象部门应不断规范污染预报预警信息的发布，加强气象灾害的防御工作，以便带来不必要的损失。

空气污染带来的危害不仅局限于人体健康方面，其对气候、植物以及生态系统也会产生影响^[3-7]。大气污染给人体健康带来的危害是多方面的，主要会造成生理机能障碍和呼吸系统疾病，人体眼睛与鼻子等器官中的粘膜组织受到污染气体的刺激也会引发患病。大气污染物，尤其是二氧化硫、氟化物等对植物的危害也是十分严重的，当污染物浓度很高时，会对植物产生急性危害，使植物叶表面产生伤斑，或者直接使叶片枯萎而脱落；当污染物浓度不高时，会对植物产生慢性危害，尽管表面上危害症状并不明显，但实际上植物的生理机能已受到了侵袭，进而使得产量下降，品质变差。除此之外，大气污染还能对气候产生影响，可以减少到达地面的太阳辐射量，二氧化硫经过氧化会形成硫酸，伴随自然降雨落到地面，破坏建筑物和农作物。

由于空气污染会给居民的生产生活带来不便，因此对于空气质量的准确预报就非常重要。目前国内的学者们在空气污染物浓度预测方面做了诸多尝试，其主要方法有数值预报和统计预报。相比于数值预报，统计预报无需考虑复杂多样的化学物理过程，模型的构建过程比较简单，使用起来也更加方便，尤其是近年来一些机器学习算法在环境和气象预测领域表现优异^[8-13]，使得统计预报方法的应用越来越广泛。李龙等^[14]利用最小二乘支持向量机对PM_2.5浓度做了预测，研究发现引入综合气象指数可以使得预测结果的误差降低约30%，此外还发现了PM_2.5浓度与住院率、医院门诊量高度相关；刘杰等^[15]构建了包括机器学习算法在内的4种模型对PM_2.5质量浓度进行了预测，通过对比研究，发现支持向量机可以更好地捕捉到PM_2.5质量浓度与预报因子之间的非线性关系，整体的预测准确度更高，可作为首选方法；李勇等^[16]将小波分析与BP神经网络相结合对PM₁₀浓度进行了预测，发现结合后的模型比传统的BP模型预测精度更高；梁泽等^[17]利用经遗传算法优化的径向基神经网络模型预测了北京市24 小时的平均PM_2.5浓度值，结果发现该模型预测性能良好且无需输入地理位置信息与气象等数据，依赖变量少且预测准确率高（R²高达75%），能够对多种时空情境下的城市空气污染物浓度进行预测；为了提高多变天气情况下PM_2.5浓度的预测准确率，李芬等^[18]对天气类型进行聚类与识别，基于LSTM算法构建了不同天气类型下的PM_2.5浓度预测模型，研究发现该方法比传统BP神经网络与支持向量机方法效果更好。本文利用空气质量监测数据（包括SO₂、NO₂、O₃、CO、PM₁₀和PM_2.5）与气象数据，基于RF-Kmeans-LIBSVM算法建立PM_2.5与PM₁₀日均浓度的预报模型，为相关部门制定决策提供理论依据。

3. 结论

本研究基于乌鲁木齐市2015～2020年的空气污染资料与气象资料，利用RF-Kmeans的聚类方法对空气颗粒物数据进行分型，结合支持向量机回归模型对PM_2.5和PM₁₀质量浓度分别进行了预报，主要结论如下。

一是在所选预报因子中，前日的PM_2.5浓度对预测日PM_2.5浓度预测的贡献最大，其次是前日的CO浓度和预测日的天气状况，前日的PM₁₀浓度对预测日PM₁₀浓度预测的贡献最大，其次是预测日的天气状况和前日的O₃浓度。

二是使用RF-Kmeans聚类方法将颗粒物浓度数据分成相似度较高的若干类，针对每一类分别构建预测模型，并用各类颗粒物浓度数据训练各类模型，不仅可以提高模型的训练速度，还可以提高模型对此类数据的泛化能力，提高模型的预测准确率。

三是相对于传统支持向量机预测模型，该预测方法对PM_2.5预测结果的MAE、RMSE分别下降了33.1%和26.5%，对PM₁₀预测结果的MAE、RMSE分别下降了15.7%和12.7%。可将该方法推广至乌鲁木齐市空气质量预报业务中，为空气质量业务化预报提供技术支撑。

参考文献 (26)

[1]	闫绪娴, 范玲, 施江南. 我国空气质量综合指数时空分布特征及其对旅游效益的影响——基于31个主要旅游城市情况的分析[J]. 陕西师范大学学报: 哲学社会科学版, 2020, 49(2): 125 − 138.
[2]	张丹. 我国城市大气污染现状及防治对策[J]. 中国资源综合利用, 2019, 37(12): 156 − 158. doi: 10.3969/j.issn.1008-9500.2019.12.046
[3]	田瑜, 王金艳, 钟翠萍, 等. 兰州市大气环境因素对过敏性鼻炎和慢性鼻炎的影响[J]. 兰州大学学报(自然科学版), 2016, 52(6): 789 − 795. doi: 10.13885/j.issn.0455-2059.2016.06.011
[4]	刘志强, 王玲, 张爱红, 等. 基于贝叶斯模型的雾霾天高速公路交通事故发生机理研究[J]. 重庆理工大学学报(自然科学), 2018, 32(1): 43 − 49.
[5]	吉庸, 顾申枫. 上海地区生活环境中主要空气污染物浓度与儿童哮喘发生率的关系[J]. 海南医学, 2019, 30(4): 471 − 474. doi: 10.3969/j.issn.1003-6350.2019.04.018
[6]	李全喜. 兰州市气象和环境因子对脑出血和冠心病的影响研究[D]. 兰州: 兰州大学, 2019.
[7]	先世友. 大气颗粒污染物对户外运动人群心肺功能的不利影响研究[J]. 环境科学与管理, 2020, 45(10): 77 − 81. doi: 10.3969/j.issn.1673-1212.2020.10.017
[8]	李璐, 刘永红, 蔡铭, 等. 基于气象相似准则的城市空气质量预报模型[J]. 环境科学与技术, 2013, 36(5): 156 − 161. doi: 10.3969/j.issn.1003-6504.2013.05.031
[9]	李嵩, 王冀, 张丹闯, 等. 大气PM_2.5污染指数预测优化模型仿真分析[J]. 计算机仿真, 2015, 32(12): 400 − 403. doi: 10.3969/j.issn.1006-9348.2015.12.086
[10]	孙宝磊, 孙暠, 张朝能, 等. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 2017, 37(5): 1864 − 1871. doi: 10.13671/j.hjkxxb.2016.0391
[11]	孙全德, 焦瑞莉, 夏江江, 等. 基于机器学习的数值天气预报风速订正研究[J]. 气象, 2019, 45(3): 426 − 436. doi: 10.7519/j.issn.1000-0526.2019.03.012
[12]	李颖, 陈怀亮. 机器学习技术在现代农业气象中的应用[J]. 应用气象学报, 2020, 31(3): 257 − 266. doi: 10.11898/1001-7313.20200301
[13]	ZHANG H, WU P B, YIN A J, et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China: Acomparison of multiple linear regressions and the random forest model[J]. Science of the Total Environment, 2017, 592(8): 704 − 713.
[14]	李龙, 马磊, 贺建峰, 等. 基于特征向量的最小二乘支持向量机PM_2.5浓度预测模型[J]. 计算机应用, 2014, 34(8): 2212 − 2216. doi: 10.11772/j.issn.1001-9081.2014.08.2212
[15]	刘杰, 杨鹏, 吕文生, 等. 基于气象因素的PM_2.5质量浓度预测模型[J]. 山东大学学报(工学版), 2015, 45(6): 76 − 83. doi: 10.6040/j.issn.1672-3961.0.2014.214
[16]	李勇, 白云, 李川. 基于小波分析与BP神经网络的PM₁₀浓度预测模型[J]. 环境监测管理与技术, 2016, 28(5): 24 − 28. doi: 10.3969/j.issn.1006-2009.2016.05.006
[17]	梁泽, 王玥瑶, 岳远紊, 等. 耦合遗传算法与RBF神经网络的PM_2.5浓度预测模型[J]. 中国环境科学, 2020, 40(2): 523 − 529. doi: 10.3969/j.issn.1000-6923.2020.02.007
[18]	李芬, 杨程, 赵晋斌, 等. 基于天气类型聚类和LSTM的PM_2.5短期预测模型[J]. 水电能源科学, 2021, 39(3): 199 − 202.
[19]	SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest[J]. Machine Learning, 2010, 45(1): 5 − 32.
[20]	NAGHIBI S A, AHMADI K, DANESHI A. Application of support vector machine, random forest, and genetic algorithm optimized random forest models in groundwater potential mapping[J]. Water Resources Management, 2017, 31(9): 2761 − 2775. doi: 10.1007/s11269-017-1660-3
[21]	BELGIU M, DRAGUT L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114(4): 24 − 31.
[22]	CHEN T, TRINDER J C, NIU R Q. Object-oriented landslide mapping using ZY-3 satellite imagery, random forest and mathematical morphology, for the three-gorges reservoir, China[J]. Remote Sensing, 2017, 9(4): 333. doi: 10.3390/rs9040333
[23]	付旭东. 基于机器学习的短时风场预报与订正研究[D]. 兰州: 兰州大学, 2020.
[24]	喻其炳, 李勇, 白云, 等. 基于聚类分析与偏最小二乘法的支持向量机PM_2.5预测[J]. 环境科学与技术, 2017, 40(6): 157 − 164.
[25]	王慧勤, 雷刚. 基于LIBSVM的风速预测方法研究[J]. 科学技术与工程, 2011, 11(22): 5440 − 5442. doi: 10.3969/j.issn.1671-1815.2011.22.051
[26]	张代林, 王帅, 张小勇. LIBSVM回归算法在焦炭强度预测中的应用[J]. 钢铁, 2018, 53(11): 14 − 21. doi: 10.13228/j.boyuan.issn0449-749x.20180144