基于机器学习的长沙市空气污染物浓度预报研究

陈金车, 迪里努尔·牙生, 王田宇, 王金艳, 孙彩霞, 谢祥珊, 冯薇. 基于机器学习的长沙市空气污染物浓度预报研究[J]. 环境保护科学, 2022, 48(4): 103-112. doi: 10.16803/j.cnki.issn.1004-6216.2022.04.017
引用本文: 陈金车, 迪里努尔·牙生, 王田宇, 王金艳, 孙彩霞, 谢祥珊, 冯薇. 基于机器学习的长沙市空气污染物浓度预报研究[J]. 环境保护科学, 2022, 48(4): 103-112. doi: 10.16803/j.cnki.issn.1004-6216.2022.04.017
CHEN Jinche, DILINUER Yasheng, WANG Tianyu, WANG Jinyan, SUN Caixia, XIE Xiangshan, FENG Wei. Research on air pollutant concentration forecast in Changsha based on machine learning[J]. Environmental Protection Science, 2022, 48(4): 103-112. doi: 10.16803/j.cnki.issn.1004-6216.2022.04.017
Citation: CHEN Jinche, DILINUER Yasheng, WANG Tianyu, WANG Jinyan, SUN Caixia, XIE Xiangshan, FENG Wei. Research on air pollutant concentration forecast in Changsha based on machine learning[J]. Environmental Protection Science, 2022, 48(4): 103-112. doi: 10.16803/j.cnki.issn.1004-6216.2022.04.017

基于机器学习的长沙市空气污染物浓度预报研究

    作者简介: 陈金车(1996-),男,硕士。研究方向:灾害性天气及其预报。E-mail:chenjch19@lzu.edu.cn
    通讯作者: 王金艳(1977-),女,博士、副教授。研究方向:灾害性天气及其预报。E-mail:wangjny@lzu.edu.cn
  • 基金项目:
    国家重点研发计划项目(2020YFA0608402);国家自然科学基金面上项目(41575138)
  • 中图分类号: X51;P404

Research on air pollutant concentration forecast in Changsha based on machine learning

    Corresponding author: WANG Jinyan, wangjny@lzu.edu.cn
  • 摘要: 基于2014~2019年长沙市6种空气污染物日均浓度的监测数据、同期的气象数据,利用随机森林重要性评估的方法对影响污染物浓度的预报因子进行筛选,构建了基于随机森林算法和支持向量机算法的2种机器学习预报模型对6种空气污染物浓度分别进行预报。结果表明:各污染物浓度预报结果的均方根误差随着AQI指数的增加而变大;经随机森林变量筛选优化之后2种模型对各种污染物浓度的预报准确率都有所提升,且预报准确率都随着预报时效的增大而降低。整体而言,支持向量机回归模型对长沙市空气污染预报具有更强的泛化能力,误差更小。
  • 加载中
  • 图 1  长沙市24 h预报中影响SO2、NO2浓度的因子重要性系数

    图 2  空气质量为优时真实值与预报值的对比

    图 3  空气质量为良时真实值与预报值的对比

    图 4  空气质量为轻度污染时真实值与预报值的对比

    图 5  空气质量为中度污染及以上时真实值与预报值的对比

    表 1  大气污染物浓度24 h预报中预报因子的变量序号及其物理意义

    变量变量序号物理意义
    输入X1~X6前1 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X7~X12前2 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X13~X18前3 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X19~X24前4 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X25~X30前5 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X31星期效应
    X32~X33预测日的最高气温与最低气温
    X34预测日的天气状况
    X35~X36预测日的风向与风速
    输出Y1~Y6预测日的SO2、NO2、O3
    CO、PM10和PM2.5浓度
    变量变量序号物理意义
    输入X1~X6前1 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X7~X12前2 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X13~X18前3 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X19~X24前4 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X25~X30前5 d的SO2、NO2、O3、CO、
    PM10和PM2.5浓度
    X31星期效应
    X32~X33预测日的最高气温与最低气温
    X34预测日的天气状况
    X35~X36预测日的风向与风速
    输出Y1~Y6预测日的SO2、NO2、O3
    CO、PM10和PM2.5浓度
    下载: 导出CSV

    表 2  空气质量为优时各预报模型的均方根误差分布

    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.6742.7437.7270.0777.7886.896
    SVM+S0.5862.3567.0040.0656.1235.285
    RF2.4456.45511.0960.09410.1528.491
    RF+S1.6043.7459.9150.06310.0047.837
    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.6742.7437.7270.0777.7886.896
    SVM+S0.5862.3567.0040.0656.1235.285
    RF2.4456.45511.0960.09410.1528.491
    RF+S1.6043.7459.9150.06310.0047.837
    下载: 导出CSV

    表 3  空气质量为良时各预报模型的均方根误差分布

    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.8933.8907.3790.0929.2647.533
    SVM+S0.8103.4026.5600.0848.4576.994
    RF2.3658.70612.5240.12310.9217.003
    RF+S1.3194.8298.4910.08311.3707.291
    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.8933.8907.3790.0929.2647.533
    SVM+S0.8103.4026.5600.0848.4576.994
    RF2.3658.70612.5240.12310.9217.003
    RF+S1.3194.8298.4910.08311.3707.291
    下载: 导出CSV

    表 4  空气质量为轻度污染时各预报模型的均方根误差分布

    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg•m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.9425.8245.1880.15113.10716.182
    SVM+S0.9574.9424.3340.14411.47713.836
    RF3.44512.14412.1080.17115.47215.814
    RF+S1.9186.7075.8320.11116.53314.309
    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg•m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.9425.8245.1880.15113.10716.182
    SVM+S0.9574.9424.3340.14411.47713.836
    RF3.44512.14412.1080.17115.47215.814
    RF+S1.9186.7075.8320.11116.53314.309
    下载: 导出CSV

    表 5  空气质量为中度污染及以上时各预报模型的均方根误差分布

    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.8143.444.3110.16913.818.906
    SVM+S0.8113.2845.2220.16912.6217.586
    RF3.6417.6664.9250.22514.23635.739
    RF+S1.64.6523.2970.13917.09125.338
    模型SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    SVM0.8143.444.3110.16913.818.906
    SVM+S0.8113.2845.2220.16912.6217.586
    RF3.6417.6664.9250.22514.23635.739
    RF+S1.64.6523.2970.13917.09125.338
    下载: 导出CSV

    表 6  不同污染等级下4种方法预报结果均方根误差的均值分布

    污染等级SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    1.3273.8258.9360.0758.5177.127
    1.3475.2078.7390.09610.0037.205
    轻度污染2.1077.9317.4250.14214.49414.653
    中度污染及以上1.7174.7614.4390.17614.43724.392
    污染等级SO2/μg·m−3NO2/μg·m−3O3/μg·m−3CO/mg·m−3PM10/μg·m−3PM2.5/μg·m−3
    1.3273.8258.9360.0758.5177.127
    1.3475.2078.7390.09610.0037.205
    轻度污染2.1077.9317.4250.14214.49414.653
    中度污染及以上1.7174.7614.4390.17614.43724.392
    下载: 导出CSV

    表 7  2种方案24 h预报结果的评价指标对比

    预报
    模型
    污染物MAERMSER2P
    方案A方案B方案A方案B方案A方案B方案A方案B


    RF
    SO22.0621.1852.5741.48245.97076.04567.98681.607
    NO26.4243.7488.3734.69668.17490.01279.57088.082
    O39.0856.16911.7618.61884.22490.96384.62289.558
    CO0.1000.0700.1330.09459.21779.33488.69492.117
    PM108.5719.13711.51412.07783.85082.28683.08681.969
    PM2.57.4306.71311.76010.05485.46488.56783.77885.345


    LIB-
    SVM
    SO20.6100.5470.8260.75689.82391.63690.51091.494
    NO22.9572.4973.7983.35593.37394.96590.59792.058
    O35.3544.9297.2166.49693.60594.79790.93791.656
    CO0.0800.0720.1020.09484.84686.67190.95591.874
    PM106.9965.9769.7878.69688.69791.18786.19488.207
    PM2.56.3885.6419.3258.26489.81692.16786.05387.684
      注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3
    预报
    模型
    污染物MAERMSER2P
    方案A方案B方案A方案B方案A方案B方案A方案B


    RF
    SO22.0621.1852.5741.48245.97076.04567.98681.607
    NO26.4243.7488.3734.69668.17490.01279.57088.082
    O39.0856.16911.7618.61884.22490.96384.62289.558
    CO0.1000.0700.1330.09459.21779.33488.69492.117
    PM108.5719.13711.51412.07783.85082.28683.08681.969
    PM2.57.4306.71311.76010.05485.46488.56783.77885.345


    LIB-
    SVM
    SO20.6100.5470.8260.75689.82391.63690.51091.494
    NO22.9572.4973.7983.35593.37394.96590.59792.058
    O35.3544.9297.2166.49693.60594.79790.93791.656
    CO0.0800.0720.1020.09484.84686.67190.95591.874
    PM106.9965.9769.7878.69688.69791.18786.19488.207
    PM2.56.3885.6419.3258.26489.81692.16786.05387.684
      注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3
    下载: 导出CSV

    表 8  2种方案48h预报结果的评价指标对比

    预报
    模型
    污染物MAERMSER2P
    方案A方案B方案A方案B方案A方案B方案A方案B


    RF
    SO22.3332.1862.7912.62041.53247.04063.77366.067
    NO26.6956.5928.4158.47768.02967.80278.71079.038
    O310.98310.18214.51013.43674.24377.59881.40882.764
    CO0.1070.1050.1430.14254.99756.63587.94188.150
    PM1015.66414.79220.06819.04153.16257.78769.08670.807
    PM2.514.97512.02221.72317.88445.12162.36167.30573.753


    LIB-
    SVM
    SO21.3641.0921.7721.48666.52973.20778.82983.044
    NO25.2674.8066.7916.42879.63182.22983.25184.717
    O310.7628.68313.59711.39977.92183.83681.78285.301
    CO0.1140.0880.1440.11463.58069.25587.05690.075
    PM1014.08812.75819.10117.69470.07472.76472.19774.822
    PM2.510.99710.32916.10115.72769.31071.48475.99177.449
      注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3
    预报
    模型
    污染物MAERMSER2P
    方案A方案B方案A方案B方案A方案B方案A方案B


    RF
    SO22.3332.1862.7912.62041.53247.04063.77366.067
    NO26.6956.5928.4158.47768.02967.80278.71079.038
    O310.98310.18214.51013.43674.24377.59881.40882.764
    CO0.1070.1050.1430.14254.99756.63587.94188.150
    PM1015.66414.79220.06819.04153.16257.78769.08670.807
    PM2.514.97512.02221.72317.88445.12162.36167.30573.753


    LIB-
    SVM
    SO21.3641.0921.7721.48666.52973.20778.82983.044
    NO25.2674.8066.7916.42879.63182.22983.25184.717
    O310.7628.68313.59711.39977.92183.83681.78285.301
    CO0.1140.0880.1440.11463.58069.25587.05690.075
    PM1014.08812.75819.10117.69470.07472.76472.19774.822
    PM2.510.99710.32916.10115.72769.31071.48475.99177.449
      注:SO2、NO2、O3、PM10和PM2.5浓度的单位为μg·m−3,CO浓度的单位为mg·m−3
    下载: 导出CSV
  • [1] 白志鹏, 蔡斌彬, 董海燕, 等. 灰霾的健康效应[J]. 环境污染与防治, 2006, 28(3): 198 − 201. doi: 10.3969/j.issn.1001-3865.2006.03.012
    [2] 李丽光, 丁抗抗, 王宏博, 等. 辽宁省城郊霾日变化特征分析[J]. 气象与环境学报, 2018, 34(6): 125 − 132. doi: 10.3969/j.issn.1673-503X.2018.06.015
    [3] 杨永安, 张凯, 余全智, 等. 浅议生态旅游和环境保护的关系[J]. 绿色科技, 2014(9): 205 − 208. doi: 10.3969/j.issn.1674-9944.2014.09.092
    [4] 赵帝, 刘光聪, 王帆, 等. 沈阳市大气PM2.5污染风险评估与应对[J]. 环境保护科学, 2019, 45(5): 69 − 78.
    [5] 刘志强, 王玲, 张爱红, 等. 基于贝叶斯模型的雾霾天高速公路交通事故发生机理研究[J]. 重庆理工大学学报(自然科学), 2018, 32(1): 43 − 49.
    [6] 先世友. 大气颗粒污染物对户外运动人群心肺功能的不利影响研究[J]. 环境科学与管理, 2020, 45(10): 77 − 81. doi: 10.3969/j.issn.1673-1212.2020.10.017
    [7] 吉庸, 顾申枫. 上海地区生活环境中主要空气污染物浓度与儿童哮喘发生率的关系[J]. 海南医学, 2019, 30(4): 471 − 474. doi: 10.3969/j.issn.1003-6350.2019.04.018
    [8] 田瑜, 王金艳, 钟翠萍, 等. 兰州市大气环境因素对过敏性鼻炎和慢性鼻炎的影响[J]. 兰州大学学报(自然科学版), 2016, 52(6): 789 − 795. doi: 10.13885/j.issn.0455-2059.2016.06.011
    [9] 李全喜. 兰州市气象和环境因子对脑出血和冠心病的影响研究[D]. 兰州: 兰州大学, 2019.
    [10] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
    [11] 郭建平. 农业气象灾害监测预测技术研究进展[J]. 应用气象学报, 2016, 27(5): 620 − 630. doi: 10.11898/1001-7313.20160510
    [12] 李颖, 陈怀亮. 机器学习技术在现代农业气象中的应用[J]. 应用气象学报, 2020, 31(3): 257 − 266. doi: 10.11898/1001-7313.20200301
    [13] 谢申汝, 钱彬彬, 杨宝华. 基于LIBSVM的PM2.5浓度预测模型[J]. 洛阳理工学院学报(自然科学版), 2017, 27(2): 9 − 12.
    [14] 单大可. 基于深度学习的气温预测[D]. 福州: 福建师范大学, 2018.
    [15] 李萍, 倪志伟, 朱旭辉, 等. 基于分形流形学习的支持向量机空气污染指数预测模型[J]. 系统科学与数学, 2018, 38(11): 1296 − 1306. doi: 10.12341/jssms13489
    [16] 陶晔. 基于长短期记忆网络的气象预测研究[D]. 南京: 南京信息工程大学, 2019.
    [17] 孙全德, 焦瑞莉, 夏江江, 等. 基于机器学习的数值天气预报风速订正研究[J]. 气象, 2019, 45(3): 426 − 436. doi: 10.7519/j.issn.1000-0526.2019.03.012
    [18] 薛伟锋, 褚莹倩, 吕莹, 等. 基于主成分分析和模糊综合评价的地下水水质评价——以大连市为例[J]. 环境保护科学, 2020, 46(5): 87 − 92. doi: 10.16803/j.cnki.issn.1004-6216.2020.05.015
    [19] 李嵩, 王冀, 张丹闯, 等. 大气PM2.5污染指数预测优化模型仿真分析[J]. 计算机仿真, 2015, 32(12): 400 − 403. doi: 10.3969/j.issn.1006-9348.2015.12.086
    [20] 王国胜, 郭联金, 董晓清, 等. 深圳市区空气污染的人工神经网络预测[J]. 环境工程学报, 2015, 9(7): 3393 − 3399. doi: 10.12030/j.cjee.20150752
    [21] 孙宝磊, 孙暠, 张朝能, 等. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 2017, 37(5): 1864 − 1871. doi: 10.13671/j.hjkxxb.2016.0391
    [22] 李璐, 刘永红, 蔡铭, 等. 基于气象相似准则的城市空气质量预报模型[J]. 环境科学与技术, 2013, 36(5): 156 − 161. doi: 10.3969/j.issn.1003-6504.2013.05.031
    [23] LIU Y, ZHU Q, YAO D, et al. Forecasting urban air quality via a back-propagation neural network and a selection sample rule[J]. Atmosphere, 2015, 6(7): 891 − 907. doi: 10.3390/atmos6070891
    [24] SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest[J]. Machine Learning, 2010, 45(1): 5 − 32.
    [25] 付旭东. 基于机器学习的短时风场预报与订正研究[D]. 兰州: 兰州大学, 2020.
  • 加载中
图( 5) 表( 8)
计量
  • 文章访问数:  2772
  • HTML全文浏览数:  2772
  • PDF下载数:  58
  • 施引文献:  0
出版历程
  • 收稿日期:  2021-06-07
  • 刊出日期:  2022-08-20

基于机器学习的长沙市空气污染物浓度预报研究

    通讯作者: 王金艳(1977-),女,博士、副教授。研究方向:灾害性天气及其预报。E-mail:wangjny@lzu.edu.cn
    作者简介: 陈金车(1996-),男,硕士。研究方向:灾害性天气及其预报。E-mail:chenjch19@lzu.edu.cn
  • 1. 兰州市气象局,甘肃 兰州 730101
  • 2. 兰州大学大气科学学院,甘肃 兰州 730000
基金项目:
国家重点研发计划项目(2020YFA0608402);国家自然科学基金面上项目(41575138)

摘要: 基于2014~2019年长沙市6种空气污染物日均浓度的监测数据、同期的气象数据,利用随机森林重要性评估的方法对影响污染物浓度的预报因子进行筛选,构建了基于随机森林算法和支持向量机算法的2种机器学习预报模型对6种空气污染物浓度分别进行预报。结果表明:各污染物浓度预报结果的均方根误差随着AQI指数的增加而变大;经随机森林变量筛选优化之后2种模型对各种污染物浓度的预报准确率都有所提升,且预报准确率都随着预报时效的增大而降低。整体而言,支持向量机回归模型对长沙市空气污染预报具有更强的泛化能力,误差更小。

English Abstract

  • 近年来,随着科技的不断进步和经济的快速发展,居民的生活水平越来越高,城市人口也在不断扩增,环境污染问题已经成为人们所关注的一个焦点。严重的大气污染不仅会对气候、植物和生态系统产生影响,还会对人们的日常出行和身体健康带来威胁[1-4]。细颗粒物是加重雾霾天气的罪魁祸首,其与雾气结合到一起使得大气能见度降低,交通事故发生的频次也随之增加[5];高浓度的大气污染物也会通过呼吸作用进入人体组织,从而引发一系列的呼吸系统疾病和心脑血管疾病[6-9]。因此,准确预测空气污染物浓度就显得十分重要,不仅有助于提高人们的生活质量并降低损失,还可以为政府部门制定相关对策提供理论依据。

    目前,国内外对于空气污染的预报方法主要分为2种:数值预报和统计预报。数值预报模式往往要考虑污染物在大气中所经历的复杂的化学与物理过程,需要建立相对完备的气象以及排放源等相关模型,运算也比较复杂;统计预报是通过已经发生的大量历史数据进行归纳分析,寻找历史数据的特征并总结规律,从而预报出未来的大气污染物浓度,模型的构建比较简单。长沙市作为湖南省内唯一一个新一线城市 ,是湖南省经济发展的主心骨,长沙市的空气污染带来的经济损失,对整个湖南省的经济发展都会造成极大影响。因此,长沙市大气污染的预报与防治更是重中之重。

    随着机器学习算法走进大气科学领域,统计预报方法更是被推上了一个新高度,最具代表性的机器学习算法包括神经网络算法、随机森林算法和支持向量机算法等。作为一个新兴领域,近些年机器学习在气象与环境污染预测等方面被广泛应用[10-12]。谢申汝等[13]通过建立支持向量机模型对大气细颗粒物进行了预测,发现输入参数的不同会对预测结果会产生较大影响;单大可[14]研究发现长短期记忆神经网络结构凭借其对时序数据较强的处理能力,可以应用于温度的精细化预报;李萍等[15]通过建立基于高斯核的支持向量机模型对北京、上海和广州3个一线城市的空气污染指数(AQI)进行了预测,结果发现比传统预测模型的预测效果更好;陶晔[16]使用随机森林与长短期记忆神经网络相结合的方法对气温和降水进行了预测,得到了比其他方法误差更小的预测结果;孙全德等[17]通过建立机器学习模型对数值天气预报模式ECMWF对华北地区近地面10 m风速的预报结果进行了订正,结果发现机器学习算法在改善局地精准气象预报方面有着巨大的潜力。

    本文利用空气质量监测数据和气象数据,基于支持向量机算法和随机森林算法建立SO2、NO2、O3、CO、PM10和PM2.5这6种污染物日均浓度的预报模型,寻找出最适合于长沙地区的空气质量预报模型。

    • 大气污染物浓度监测数据和气象数据分别来源于环境监测站和天气后报网站(http://www.tianqihoubao.com/),选取长沙市的逐日数据,时间段为北京时间2014年1月1日至2019年12月31日,大气污染物浓度监测数据包括的要素为SO2、NO2、O3、CO、PM10和PM2.5这6种污染物的日均浓度值;气象数据包括的要素为天气状况、最高气温、最低气温、风向和风速。首先对环境监测数据和气象数据进行质量控制,将序列中的乱码数据和缺失数据进行识别与剔除,采用相邻非缺失值线性插值的方法进行订正。

    • 由于空气污染物浓度数据以及气象数据的量纲和量纲单位存在差异,这种差异不仅会影响模型的训练速度,也会对最终的分析结果产生不利影响,因此在建立预报模型之前需要对数据进行归一化处理,使得数据被限定在一定的区间内,从而消除由奇异样本数据所带来的不利影响,提高预测精度。本研究使用公式(1)将所选数据归一化到指定区间(0,1)内,其中y代表经归一化处理之后的数据,x代表经归一化处理之前的数据,Xmax代表样本数据中的最大值,Xmin代表样本数据中的最小值,见式(1):

    • 通常情况下,一个数据集具有数百甚至数千种不同的特征, 在构建模型时选择对结果影响最大的属性以减少特征数量的方法已成为我们越来越关注的问题。目前在基于机器学习的大气污染物浓度预报研究中,人们常用一些方法对影响污染物浓度的因素进行重要性评估,挑选出对污染物浓度影响较大的因素作为预报因子,以此来提高预报准确率[18-23]。随机森林算法[24]可以对特征变量的重要性进行度量,尤其对于非线性问题更加适用,付旭东[25]于2020年使用该方法对影响风场的预报因子进行了筛选,有效地提高了风场预报的准确率,该方法在污染物浓度的预测中使用较少。使用随机森林算法筛选出重要属性的思想是看每个特征对随机森林中每棵决策树的贡献程度,然后取该特征贡献的平均值,最后依据贡献值大小对每个特征进行排序。通常情况下,这种贡献大小可以通过基尼系数(Gini系数)或者袋外数据错误率(OOB)来进行度量。

    • 随机森林算法是由美国加州大学的Leo Breiman教授于2001年提出的,单一的决策树算法在应用过程中经常会出现过拟合现象,而随机森林算法的提出可以解决此类问题。随机森林可以理解为不同的决策树应用随机处理方法所建立的算法,对于森林中的各棵决策树而言,它们彼此之间互不相关,是相互独立的个体。对于回归问题,它采用的是最小方均差原则。对于任意划分特征A的任意划分点S,将数据集划分为S1S2,要计算出使得S1S2各自的均方差最小并且两者均方差和最小的特征和特征值划分点,其中,c1c2分别为S1S2的样本输出均值,yi为输入样本,见式(2):

    • LIBSVM是由台湾大学的中国学者林智仁设计发明的,并被广泛应用于分类问题和回归预测问题。传统支持向量机回归预测模型的缺陷就是只能依据经验以及对比试验来进行选取核函数与其他参数,而LIBSVM的出现则克服了这一缺陷。与SVM相比,LIBSVM涉及到的参数调节更少,很多参数都是默认的,合理利用这些设置好的默认参数可用来解决许多问题,LIBSVM还在SVM的基础上提供了一种用于交互检验的新功能。

    • 选用平均绝对误差(MAE)、均方根误差(RMSE)、判定系数(R2)和预报准确率(P)4个误差评价指标对大气污染物浓度的预报结果进行检验,每种误差评价指标的计算过程见公式(3~6)。其中,FO分别表示污染物浓度的预报值和实际观测值,$\bar O $表示实际观测值的平均值,n表示各种空气污染物浓度数据的试报个数。MAE、RMSE的绝对值越小表明预报效果越好;R2越大且越接近于1,表明相关性越高,预报值越接近于实际观测值;准确率越高预报效果越好,见式(3~6):

    • 本文在构建污染物浓度的预报模型时,除了考虑过去5 d的6种污染物浓度值对次日待预测污染物浓度的影响外,还将星期效应、预测日的最高与最低气温、天气状况、风向和风速一并纳入因子库。为了降低浓度的突然波动对预测结果的影响,使得网络模型在测试数据上更加稳定,这里采用滑动平均法对污染物浓度进行3 d滑动平均处理。在考虑星期效应时,将星期一至星期日分别用数字1~7表示。将预测日的天气状况进行分类,分别为晴天、阴天、多云天、雾天、雨天、雪天和雨夹雪天气7种天气类型,为了避免与星期效应产生重复对预测结果带来干扰,这里将以上天气状况分别用数字11~17表示。将风向转化为角度值,东北风、东风、东南风、南风、西南风、西风、西北风和北风分别用数字45、90、135、180、225、270、315和360表示,无持续风向的情况则用数字0表示。各空气污染物浓度24 h预报中预报因子的变量序号及其物理意义见表1。其中,X为输入变量,Y为输出变量,X1~X30为大气污染因子,X31为星期效应,X32~X36为气象因子,Y1~Y6为预测日6种污染物的浓度值,见表1

      计算出长沙市24 h预报中影响SO2、NO2、O3、CO、PM10和PM2.5浓度的因子重要性系数,以SO2和NO2为例,见图1

      用随机森林重要性评估的方法挑选出对SO2质量浓度影响较大的因子共计23个(相对重要性系数累计值≥80%),排名在前3位的预报因子依次为前1 d的SO2浓度、预测日的天气状况和前2 d的SO2浓度;挑选出对NO2质量浓度影响较大的因子共计23个,排名在前3位的预报因子依次为前1 d的NO2浓度、预测日的天气状况和预测日的最低气温。同理,可以挑选出对O3质量浓度影响较大的因子共计24个,排名在前3位的预报因子依次为前1 d的O3浓度、预测日的天气状况和前2 d的O3浓度;挑选出对CO质量浓度影响较大的因子共计24个,排名在前3位的预报因子依次为前1 d的CO浓度、前1 d的PM2.5浓度和前2 d的CO浓度;挑选出对PM10质量浓度影响较大的因子共计22个,排名在前3位的预报因子依次为前1 d的PM10浓度、预测日的天气状况和前1 d的PM2.5浓度;挑选出对PM2.5质量浓度影响较大的因子共计20个,排名在前3位的预报因子为前1 d的PM2.5浓度、前1 d的PM10浓度和前1 d的NO2浓度。

    • 与24 h预报类似,将预报日向后推迟1 d,48 h预报中预报因子的变量序号保持不变,输入变量中大气污染因子(X1~X30)的物理意义由原来的前1~5 d各污染物浓度值变为前2~6 d各污染物浓度值, X31~X36的物理意义不变,仍代表星期效应、预测日的最高与最低气温、天气状况、风向以及风速。预报因子的筛选过程同2.1节,利用随机森林重要性评估的方法挑选出对SO2质量浓度影响较大的因子共计23个(相对重要性系数累计值≥80%),排名在前3位的预报因子依次为前2 d的SO2浓度、预测日的天气状况和预测日的风速;挑选出对NO2质量浓度影响较大的因子共计21个,排名在前3位的预报因子依次为前2日的NO2浓度、预测日的天气状况和预测日的最低气温;挑选出对O3质量浓度影响较大的因子共计23个,排名在前3位的预报因子依次为前2 d的O3浓度、预测日的天气状况和预测日的最高气温;挑选出对CO质量浓度影响较大的因子共计25个,排名在前3位的预报因子依次为前2 d的CO浓度、前2 d的PM2.5浓度和前2 d的NO2浓度;挑选出对PM10质量浓度影响较大的因子共计24个,排名在前3位的预报因子依次为预测日的天气状况、前2 d的PM10浓度和前2 d的SO2浓度;挑选出对PM2.5质量浓度影响较大的因子共计24个,排名在前3位的预报因子依次为前2 d的PM2.5浓度、前2 d的NO2浓度和预测日的天气状况。

      总的来说,当以某种污染物浓度作为输出变量时,前1 d的该污染物浓度(24 h预报)和前2 d的该污染物浓度(48 h预报)对预报结果的贡献最大;不论是24 h还是48 h预报,预测日的天气状况都是一个不容忽视的预报因子,其重要程度在大部分预报模型中排名第2,但其对CO预报的贡献较小,这可能与诸多的人为排放源有关;星期效应在长沙市空气污染预报中的重要程度较低,因此在选取预报因子时可不予考虑。

    • 利用随机森林算法和支持向量机算法的回归原理建立空气污染物浓度预报模型。将数据集划分为2个部分:训练数据和测试数据,其中训练数据和测试数据又各自包含输入数据和输出数据。选取2014年1月1日至2018年12月31日合适时间段的数据作为训练数据,2019年1月1日至2019年12月31日的数据作为测试数据,以此来构建基于机器学习的空气污染物浓度预报模型。

      (1)调入数据,对数据进行归一化处理。

      (2)从训练数据中选取合适时间段的特征变量采用随机森林算法和支持向量机算法分别训练模型,形成不同预报时效空气污染物浓度预报模型。

      (3)将测试数据中的输入数据输入到已经训练好的预报模型中,输出经模型预报的空气污染物浓度数据。

      (4)反归一化,得到空气污染物浓度预报值的最终结果。

      (5)对模型输出的空气污染物浓度预报结果进行误差检验,评价不同污染过程、不同模型和不同方案下的预报效果。

    • 根据污染类型的不同,可将2019年24 h预报中的测试数据划分为优、良、轻度污染、中度及以上污染4个部分进行讨论,研究在不同的污染类型下基于2种机器学习算法的回归模型对各种污染物浓度的预报效果。

    • 2019年长沙市空气质量为优的天数为117 d,当空气质量为优时,各污染物浓度真实值与预报值随时间的变化,见图2

      SVM表示经支持向量机输出的预报值;SVM+S表示筛选变量优化之后经支持向量机输出的预报值;RF表示经随机森林输出的预报值;RF+S表示筛选变量优化之后经随机森林输出的预报值。图2可知,对于SO2和PM10而言,支持向量机模型的预报值偏低,随机森林模型的预报值偏高,而CO则恰恰相反;对于NO2而言,优化后支持向量机模型的预报值偏低,随机森林模型和优化前支持向量机模型的预报值偏高;对于O3和PM2.5而言,支持向量机模型和随机森林模型的预报值都偏高。

      空气质量为优时各预报模型的均方根误差分布,见表2

      表2可知,变量筛选优化之后的支持向量机模型对SO2、NO2、O3、PM10和PM2.5浓度预报效果最好,预报结果的均方根误差最小;变量筛选优化之后的随机森林模型对CO浓度预报效果最好,预报结果的均方根误差仅为0.063 mg/m3,变量筛选优化之后的支持向量机模型对CO浓度预报效果次之,预报结果的均方根误差为0.065 mg/m3

    • 2019年长沙市空气质量为良的天数为200 d,当空气质量为良时,各污染物浓度真实值与预报值随时间的变化,见图3

      图3可知,对于SO2而言,支持向量机模型的预报值偏低,随机森林模型的预报值偏高,而CO则恰恰相反;对于NO2而言,优化后支持向量机和优化前随机森林模型的预报值偏低,优化前支持向量机和优化后随机森林模型的预报值偏高;对于O3和PM10而言,支持向量机和随机森林模型的预报值都偏低;对于PM2.5而言,优化前的预报值都偏高,而优化后的预报值都偏低。

      空气质量为良时各预报模型的均方根误差分布,见表3

      表3可知,变量筛选优化之后的支持向量机模型对SO2、NO2、O3、PM10和PM2.5浓度预报结果的均方根误差最小;变量筛选优化之后的随机森林模型对CO浓度预报结果的均方根误差最小,其次为变量筛选优化之后的支持向量机模型。

    • 2019年长沙市空气质量为轻度污染的天数为29 d,当空气质量为轻度污染时,各污染物浓度真实值与预报值随时间的变化,见图4对于SO2和而言,支持向量机模型的预报值偏低,随机森林模型的预报值偏高,而CO和PM2.5则恰恰相反;对于NO2而言,优化后支持向量机模型和优化前随机森林模型的预报值偏低,优化前支持向量机模型和优化后随机森林模型的预报值偏高;对于O3而言,优化前的预报值都偏低,而优化后的预报值都偏高;对于PM10而言,除优化前随机森林模型的预报值偏高外,其余模型的预报值都偏低。空气质量为轻度污染时各预报模型的均方根误差分布,见表4

      表4可知,变量筛选优化之后的支持向量机模型对NO2、O3、PM10和PM2.5浓度的预报效果最好;变量筛选优化之后的随机森林模型对CO浓度的预报效果最好;变量筛选优化之前的支持向量机模型对SO2浓度的预报效果最好。

    • 2019年长沙市空气质量为中度及以上污染的天数为19 d,当空气质量为中度及以上污染时,各污染物浓度真实值与预报值随时间的变化,见图5。对于SO2和PM10而言,支持向量机模型的预报值偏低,随机森林模型的预报值偏高,CO反之;对于NO2而言,各模型的预报值都偏高;对于O3而言,除了优化前支持向量机模型的预报值偏高外,其余模型的预报值都偏低;对于PM2.5而言,各模型的预报值都偏低。

      空气质量为中度及以上污染时各预报模型的均方根误差分布,见表5

      变量筛选优化之后的支持向量机模型对SO2、NO2、PM10和PM2.5浓度的预报效果最好;变量筛选优化之后的随机森林模型对O3和CO浓度的预报效果最好。

      不同污染等级下4种方法预报结果均方根误差的均值分布,见表6

      空气质量在优、良、轻度污染时,SO2、NO2、CO、PM10和PM2.5浓度预报结果的均方根误差随着AQI指数的增大而增大,然而到了中度污染及以上时,SO2、NO2和PM10浓度预报结果的均方根误差反而减小,这可能与数据样本量过小有关,由于测试数据中长沙市空气质量为中度及以上污染的天数仅仅只有19 d,远小于其他污染类型的天数,因此带来了偶然性。

    • 基于随机森林和支持向量机2种机器学习算法,分别将随机森林重要性评估法挑选出的预报因子和未经挑选的预报因子作为预报模型的输入变量,对2019年一整年这6种空气污染物的浓度分别进行预报,得到预报结果。2种方案24 h和48 h预报结果的误差评价指标对比,见表7表8,为了便于叙述,将未经预报因子筛选的方案定义为方案A,经过预报因子筛选的方案定义为方案B。

      表7表8可知,在24 h预报中,对于随机森林预报模型而言,除了PM10预报结果的平均绝对误差和均方根误差方案B大于方案A,判定系数和准确率方案B小于方案A以外,其余指标的预报结果均表明方案B优于方案A;对于支持向量机预报模型而言,所有指标的预报结果均表明方案B优于方案A。在48 h预报中,对于随机森林预报模型而言,除了NO2预报结果的均方根误差方案B稍大于方案A,判定系数方案B稍小于方案A以外,其余指标的预报结果均表明方案B优于方案A;对于支持向量机预报模型而言,所有指标的预报结果均表明方案B优于方案A,这与24 h预报中所得到的结论一致。整体而言,经随机森林筛选变量对模型进行优化之后,可有效提高模型的预报性能,提高准确率。

    • 文章基于长沙市2014~2019年的空气污染资料与气象资料,利用随机森林重要性评估的方法对预报因子进行了筛选,结合支持向量机回归模型和随机森林回归模型对6种污染物浓度分别进行了预报。

      (1)在诸多预报因子中,前日的污染物浓度对该污染物预报的贡献最大,其次是预测日的天气状况,长沙市空气质量预报受星期效应的影响较小,在建立预报因子库时可将其忽略。

      (2)AQI指数越高,预报结果的均方根误差越大,且各模型的预报准确率随着预报时效的增加而减小。

      (3)LIBSVM模型在长沙市空气质量预报中较RF模型有更强的泛化能力,预报结果的误差更小,准确率更高,且经随机森林筛选变量对预报模型进行优化可有效提高预报准确率,因此可将随机森林筛选预报因子的支持向量机回归模型推广至长沙市空气质量预报的业务中,可为长沙市空气质量业务化预报提供技术支撑和防控依据。

    参考文献 (25)

目录

/

返回文章
返回