基于集成学习算法的PM2.5浓度值预测

孔宇, 王海起, 张浩然, 夏可. 基于集成学习算法的PM2.5浓度值预测[J]. 环境保护科学, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
引用本文: 孔宇, 王海起, 张浩然, 夏可. 基于集成学习算法的PM2.5浓度值预测[J]. 环境保护科学, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
KONG Yu, WANG Haiqi, ZHANG Haoran, XIA Ke. Prediction of PM2.5 concentration based on integrated learning algorithm[J]. Environmental Protection Science, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
Citation: KONG Yu, WANG Haiqi, ZHANG Haoran, XIA Ke. Prediction of PM2.5 concentration based on integrated learning algorithm[J]. Environmental Protection Science, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003

基于集成学习算法的PM2.5浓度值预测

    作者简介: 孔 宇(1994-),女,硕士研究生。研究方向:GIS与机器学习。E-mail:976870421@qq.com
    通讯作者: 王海起(1972-),男,博士、副教授。研究方向:时空、大数据挖掘算法与应用。E-mail:wanghaiqi@upc.edu.cn
  • 基金项目:
    国家自然科学基金资助项目(41471322)
  • 中图分类号: X831; TP399

Prediction of PM2.5 concentration based on integrated learning algorithm

    Corresponding author: WANG Haiqi, wanghaiqi@upc.edu.cn
  • 摘要: 文章分析了PM2.5浓度与其他污染颗粒物及气象因素的相关性,构建出模型的输入特征,基于集成学习算法,选择随机森林(RF)和梯度提升树(GBDT)算法,分别建立PM2.5未来7日浓度预测模型。随机选取2个监测站点的数据用于研究和评估模型。结果表明,与单一回归模型相比,集成学习算法能够较好地捕捉PM2.5浓度与各输入变量间的非线性关系,RF和GBDT模型能够在未来多日PM2.5浓度的预测中表现较好,预测结果较符合PM2.5真实趋势。
  • 加载中
  • 图 1  第二日PM2.5与其他污染物浓度值散点图

    图 2  集成学习示意图

    图 3  PM2.5日均浓度年变化趋势

    图 4  不同季节与PM2.5浓度关系箱线图

    图 5  预测值与真实值对比情况

    表 1  PM2.5浓度值分级标准

    cPM2.5/μg·m−3空气质量指数类别级别
    0~50一级
    50~100二级
    100~150轻度污染三级
    150~200中度污染四级
    200~300重度污染五级
    ≥300严重污染六级
    cPM2.5/μg·m−3空气质量指数类别级别
    0~50一级
    50~100二级
    100~150轻度污染三级
    150~200中度污染四级
    200~300重度污染五级
    ≥300严重污染六级
    下载: 导出CSV

    表 2  部分气象因素描述性统计结果

    指标小型蒸发量
    /0.1 mm
    平均地表气温
    /0.1 ℃
    24小时累计
    降水量/0.1 mm
    平均本站气压
    /0.1 hPa
    平均相对湿度
    /%
    日照时数
    /0.1 h
    平均气温
    /0.1 ℃
    平均风速
    /m·s−1
    计数6 371.006 371.006 371.006 371.006 371.006 371.006 371.006 371.00
    平均37 361.66212.2915.9710 111.75113.1259.09183.6178.09
    标准差166 402.981 211.6168.16844.761 210.3038.151 211.221 211.57
    最小值3.00−48.0009 793.0029.000−80.009.00
    25%25.0068.25010 004.0056.0026.2560.0024.00
    50%37.00175.00010 082.0068.0066.00146.0031.00
    75%32 766.00266.00010 152.0083.0090.00222.0040.00
    最大值32 766.00394.00999 990.0010 323.0097.00130.00305.0085.00
    指标小型蒸发量
    /0.1 mm
    平均地表气温
    /0.1 ℃
    24小时累计
    降水量/0.1 mm
    平均本站气压
    /0.1 hPa
    平均相对湿度
    /%
    日照时数
    /0.1 h
    平均气温
    /0.1 ℃
    平均风速
    /m·s−1
    计数6 371.006 371.006 371.006 371.006 371.006 371.006 371.006 371.00
    平均37 361.66212.2915.9710 111.75113.1259.09183.6178.09
    标准差166 402.981 211.6168.16844.761 210.3038.151 211.221 211.57
    最小值3.00−48.0009 793.0029.000−80.009.00
    25%25.0068.25010 004.0056.0026.2560.0024.00
    50%37.00175.00010 082.0068.0066.00146.0031.00
    75%32 766.00266.00010 152.0083.0090.00222.0040.00
    最大值32 766.00394.00999 990.0010 323.0097.00130.00305.0085.00
    下载: 导出CSV

    表 3  影响因素相关性分析

    影响因素相关系数(r)
    PM2.5_24 h0.70
    CO_24 h0.57
    PM10_24 h0.57
    NO2_24 h0.51
    SO2_24 h0.41
    平均本站气压0.34
    日照时数−0.10
    累计降水量−0.11
    最小相对湿度−0.12
    O3_24 h−0.15
    平均风速−0.17
    O3_8h_24 h−0.19
    大型蒸发量−0.41
    平均气温−0.43
    平均地表气温−0.45
    影响因素相关系数(r)
    PM2.5_24 h0.70
    CO_24 h0.57
    PM10_24 h0.57
    NO2_24 h0.51
    SO2_24 h0.41
    平均本站气压0.34
    日照时数−0.10
    累计降水量−0.11
    最小相对湿度−0.12
    O3_24 h−0.15
    平均风速−0.17
    O3_8h_24 h−0.19
    大型蒸发量−0.41
    平均气温−0.43
    平均地表气温−0.45
    下载: 导出CSV

    表 4  各模型预测结果精度评价

    监测站点模型R2MAERMSE
    四方区子站LR0.8316.4823.95
    DT0.838.2414.67
    GBDT0.945.918.77
    RF0.935.589.17
    仰口LR0.8212.3117.50
    DT0.6110.5516.64
    GBDT0.836.8110.35
    RF0.836.6710.30
    监测站点模型R2MAERMSE
    四方区子站LR0.8316.4823.95
    DT0.838.2414.67
    GBDT0.945.918.77
    RF0.935.589.17
    仰口LR0.8212.3117.50
    DT0.6110.5516.64
    GBDT0.836.8110.35
    RF0.836.6710.30
    下载: 导出CSV

    表 5  RF、GBDT模型精度评价

    监测站点tRFGBDT
    R2RMSEMAER2RMSEMAE
    四方区子站第3日0.93 9.545.880.9210.076.86
    第4日0.93 9.856.000.9210.206.98
    第5日0.9210.506.340.9110.777.03
    第6日0.9210.726.420.9110.677.06
    第7日0.9110.906.450.9210.196.79
    仰口第3日0.8110.917.230.8011.257.67
    第4日0.7712.247.780.7412.958.30
    第5日0.7811.827.900.7712.228.26
    第6日0.7712.348.120.7512.688.50
    第7日0.7313.388.350.7413.148.73
    监测站点tRFGBDT
    R2RMSEMAER2RMSEMAE
    四方区子站第3日0.93 9.545.880.9210.076.86
    第4日0.93 9.856.000.9210.206.98
    第5日0.9210.506.340.9110.777.03
    第6日0.9210.726.420.9110.677.06
    第7日0.9110.906.450.9210.196.79
    仰口第3日0.8110.917.230.8011.257.67
    第4日0.7712.247.780.7412.958.30
    第5日0.7811.827.900.7712.228.26
    第6日0.7712.348.120.7512.688.50
    第7日0.7313.388.350.7413.148.73
    下载: 导出CSV
  • [1] 程春英, 尹学博. 雾霾之PM2.5的来源、成分、形成及危害[J]. 大学化学, 2014, 29(5): 1 − 6.
    [2] 李颖, 巩世钰. 基于文献计量的PM2.5研究热点及趋势分析[J]. 辽宁师范大学学报(自然科学版), 2020, 43(1): 111 − 118.
    [3] 曲悦, 钱旭, 宋洪庆, 等. 基于机器学习的北京市PM2.5浓度预测模型及模拟分析[J]. 工程科学学报, 2019, 41(3): 401 − 407.
    [4] 任才溶, 谢刚. 基于随机森林和气象参数的PM2.5浓度等级预测[J]. 计算机工程与应用, 2019, 55(2): 213 − 220. doi: 10.3778/j.issn.1002-8331.1709-0378
    [5] 戴李杰, 张长江, 马雷鸣. 基于机器学习的PM2.5短期浓度动态预报模型[J]. 计算机应用, 2017, 37(11): 3057 − 3063.
    [6] 刘杰, 杨鹏, 吕文生, 等. 基于气象因素的PM2.5质量浓度预测模型[J]. 山东大学学报(工学版), 2015, 45(6): 76 − 83. doi: 10.6040/j.issn.1672-3961.0.2014.214
    [7] LIU H X, LI Q, YU D B, et al. Air quality index and air pollutant concentration prediction based on machine learning algorithms[J]. Applied Sciences, 2019, 9(19): 4069. doi: 10.3390/app9194069
    [8] 李栋, 惠锋, 张文宇, 等. 基于混合模型的PM2.5日浓度预测[J]. 统计与决策, 2019(5): 92 − 96.
    [9] HU X F, BELLE J H, MENG X, et al. Estimating PM2.5 concentrations in the conterminous united states using the random forest approach[J]. Environmental Science & Technology, 2017, 51(12): 6936.
    [10] 杨云, 付彦丽. 关于空气中PM2.5质量浓度预测研究[J]. 计算机仿真, 2016, 33(3): 413 − 418. doi: 10.3969/j.issn.1006-9348.2016.03.092
    [11] LEE M, LIN L, CHEN C Y, et al. Forecasting air quality in Taiwan by using machine learning[J]. Entific Reports, 2020, 10(1): 1 − 13.
    [12] SONG Z, DENG Q L, REN Z G. Correlation and principal component regression analysis for studying air quality and meteorological elements in Wuhan, China[J]. Environmental Progress & Sustainable Energy, Inc, 2020, 39(1): . 13278.
    [13] PAK U, MA J, RYU U, et al. Deep learning-based PM2.5 prediction considering the spatiotemporal correlations: A case study of Beijing, China[J]. Ence of the Total Environment, 2019, 699: 133561.
    [14] 宋飞扬, 铁治欣, 黄泽华, 等. 基于KNN-LSTM的PM2.5浓度预测模型[J]. 计算机系统应用, 2020, 29(7): 193 − 198.
    [15] 黄婕, 张丰, 杜震洪, 等. 基于RNN-CNN集成深度学习模型的PM2.5小时浓度预测[J]. 浙江大学学报: 理学版, 2019, 46(3): 370 − 379.
    [16] 惠洪宽, 王敏, 潘晓杰. 青岛市大气颗粒物PM2.5污染特征动态分析[J]. 科学与管理, 2018, 38(2): 70 − 77.
    [17] 侯勇, 郑雪峰. 集成学习算法的研究与应用[J]. 计算机工程与应用, 2012, 48(34): 17 − 22.
    [18] 彭岩, 赵梓如, 吴婷娴, 等. 基于集成学习的PM2.5浓度预测与影响因素分析[J]. 北京邮电大学学报, 2019, 42(6): 162 − 169.
    [19] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5 − 32. doi: 10.1023/A:1010933404324
    [20] 杨思琪, 赵丽华. 随机森林算法在城市空气质量预测中的应用[J]. 统计与决策, 2017(20): 83 − 86.
    [21] 蔡畅, 黄亦翔, 邢宏文. 基于梯度提升树的飞机机身对接状态识别[J]. 浙江大学学报(工学版), 2019, 53(7): 1274 − 1281. doi: 10.3785/j.issn.1008-973X.2019.07.005
    [22] 朱亚杰, 李琦, 侯俊雄, 等. 基于支持向量回归的PM2.5浓度实时预报[J]. 测绘科学, 2016, 41(1): 12 − 17+22.
    [23] 郭飞, 谢立勇. 基于气象因素和改进支持向量机的空气质量指数预测[J]. 环境工程, 2017, 35(10): 151 − 155.
    [24] 万永权, 徐方勤, 燕彩蓉, 等. 融合气象参数及污染物浓度的空气质量预测方法[J]. 计算机应用与软件, 2018, 35(8): 113 − 117.
  • 加载中
图( 5) 表( 5)
计量
  • 文章访问数:  3610
  • HTML全文浏览数:  3610
  • PDF下载数:  60
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-06-24
  • 刊出日期:  2021-08-20
孔宇, 王海起, 张浩然, 夏可. 基于集成学习算法的PM2.5浓度值预测[J]. 环境保护科学, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
引用本文: 孔宇, 王海起, 张浩然, 夏可. 基于集成学习算法的PM2.5浓度值预测[J]. 环境保护科学, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
KONG Yu, WANG Haiqi, ZHANG Haoran, XIA Ke. Prediction of PM2.5 concentration based on integrated learning algorithm[J]. Environmental Protection Science, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003
Citation: KONG Yu, WANG Haiqi, ZHANG Haoran, XIA Ke. Prediction of PM2.5 concentration based on integrated learning algorithm[J]. Environmental Protection Science, 2021, 47(4): 17-23. doi: 10.16803/j.cnki.issn.1004-6216.2021.04.003

基于集成学习算法的PM2.5浓度值预测

    通讯作者: 王海起(1972-),男,博士、副教授。研究方向:时空、大数据挖掘算法与应用。E-mail:wanghaiqi@upc.edu.cn
    作者简介: 孔 宇(1994-),女,硕士研究生。研究方向:GIS与机器学习。E-mail:976870421@qq.com
  • 1. 中国石油大学(华东)海洋与空间信息学院,山东 青岛 266580
  • 2. 安徽理工大学测绘学院,安徽 淮南 232001
基金项目:
国家自然科学基金资助项目(41471322)

摘要: 文章分析了PM2.5浓度与其他污染颗粒物及气象因素的相关性,构建出模型的输入特征,基于集成学习算法,选择随机森林(RF)和梯度提升树(GBDT)算法,分别建立PM2.5未来7日浓度预测模型。随机选取2个监测站点的数据用于研究和评估模型。结果表明,与单一回归模型相比,集成学习算法能够较好地捕捉PM2.5浓度与各输入变量间的非线性关系,RF和GBDT模型能够在未来多日PM2.5浓度的预测中表现较好,预测结果较符合PM2.5真实趋势。

English Abstract

  • 随着我国工业化的发展,空气污染等问题日益加剧,其中雾霾造成的危害最为严重。PM2.5浓度是衡量雾霾的一项重要性指标,它是一种直径小于等于2.5 μg的颗粒物,浓度值越大代表空气污染越严重,富含大量的有害物质,能够长期悬浮在空气中,影响空气环境质量和威胁着人们的身体健康[1];其能够导致大气能见度的降低,影响着人们的出行安全,PM2.5浓度的增加还会引起呼吸道疾病,且有研究表明PM2.5与心血管损伤有关,对人体血管内皮细胞产生不良影响。以Web of Science和CNKI 为数据源、PM2.5为关键词,发现国内外的相关文献呈大幅度上升趋势,PM2.5污染问题已逐渐成为研究热点[2]

    近年来,机器学习算法的应用领域越来越广泛,很多学者开始使用机器学习算法来预测空气质量且取得较好的研究成果[3-6];LIU et al[7]用SVR建立空气质量指数(AQI)回归预测模型,研究发现将机器学习与空气质量预测相结合是解决一些环境问题的一种高效、方便的方法;李栋等[8]提出一种基于相关分析、自回归分布滞后模型(ARDL)、果蝇优化算法(FFOA)、核极限学习机(ELM)的PM2.5日浓度回归预测混合模型,并应用在关中地区5个城市,且拟合优度达到0.95;HU et al[9]基于随机森林算法使用气象数据、AOD数据和土地利用因素建立模型,在预测24 h内PM2.5浓度值取得了较好的效果;杨云等[10]采用遗传算法对BP神经网络进行优化建立PM2.5小时浓度预测,结果发现所提出模型优于BP神经网络;LEE et al[11]提出了一种基于梯度提升方法,使用历史污染物及气象数据预测第2日空气质量AQI,结果发现此方法取得显著成果;SONG et al[12]探讨了气象要素与AQI之间的关系,建立了武汉市AQI预报模型,模型能有效预测每日AQI,并发现武汉市AQI夏季低,冬季高;PAK et al[13]提出一种时空卷积神经网络(CNN)和长短期记忆(LSTM)模型建立了北京市第二日PM2.5浓度值预测模型,所提出的方法考虑了空间关系;宋飞扬等[14]把KNN与LSTM算法相结合,所构建的模型考虑了时空特征,相对于LSTM模型误差有所降低;黄婕等[15]采取Stacking集成策略将循环神经网络RNN与卷积神经网络CNN相结合,该模型能够用于大范围区域PM2.5小时浓度预测。

    前人使用机器学习算法预测PM2.5浓度取得了较好成果,但大多是小时级或下一日PM2.5浓度预测,能够对空气质量连续多日预测的研究较少。本文以青岛市主城区为研究对象,基于集成学习算法利用分析处理后的历史气象因素和污染物浓度数据,选择随机森林(RF)和梯度提升树(GBDT)算法分别构建PM2.5浓度未来7日监测预报模型,最后使用决定系数R2、RMSE和MAE评估回归模型的性能,探讨在小样本条件下PM2.5浓度有效预测方法,以期为人类出行方式、政府决策等提供理论和方法支撑。

  • 研究区域青岛市位于山东半岛南部,别称“琴岛”、“岛城”,位于35°35′~37°09′N、119°30′~121°00′E,东、南濒临黄海,是我国重要的沿海城市,地势东高西低,中间低凹,南北两侧隆起;地处于北温带季风区域属于温带季风气候,由于受到来自海洋面上的东南季风的影响,又具有显著的海洋性气候特征[16];青岛市多海雾发生,水汽充足,为生成污染颗粒物创造了条件,且城市取暖和工业发展都以煤炭为主,也造成了大气中大量颗粒物的产生。

  • 本研究使用的数据为青岛市主城区2017年1月1日至2019年12月31日9个空气质量国控监测站点的日均浓度数据,监测站点的站名分别为李沧区子站、城阳区子站、市北区子站、市南区东部子站、市南区西部子站、黄岛区子站、崂山区子站、四方区子站和仰口,数据来自青悦开放环境数据中心(http://data.epmap.org/);数据中包括PM 2.5_24 h(PM2.5颗粒物24 h滑动平均)、SO2_24 h(二氧化硫24 h滑动平均)、CO_24 h(一氧化碳24h滑动平均)、NO2_24 h(二氧化氮24 h滑动平均)、O3_24 h(臭氧日最大1 h平均)、O3_8h_24h(臭氧日最大8 h滑动平均)和PM10 24 h(颗粒物PM10的24 h滑动平均)7个指标。历史气象数据来自中国气象网(http://www.cma.gov.cn/),提取出青岛市与空气质量数据相同时间段的气象条件数据,包括湿度、日照时数、气温、风速、蒸发量、地表气温、降水量和气压8个气象因子,其中如地表气温包括日最高气温、日最低气温和平均气温3个变量因素,8个气象因子共22个变量因素。根据PM2.5检测网新标准,24 h平均值标准划分,见表1

  • 获取的原始数据存在部分缺失及具有特殊意义的数值,污染物浓度数据集中的空缺值选择前后两日无缺失数据的均值进行填充,见图1

    图1可知,SO2_24 h及O3_24 h数据中存在个别异常点,删除样本中包含SO2_24 h>70及O3_24 h中>350的数据;在城市中心区域的每日空气质量基本不可能出现0污染的情况,PM2.5浓度值为“0”可判断为异常监测数据,选择删除PM2.5为0的数据。描述性统计信息可以直观的展现数据的总体分布情况及发现数据中的异常,检查数据是否符合实际情况满足分析的要求,从而对数据进行相应的处理与分析。

    对气象因素进行描述性统计,部分气象变量因素的描述性统计特征结果,见表2

    表2可知,数据中存在异常值,分析发现在气象因素中,数值‘32 766.00’表示数据缺测,选择与污染物浓度相同的缺失值填充方式;降水量中包含数值‘32 700.00’及‘999 990.00’表示降水“微量”的情况,选择数值‘0’进行替换;选取历史污染物浓度与气象数据共29个变量作为模型的输入变量x,预测日期污染物PM2.5浓度数据作为模型输出变量y。处理后的数据样本量共5 836条,为验证模型的精度,将数据集划分为2个部分,选取前7个监测站点4 532条数据训练模型,四方区子站、仰口2个监测站点共1 304条数据作为模型的验证集。

  • 对单个基学习器来讲,通常具有一定局限性,模型的学习能力相对较弱;集成学习是一种整合多个基学习器的学习结果,从而得到一个预测效果更好的机器学习算法,能够提高模型分类或回归的准确率[17],模型表现的也更稳定,见图2;常见的2种集成学习算法:基于Boosting和基于Bagging的算法[18]。基于Boosting的算法主要为梯度提升决策树(GBDT,Gradient boosting decision tree)等,基于Bagging的算法有随机森林(RF,Random forest)。

  • 随机森林算法(RF)最早由BREIMAN[19]提出,是一个包含了多个决策树的学习器,能够处理高维数据且不用进行特征选择,具有学习速度快、不易过拟合、泛化能力强等特点;随机森林回归(RFR)是基于多个回归树模型$\{ T(x,{\theta _m}),m = 1,2,......d\}$构成的组合回归模型[19],模型的预测结果为多个树模型的均值,相对于其他算法有较高的优势,对数据特征的学习能力较强,算法的主要步骤为:

    (1)原始数据集记为$D = \left\{ {{x_{i1}},{x_{i2}}, \ldots \ldots ,{x_{in}},{y_i}} \right\}$$(i \in [1,n]) $,采用有放回抽样Bagging方法从数据集D中随机抽样,得到$d$个子样本集${D_i}(i = 1,2,......d)$

    (2)构建基学习器(决策回归树):对每一个抽样${D_i} = \left\{ {{x_{i1}},{x_{i2}},......{x_{id}},{y_i}} \right\}\left( {i \in [1,n]} \right)$样本集分别建立回归模型$\left\{ {T(x,{\theta _m}),m = 1,2,......d} \right\}$,其中自变量矩阵x用来建模,设参数集$\left\{ {{\theta _m}} \right\}$独立同分布,记录每一棵树的结果$T\left( {x,\theta } \right)$

    (3)训练$d$次后得到决策回归树模型$\{ T\left( {x,{\theta _1}} \right),$$T\left( {x,{\theta _2}} \right),......,T\left( {x,{\theta _d}} \right)\} $,对于新给定的样本,RFR模型预测结果,见式(1)。

  • 梯度提升决策树(GBDT)算法以决策树为基函数,它的泛化能力强、预测能力快,能很好解决过拟合问题,为解决一般损失函数优化问题,提升方法采用加法模型及前向分布算法[20-21],见式(2)。

    式(2)中,$T\left( {x;{\theta _m}} \right)$为决策树;${\theta _m}$决策树参数;M为树的个数。

    提升树使用前向分算法,首先使${f_0}\left( x \right) = 0$;第m步的模型,见式(3)。

    需最小化求解参数θ,第m颗树的参数θ,见式(4)。

    当采用平方误差损失函数时,见式(5)。

    式(5)中,$r = y - {f_{m - 1}}\left( x \right)$为当前模型残差,每次模型采用的数据都是此残差,这个残差会逐渐减小。

    算法的流程如下:

    (1)初始化${f_0}(x) = 0$

    (2)对于$m = 1,2,3, \cdots ,M$:

    ①计算残差 ${r_{mi}} = {y_i} - {f_{m - 1}}\left( {{x_i}} \right), \cdots i = 1,2, \cdots ,N$

    ②拟合残差${r_{mi}}$学习一颗回归树$T\left( {x;{\theta _m}} \right)$

    ③更新${f_m} = {f_{m - 1}}\left( {{x_i}} \right) + T\left( {x;{\theta _m}} \right)$

    (3)得到回归提升树${f_M}(x) = \sum\limits_{m = 1}^M {T\left( {x;{\theta _m}} \right)} $

  • 空气污染物和部分气象因素与第二日PM2.5浓度的Pearson相关系数,见表3

    其中,第二日PM2.5值与前一日PM2.5值相关性较大为0.70,这是由于大气的污染具有延迟性,相邻两日的PM2.5浓度相似;与其具有正相关性的其他空气污染物按照强弱顺序依次是CO、PM10、NO2和SO2,O3与PM2.5成负相关性,即当CO、PM10、NO2和SO2升高时,PM2.5浓度也会随之升高,O3的升高会伴随着PM2.5的下降。气象因素与大气颗粒物存在着密切联系[22-24],相关系数表明气象因素中除气压外,其他因素与PM2.5均为负相关,例如降雨会冲刷空中漂浮的风尘,因此可以改善空气质量;风向能够影响PM2.5颗粒物的扩散、聚集,青岛市冬季风向多为北风、西北风,将其他地区如京津冀地区和山东省西部城市的空气中的污染颗粒物带到青岛市,导致了冬季青岛市PM2.5浓度的增高,夏季风向多为南风、东南风,海风带来清洁空气使青岛市内部的污染物浓度降低。青岛市主城区9个空气质量监测站点PM2.5日均浓度年变化趋势,见图3

    图3可知,空气质量监测站在时间上有相同的变化趋势;PM2.5浓度值在12月、1月和2月份浓度值较其他月份有很大的增高趋势,尤其1月份为全年PM2.5浓度最高月份,部分日期中PM2.5浓度值>150 μg/m3,空气质量等级为中度污染,出现此状况的主要原因之一与冬季城区由于供暖进而增加了污染物排放量有关。PM2.5浓度在6、7和8月份浓度值最低,位于0~50 μg/m3之间,空气质量等级为优,适合户外活动呼吸新鲜空气。春秋季节PM2.5浓度值在50 μg/m3上下波动,空气质量等级基本为优和良,研究站点在研究日期中未出现浓度值>50 μg/m3严重污染的情况。将日期转化为四季类别数据,对于分类后的季节类型数据,箱线图直观表明了PM2.5浓度值在4个类别上的总体分布情况,见图4

    图4可知,冬季PM2.5浓度相对较高,夏季PM2.5浓度最低;由此可以看出青岛市PM2.5浓度值的变化受到季节的影响,因此把季节因素作为特征变量添加到输入变量x中以提高模型精度,

  • 为了充分验证模型的精度,样本数据分为训练集和验证集,7个空气质量监测站点的数据作为训练集,2个空气质量监测站的数据用来验证模型的精度,分别构建未来7日的PM2.5浓度预测模型,具体步骤为:(1)将训练集中特征矩阵x和第二日PM2.5浓度值y分别作为模型输入和输出训练模型,用训练好的模型预测第二日的PM2.5浓度;(2)把预测的第二日PM2.5浓度添加到特征矩阵x中,构建预测第3日的PM2.5浓度,依次分别建立未来7日的PM2.5浓度预测模型。为验证集成学习算法的优越性,选取线性回归(LR,Linear regression)和决策树(DT,Decision tree)与梯度提升树(GBDT)、随机森林(RF)算法对验证集的预测结果进行对比。选取决定系数(R2)、MAE(平均绝对误差)和均方根误差(RMSE)对模型精度进行评价,各模型在验证集上对第二日PM2.5预测值的评价结果,见表4

    表4可知,LR模型在验证站点上的拟合精度R2分别为0.83和0.82,RMSE和MAE相对较大;DT算法的拟合精度R2分别为0.83和0.61,RMSE和MAE均小于LR模型结果;基于集成学习算法的RF及GBDT算法要明显优于DT和LR模型,RF拟合精度R2分别为0.93和0.83,GBDT拟合精度分别为0.94和0.83,两种算法的MAE及RMSE大大降低。

    2个验证站点在4种模型上的预测结果与真实值的对比,见图5

    图5可知,LR模型预测误差最大,在极值处预测效果较差,DT模型在浓度值较高时预测精度最低,GBDT和RF算法具有更高的准确性符合站点PM2.5浓度的真实趋势,在极值点的预测效果也较好,选择GBDT和RF算法分别建立未来7日浓度预测模型。

    RF和GBDT模型对未来7日PM2.5浓度预测结果,见表5

    表5可知,集成学习算法RF和GBDT具有相似的预测精度,均能够有效预测青岛市监测站点所在位置7日内的PM2.5浓度值,预测结果拟合精度高、误差小、训练结果稳定。随着预测日期跨度的增加预测精度有所下降,上一日的预测误差会影响到下一日的预测上,四方区子站对未来7日预测结果精度较高,拟合精度均>0.90,在仰口站点上的预测精度相对小于四方区子站精度,但第7日的预测结果R2也>0.70;今后将继续探讨所建立模型在不同地域中的实现应用,为大气污染动态监测提供理论和方法支持。

  • 针对空气中PM2.5浓度值预测问题,本研究考虑了气象因素和其他空气污染物与PM2.5浓度的关系,对历史数据集进行分析及处理,以青岛市区为研究对象,建立了基于集成学习算法的PM2.5浓度预测模型,并选择单一模型作为对比模型,得出以下结论。

    (1)模型输入变量的选择影响着模型的预测结果,数据的预处理能够提高模型预测的准确率,其中CO、PM10、NO2和SO2与PM2.5成正相关,O3与PM2.5成负相关;气象因素与PM2.5也存在着紧密联系,除气压外其他因素日照时数、气温、风速、蒸发量、地表气温、湿度和降水量与PM2.5浓度均成负相关;季节的变化影响着PM2.5浓度的变化,冬季的PM2.5浓度较高,夏季较低。

    (2)相比单一回归模型,集成学习算法合并了多个基模型的预测结果,训练结果更稳定,泛化能力较强,能够较好地捕捉各输入变量与PM2.5浓度间的非线性关系。对比第二日各模型预测精度,线性回归LR具有最大误差,决策树DT预测结果不够稳定,随机森林RF和梯度提升树GBDT的拟合优度高,误差小,预测结果较准确。

    (3)RF和GBDT对未来7日的PM2.5浓度均值预测均取得较好的成果,能够较准确的预测未来PM2.5日均浓度变化趋势;预测误差存在累积性,预测精度会随着时间跨度的增大而降低,上一日的预测误差会影响到下一日的预测结果。

参考文献 (24)

返回顶部

目录

/

返回文章
返回