基于机器学习的细粒度空气质量时间预测器

曹鑫磊; 冯锋

doi:10.16803/j.cnki.issn.1004-6216.2020.02.016

基于机器学习的细粒度空气质量时间预测器

宁夏大学信息工程学院，宁夏银川 750021

作者简介: 曹鑫磊（1995 − ），男，硕士研究生。研究方向：信息系统工程。E-mail：caoxinlei888@hotmail.com

通讯作者: 冯　锋（1971 − ），男，博士、教授、硕士生导师。研究方向：信息系统工程、RFID 射频识别及无线传感器网络。E-mail：feng_f@nxu.edu.cn

基金项目:

国家自然科学基金项目（7156102）；宁夏重点研发计划重点项目（2018BFG02003）

中图分类号: X831;TP311.1

Fine-grained Air Quality Time Predictor Based on Machine Learning

Information Engineering Institute, Ningxia University, yinchuan 750021, China

Corresponding author: FENG Feng, feng_f@nxu.edu.cn

摘要: 针对空气质量状况的预防和治理，提出了基于线性回归的空气质量预测方法。作为时间预测器，更多的是考虑本地的历史数据、过去与未来的状况，挖掘空气质量随时间变化的关系以及变化趋势，为了选取最优的特征，对数据进行分析，找到与空气质量变化关系密切且存在线性关系的特征，以此特征来建立线性回归模型，并使用Cross-Validation方法进行评估验证。实验结果表明线性回归方法能够有效地预测到空气质量的变化趋势，效果良好，具有较强的实用性。

Abstract: Aiming at the prevention and treatment of air quality conditions, the air quality prediction method based on linear regression is proposed. As a time predictor, it should consider the local historical data, past and future conditions in more details, and explore the relationship between the air quality and time. In order to select the optimal characteristics, the data is analyzed to find the characteristics that are closely related to the air quality variation and have a linear relationship. The linear regression model is established based on the characteristics, and it is then further evaluated and validated by the Cross-Validation method. The experimental results show that the linear regression method can effectively predict the trend of the air quality. Thus, the proposed method in this paper has a good effect and a strong practicability.

Key words:

基于机器学习的细粒度空气质量时间预测器

通讯作者: 冯　锋（1971 − ），男，博士、教授、硕士生导师。研究方向：信息系统工程、RFID 射频识别及无线传感器网络。E-mail：feng_f@nxu.edu.cn

作者简介: 曹鑫磊（1995 − ），男，硕士研究生。研究方向：信息系统工程。E-mail：caoxinlei888@hotmail.com
宁夏大学信息工程学院，宁夏银川 750021

收稿日期: 2019-07-22

网络出版日期: 2020-06-05

基金项目:

国家自然科学基金项目（7156102）；宁夏重点研发计划重点项目（2018BFG02003）

关键词:

Fine-grained Air Quality Time Predictor Based on Machine Learning

Corresponding author: FENG Feng, feng_f@nxu.edu.cn

Information Engineering Institute, Ningxia University, yinchuan 750021, China

Received Date: 2019-07-22

Available Online: 2020-06-05

Keywords:

全文HTML

长期以来，空气质量状况只能通过气象站点得知，况且空气质量受多种因素影响，所以在预测时不仅要考虑自身周边环境的影响，还要考虑空气质量指数自身的变化、随时间推移的变化趋势。本文对细粒度空气质量的时间预测器进行研究，目的是研究空气质量指数与时间的内在联系，并将其应用到预测中。

何晓飞等^[1]总结了我国学者在机器学习等领域的部分研究成果，其中有很多对优秀的机器学习算法的总结。星敏感器在轨标定算法^[2]结合了机器学习的预测建模思想，使得预测的效果提升较为明显。目前广泛应用的预测算法有随机森林^[3]、回归树^[4]、局部加权线性回归^[5]、岭回归^[6]、前向逐步回归^[7]、高斯混合^[8]以及神经网络^[9]等。吴有训等^[10]采用径向基函数神经网络进行短期的空气质量预测，该方法具有优秀的函数逼近能力和学习速度，但是存在结果收敛速度慢和容易陷入局部极小点等缺陷。

时间预测器是基于线性回归，并通过大数据来挖掘空气质量在气象影响下随时间变化的变化趋势，以相关的特征建立两者之间的线性关系，并使用Hold-out Validation或者Cross-Validation的方法进行验证评估^[11]。此方法简化了预测过程，也提高了预测的准确性。

3. 结论

为了实现对空气质量的预测，在选定的主要特征条件下，对空气质量变化做进一步研究，经过Cross-Validation方法、准确率函数score并将误差考虑在内，对线性回归方法进行评估验证，预测结果能够达到应用的标准。因此，空气质量由温度、湿度和风速这3个主要特征共同影响，为空气治理与预防提供了参考，具有现实意义。水源如同大气一样也是我们赖以生存的条件，借此方法，还可以选定水质的预测特征，对水质在未来的变化趋势做一个预测，为水质的预防和治理提供参考。

参考文献 (15)

[1]	何晓飞, 郭茂祖, 张敏灵. 大数据时代的机器学习研究专刊前言[J]. 软件报, 2015, 26(11): 2749 − 2751.
[2]	刘源, 谢睿达, 赵琳, 等. 基于机器学习的大视场星敏感器畸变在轨标定技术[J]. 红外与激光工程, 2016, 45(12): 282 − 290.
[3]	杨思琪, 赵丽华. 随机森林算法在城市空气质量预测中的应用[J]. 统计与决策, 2017(20): 83 − 86.
[4]	沈夏炯, 张俊涛, 韩道军. 基于梯度提升回归树的短时交通流预测模型[J]. 计算机科学, 2018, 45(6): 222 − 227, 264. doi: 10.11896/j.issn.1002-137X.2018.06.040
[5]	卢月明, 王亮, 仇阿根, 等. 局部加权线性回归模型的PM_2.5空间插值方法[J]. 测绘科学, 2018, 43(11): 79 − 84, 91.
[6]	杨楠. 岭回归分析在解决多重共线性问题中的独特作用[J]. 统计与决策, 2004(3): 14 − 15. doi: 10.3969/j.issn.1002-6487.2004.03.007
[7]	张维刚, 廖兴涛, 钟志华. 基于逐步回归模型的汽车碰撞安全性多目标优化[J]. 机械工程学报, 2007, 43(8): 142 − 147. doi: 10.3321/j.issn:0577-6686.2007.08.025
[8]	乔少杰, 金琨, 韩楠, 等. 一种基于高斯混合模型的轨迹预测算法[J]. 软件学报, 2015, 26(5): 1048 − 1063.
[9]	刘豹, 胡代平. 神经网络在预测中的一些应用研究[J]. 系统工程学报, 1999, 14(4): 338 − 344. doi: 10.3969/j.issn.1000-5781.1999.04.008
[10]	吴有训, 彭慕平, 刘勇. 基于径向基函数网络的宣城市空气质量预测[J]. 安徽师范大学学报(自然科学版), 2011, 34(4): 374 − 379.
[11]	杨柳, 王钰. 泛化误差的各种交叉验证估计方法综述[J]. 计算机应用研究, 2015, 32(5): 1287 − 1290, 1297. doi: 10.3969/j.issn.1001-3695.2015.05.002
[12]	冷建飞, 高旭, 朱嘉平. 多元线性回归统计预测模型的应用[J]. 统计与决策, 2016(7): 82 − 85.
[13]	刘颖超, 张纪元. 梯度下降法[J]. 南京理工大学学报(自然科学版), 1993(2): 12 − 16, 22.
[14]	吴晓婷, 闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究, 2009, 26(8): 2832 − 2835. doi: 10.3969/j.issn.1001-3695.2009.08.008
[15]	ALIPPI C, ROVERI M. Virtual k-fold cross validation: An effective method for accuracy assessment[P/OL]. Neural Networks (IJCNN), The 2010 International Joint Conference on, 2010. https://ieeexplore.ieee.org/document/5596899.