-
水溶性类腐殖质(water-soluble humic-like substances, HULISWS)是大气中一类危害人体健康的有机组分,其来源十分复杂[1 − 2]. 随着减排力度的不断加大,如何更加有效地减少大气中有毒有害组分成为了下一阶段减排的主要工作. 因不同来源的HULISWS具有不同的氧化能力和暴露风险,对HULISWS的健康指标进行源解析可以指导精准污染减排工作[3 − 4]. 氧化潜势(oxygen potential, OP)被定义为消耗抗氧化剂的能力,已被广泛应用于气溶胶对人体健康效应的评估[5 − 6]. 此前已有一些研究使用正定矩阵因子分解模型(positive-definite matrix factorization model, PMF)对OP进行源解析[3 − 5],使用排放源将OP值与示踪物质浓度的矩阵分解为g和f两个子矩阵,并使用最小二乘法最小化g和f矩阵元素的误差函数以得到最佳源解析结果. 此前,Ma等[3 − 4]使用PMF对北京和香港大气HULISWS中OP的源解析结果表明,生物质燃烧是HULISWS中OP的最主要贡献源.
尽管PMF模型已被广泛用于大气颗粒物浓度的来源解析,但忽视OP与物质浓度的非线性关系可能会导致较大的残差项. Weber等[7]的结果表明,在OP数值相近时,使用线性拟合工具可以较好的拟合出OP与来源的关系;当OP分布范围较大时,线性拟合方法会造成较大的误差. 而使用分段式线性拟合方法,依据样本OP值进行先分组再源解析,会大大增加所需样品数量. 此外,不同模型之间本身的差异性也会导致源解析结果会存在较大偏差. 随机森林(random forest, RF)算法作为一种可以拟合多元非线性关系的机器学习(machine learning, ML)方法,可以较好的反应非线性关系. 此前,Hong等[8]使用RF模型拟合了HULISWS来源与光学参数的非线性函数关系;Granger等[9]则拟合了不同粒径下颗粒物来源与OP的非线性函数关系. 其结果均表明,生物质燃烧是大气污染物中对光学参数和OP的主要来源.
尽管ML在较大的样本数据集中应用的非常成功,但在小样本领域往往结果较差. 此前计算机领域研究者提出了多种小样本学习(Few-shot Learning, FSL)方法,包括数据增强、减少假设空间和算法开发等[10]. 在大气化学领域,研究主要集中在较大样本数据集(如长时间观测数据[9]等)的ML模型拟合工作,尚未有专门针对一些关键化学组分、毒理或病理等数据集等较小样本进行拟合的报道. 考虑RF算法在拟合RF模型中的每一棵决策树时,均使用随机抽样方法从训练集中随机抽样来组成实际训练集[11]. 较大的样本数量可以保证数据矩阵中的每一个特征值都能被拟合模型充分学习,而小样本的随机抽样常常会在集中在样本数量较大的某几个特征值上,进而导致模型泛化能力较差. 因而,使得模型能够更多关注于一些本来样本数量较少的特征变量可能是解决大气化学领域FSL的一个可行方法. 基于此,本文设计并验证了一种通过简单数据增强的FSL方法,驱动并验证了所拟合RF模型的有效性. 随后,针对HULISWS污染较为严重的东北地区,选取秋冬换季OP变化较大时期的39个样本数据,首先使用PMF模型解析HULISWS浓度的来源,并作为输入项应用FSL驱动的RF算法(FSL-RF)拟合各时期HULISWS来源与其OP的非线性模型. 通过对比多元线性回归(multiple linear regression, MLR)与FSL-RF模拟结果,表明FSL-RF可以学习更为复杂的关系. 最后使用置换变量重要性定量了各污染来源的相对贡献[8 − 9]. 本文详细报道了FSL-RF量化大气HULISWS中OP来源的方法和原理,以期为重点污染物减排提供相应支撑工作.
-
本文于2016年秋冬换季期间在长春市(125.4 °N,44.0 °E)使用大流量采样器(1.05 m3·min−1,武汉天虹)逐日(8:00 a.m.至次日8:00 a.m.)采集了39个PM2.5样品,颗粒物样品使用23.2 cm× 25.4 cm的石英滤膜(TISSUQUARTZ-2500QAT-UP,PALLCo.,美国)采集. 每次采样前,将滤膜置于450 ℃的马弗炉中加热6 h以去除杂质. 将停泵1 min后从采样器中取出的空白滤膜作为空白样品,与采集样品共同放置进行运输,以扣除现场环境和运输过程对实际采集的气溶胶样品的影响. 采样后,样品和空白滤膜均由−24 ℃储存以尽可能避免化学物质降解. 本文中有机物、离子、碳质组分等,于采样后次年(2017年)陆续分析得到,活性氧组分测定实验于2022年完成.
根据如图1所示的采样期间火点数量以及当地的供暖时间(2016年长春市于10月25日开始供暖[8]),整个采样周期被细分为:生物质燃烧(10月17至24日)、(生物质燃烧和供暖)混合排放(10月25日至11月12日)和供暖排放(11月13至29日)三个时期.
-
本文中WSOC组分由总有机碳分析仪(TOC-L,Shimadzu,日本)测量得到,详细方法如下[8]:一部分经过前处理的样品水溶液在TC燃烧管中全部转化为CO2,燃烧产物脱除水分和卤素后进入NDIR气体检测器中检测CO2,以测量其水溶性总碳含量. 另一部分样品使用盐酸处理,使得溶液中所有碳酸盐转化为CO2,经过喷射氮气处理后,使溶液中所有CO2挥发出样品并进入NDIR检测器中测量其水溶性无机碳组分浓度. 二者差值即为WSOC组分数据.
非极性有机化合物使用热脱附(thermal desorption,TD)与气相色谱质谱仪(GC 7890B/MS 5977A,Agilent,美国)联用进行分离和检测[12]. 极性有机化合物采用Haque等[13]报道的衍生化-热脱附(in-situ derivatization thermal desorption,IDTD)联用的GC-MS进行分离和检测. 使用离子色谱仪(ICS5000+,Thermo Fisher,美国)对样品溶液中主要离子和糖类进行检测. 其中,阳离子使用20 mmol·L−1甲磺酸溶液淋洗,阴离子使用50 mmol·L−1NaOH溶液和超纯水进行梯度淋洗[14]. 包括左旋葡聚糖(levoglucosan,Lev)在内的16种糖类使用IC配备250 mm MA1分析柱和50 mm MA1保护柱进行分析[15].
Lev是一种有效的生物质燃烧(biomass burning,BB)示踪剂,因其在大气中会发生化学降解,本文使用BB排放K+(
$ {\text{K}}_{\text{BB}}^{\text{+}} $ )对其浓度进行校正,校正方法如下[16 − 17]:其中,Na+、Ca2+和K+表示对应离子的大气质量浓度,(Lev)ambient和(
$ {\text{K}}_{\text{BB}}^{\text{+}} $ )ambient分别表示Lev和$ {\text{K}}_{\text{BB}}^{\text{+}} $ 的大气质量浓度,这一经验公式所得的(Lev)corrected可以解释80%的真实值变化[17]. 此外,值得注意的是,使用$ {\text{K}}_{\text{BB}}^{\text{+}} $ 对Lev浓度的矫正仅适用于高生物质燃烧地区(如东北地区)[17]. -
HULISWS组分使用HLB小柱(60 mg/cartridge,Waters,美国)萃取,由1.2节中TOC-L结合WSTC-WSIC方法测量碳浓度,详细步骤见洪等[15]. 为了消除HULISWS与NH3·H2O之间可能存在的反应对活性氧(reactive oxygen species,ROS)测定的影响,测量步骤如下[5,18]:
取1.5 mL甲醇洗脱处理后的HULISWS水溶液和5 mL 0.1mol·L−1的磷酸钾缓冲液充分混合,加入0.5 mL 100 μmol·L−1的二硫苏糖醇(dithiothreitol,DTT)溶液,在指定的时间间隔(0、10、20、30、40 min)依次取出0.5 mL的反应混合物,转移到另一个装有0.5 mL10%的三氯乙酸(trichloroacetic acid, TCA)的反应瓶中,加入50 μL 0.1 mmol·L−1的5,5'-二硫代双(2-硝基苯甲酸)[5,5'-dithiobis-(2-nitrobenzoic Acid), DTNB]溶液与混合液中剩余的DTT进行反应. 最后,加入2 mL 0.4 mol·L−1的三羟甲基氨基甲烷(tris(hydroxymethyl)aminomethane, Tris)缓冲液,检测混合液在412 nm和720 nm处的吸光度. DTT消耗速率(r)由测得的吸光度数据经斜率处理后得到,经体积归一化和质量归一化计算后分别得到HULISWS组分的DTTv和DTTm:DTTv表示每单位体积HULISWS组分的DTT消耗速率,用于人体健康风险评估;DTTm为单位质量HULISWS组分的DTT消耗速率,用于衡量HULISWS的固有OP[5,18]. 计算公式如下:
式中,rs和rb分别为样品和空白的DTT消耗速率,Vt和Mt分别为样品对应的采样体积和HULISWS浓度,Vs为进样体积,Ve为采样体积. 本文使用HLB小柱对HULISWS组分进行固相萃取,有效排除了其他干扰性组分的影响[3],因而测量的DTTV和DTTm可以表征HULISWS组分的DTT活性.
-
本文利用PMF模型对大气HULISWS质量浓度进行来源解析,原理如下[19]:
式中,xij是第i个气溶胶样品中测得的第j个物种浓度,gik是第k个来源的污染物浓度贡献,fkj是第k个样品中的第j个物种分数,eij是与第i个气溶胶样品中测得的第j个物种浓度在p种独立来源因子分解下的残差. 本研究使用PMF模型输出的QTrue和使用如下方程计算的QExpected之间的差异进行最终使用计算因子数量的选定[12]:
其中,值m指输入气溶胶样品的数量;n指输入污染物组分的数量;p指所选择的来源的数量. 本研究中输入污染物组分包括:苯甲酸(benzoic acid)、异苯二甲酸(isophtalic)、甘油(glycerol)、苹果酸(malic acid)、tratatic acid、柠檬酸(citric acid)、2-methylerythitol acid、2-甲基赤藓糖醇(2-methylerythitol)、松果酸(pinic acid)、4-羟基苯甲酸(4-hydroxybenzoic Acid)、五种脂肪烃类物质(C16、C18、C19、C21和C24)、4种脂肪醇(C16 alcohol、C20 alcohol、C23 alcohol和C28 alcohol)、5种脱水糖(galactosan、mannosan、levoglucosan、glucose和inositol).
-
FLEXPART拉格朗日粒子扩散模型(FLEXiblePARTicleLagrangian dispersion model,10.4版本,后简称FLEXPART)可以模拟大气颗粒从点、线、区域或体积源释放后的受气象要素(如:边界层湍流、重力沉降和湿沉降的影响)和一级化学反应过程(如:羟基自由基(·OH)与大气颗粒物的化学反应过程以及湿沉降清除过程对大气颗粒物寿命的影响)的影响. FLEXPART中的详细信息可以在Pisso等[20]的工作中找到,此前,FLEXPART已被成功用于识别多处大气颗粒物的潜在源区分布[21 − 24]. 本研究使用FLEXPART模型的后向模式,从采样站点(经度:125.4°E,纬度:44.0°N,高度:0—5 m)处释放,用以确定对采样期间HULISWS浓度和其ROS有影响的潜在源区的分布,模拟结果如图1所示.
-
本文如下目标函数,使用FSL-RF方法对不同来源HULISWS浓度与总HULISWS的OP值进行拟合:
其中,fi表示第i个模型拟合的不同来源与OP的函数关系,其中S1、S2、S3、S4和S5表示PMF模型计算得到的各来源的逐日HULISWS质量浓度,εi表示第i个拟合模型预测值与观测值之间的残差. 为了使拟合模型充分学习到数据矩阵中的每一个特征,将OP值频数使用随机重复的方式矫正到同一水平后再进行模拟. 同时,为了使FSL-RF模型能够充分学习各来源HULISWS的质量浓度与HULISWS的OP之间的非线性函数关系,所有变量均进行随机的有放回抽样. 此外,FSL-RF模型中的所有超参数均由遍历方式进行选择. 其中,每棵树在每个节点可能分裂的变量个数设为最大值以增加FSL-RF模型的非线性程度,决策树棵数设为
3000 以消除偶然误差的影响. FSL-RF模型中的置换变量重要性方法通过在袋外采样来评估预测准确性,并置换每个变量的值,以确定其对预测性能的影响[11]. 因置换变量重要性方法无法区分变量之前的正负反馈,因而此前研究通常使用这一方法表征各个非负变量在高维非负函数关系下对目标变量的相对贡献[8 − 9]. -
采样期间,WSOC和HULISWS的平均质量浓度分别为9.8 μg·m−3和4.7 μg·m−3,逐日变化趋势见图2. 二次无机离子(NO3-、SO42-和NH4+)与HULISWS和WSOC日均浓度之间有相似趋势,表明二次反应可能对水溶性碳质组分有重要贡献[25]. 采样期间DTTV与DTTm的变化趋势如图2所示. 本研究中,DTTV与温度在混合期呈显著(P< 0.01)负相关(r = -0.6, P< 0.01),表明在混合排放期间,温度的升高可能造成DTTV值的降低. DTTV平均日浓度在供暖排放时期最高(0.17 nmol·min−1·m−3),在生物质燃烧时期最低(0.12 nmol·min−1·m−3). DTTV平均日浓度(0.14 nmol·min−1·m−3)显著高于中国香港(3.96—15.10 pmol·min−1·m−3)[4]、上海(0.01—0.03 nmol·min−1·m−3)[26]和北京(0.073 nmol·min−1·m−3)[3],表明长春HULISWS有着较强的DTTV活性. 与DTTV值相似,HULISWS的固有DTT活性(DTTm)平均日浓度也在供暖排放时期达到最高(54.9 pmol·min−1·μg
$ {\text{}\text{HULIS}}_{\text{WS}}^{\text{-1}} $ ),表明人为排放的HULISWS可能相较于自然源具有更大DTTm生成潜力[27]. 在日尺度上,DTTV在11月7日(混合期)达到峰值(0.78 nmol·min−1·m−3);DTTm在11月13日(供暖期)达到峰值(116.83 pmol·min−1·μg$ {\text{HULIS}}_{\text{WS}}^{\text{-1}} $ ),均突出了人为源排放对ROS的潜在贡献(表1).为进一步考察ROS的可能形成机制,对各参数与DTTV和DTTm值进行了相关性分析,结果见表2. 总体上,DTTV和DTTm与温度在生物质燃烧期呈显著正相关(r = 0.5, P< 0.01),而在混合期呈显著(P< 0.01)负相关(r = -0.6, P< 0.01),在供暖期无相关关系,表明不同时期ROS的形成机制可能存在一定的差别[26]. DTTV和DTTm与NO3-、Isophthalic、Citric Acid和Pinic Acid这类二次物质间的复杂关系也表明:简单的线性拟合可能无法准确表述DTTV和DTTm的可能来源.
-
本文重复了Hong等[8]报道的工作对大气HULISWS浓度进行解析,如图3所示,对比所取因子数量的QTrue/QExpect结果,因子数在2—9时,PMF模型所解析结果收敛,且QTrue/QExpect结果随着因子数的增加而降低,表明PMF模型中因子数量应取较大值. 结合图3(a)中各因子数所解析来源结果(由各因子中主导分子标志物得到,因子数为6时的各来源解析结果见图4),当PMF模型中的因子数大于6时,模型无法再区分更多来源,且此时QTrue/QExpect值也相对处于底部,故而本研究取因子数为6时的PMF模型解析结果进行进一步分析. 此时,R2为0.89,平均绝对误差(Mean Absolute Error, MAE)为0.91,均方误差(Root Mean Square Error, RMSE)为1.30[8].
本文来源根据PMF模型解析得出的对应因子中占比最高的一个或几个物种所指示的污染源进行源类判定. 如图4所示,第一个因子主要由苯甲酸(Benzoic Acid)为主,反映了因子一中较高的化石燃料燃烧贡献[8]. 因而,因子一被确定为化石燃料燃烧源.
因子二中苹果酸的贡献占主导. 其中,苹果酸分别是生物源排放的不饱和脂肪酸在大气中的光氧化产物,被广泛认为是生物源前体物的二次源. 此前,Wu等[12]和吴瑕[28]报道生物质燃烧排放的二次反应产物是我国东北地区苹果酸的主要来源,本研究中苹果酸与矫正后的左旋葡聚糖在生物质燃烧和混合排放期间有较好相关性(R2 = 0.7),表明了生物质燃烧的二次产物是苹果酸的主要来源. 因而,因子二被确定为二次生物质燃烧源.
第三个因子的特点是以16、18、19和21碳脂肪酸(C16、C18、C19、C21)与16碳脂肪醇(C16 alc.)为主. 其中,本研究中分子量较低的脂肪酸的高贡献表明微生物、海洋浮游植物、维管植物和肉类烹饪排放物的贡献更高[12,29]. 同时,考虑另一有较高贡献的短链脂肪醇C16 alc.(C< 20)通常来自分子量较低的土壤和海洋微生物[30]. 此外,由于长春离海洋距离较远,因而可以忽略海洋对于气溶胶的贡献[8]. 因此,第三个因子被确定为土壤微生物排放源.
第四个因子由20碳脂肪醇(C20 alc.)和甘露聚糖的贡献主导(~50%). 本研究中,甘露聚糖与左旋葡聚糖相关性较差(R2<0.2),表明甘露聚糖可能有其他来源. 此外,该因子伴随着较高低分子量脂肪酸(碳数<20)的浓度,其总贡献量大于C20 alc.(~60%),表明因子四可能伴有微生物、维管植物和肉类烹饪排放物的贡献[12,29]. 此外,东北地区烹调通常伴有生物质燃烧事件的发生[8,12,28],因而因子四被确定为烹调排放.
第五个因子由2-甲基赤藓糖醇主导. 此前Ding等[31]研究也表明,2-甲基赤藓糖醇可以由生物质燃烧排放的大量NOx环境氧化萜烯类物质生成. 本研究中,2-甲基赤藓糖醇与左旋葡聚糖相关性为0.7,表明了2-甲基赤藓糖醇主要与二次生物质燃烧来源. 因而,因子五被确定为二次生物质燃烧源[8].
第六个因子由28碳脂肪醇(C20 alc.)的贡献主导. 此前研究表明,长链脂肪醇(碳数≥20)也可通过生物质燃烧排放产生[12,28]. 本研究中,C28 alc.与矫正后左旋葡聚糖相关性为0.8,表明了生物质燃烧是C20 alc.的主要来源. 此外,半乳聚糖和左旋葡聚糖的浓度最高,占比贡献也较大,因而因子六被确定为生物质燃烧源[8].
本文中PMF模型未考虑一次和二次化石燃烧源的指示物,因而无法将其来源分开. 此外,解析出的两种二次BB源仅在绘图展示时被合并为一个来源,在进行MLR以及RF模型中的拟合计算时均作为两个来源使用.
本研究使用BS和DISP工具进行基本模型运行结果的误差分析,不同来源贡献误差结果如图5所示. 总体而言,各因子来源误差相对较低,表明PMF模型运行结果相对可靠.
-
本文首先将39个样本随机分割为训练集(30个)和验证集(9个),将训练集简单重复两次,获得含有120个样本的数据增强样本,分别使用原始样本与数据增强样本拟合公式(6)中的目标函数,并使用训练模型预测验证集样本. 随后进行100次重复计算,使用原始和数据增强数据集驱动的RF模型拟合结果如图6所示. 结果表明,尽管未使用数据增强方法的RF模型的预测结果与观测之间相关性较好,且基本捕捉到了OP值升高的趋势,但因较少的样本数量,无法准确捕捉来源与OP的非线性关系(R2< 0.8). 而使用了数据增强数据集驱动的RF模型尽管模型与模型之间存在着更大的误差,但在整体性能上均有着较好的提升(R2> 0.9). 这一结果表明,简单重复低频率原始数据方法可以帮助FSL-RF模型捕捉小样本数据中更多的非线性关系.
此外,不同模型间较大的误差也表明了这一方法训练得到的模型需要进一步筛选以获得最佳模型. 通过先后进行观测与预测结果的斜率、MAE和RMSE值的对比可以帮助从这些FSL-RF模型中选择更优异的模型. 本文后续的FSL-RF模型使用不同分割数据集随机运行100次并根据预测效果选择最佳模型进行置换变量重要性评估.
-
本文比较了HULISWS组分中OP观测值与MLR与RF方法分别预测的OP值的对比,结果如图7所示. 值得注意的是,由于MLR方法的局限性,FB排放的HULISWS浓度与DTTV和DTTm值的非线性关系被识别为异常值,并被排除在拟合方程之外. 其可能原因是本文中所建立的PMF模型并未将一次与二次FB来源分开,进而导致其浓度与OP值的关系也受到了大气化学反应这一复杂关系的影响. 因MLR模型无法捕捉这一高维的非线性关系,进而造成了对高OP值组分的低估. 尽管FSL-RF模型预测的OP值与观测值也存在一定的误差,但其误差主要由几个异常点引起,因而认为后续使用置换变量重要性算法所解析的结果较为可靠.
随后,本文进一步关注了各个时期MLR与FSL-RF方法预测OP值的结果对比(表2). 结果表明,相对于MLR方法,观测与FSL-RF模型预测的OP值呈显著相关(R2> 0.91, P< 0.01),表明FSL-RF模型可以学习更好的非线性函数关系. 其中,为了消除样本数量增加所带来对确定系数的高估,本文同样计算了改进确定系数(
$ {R}_{\text{adjust}}^{\text{2}} $ ),它可以降低样本数量所带来的干扰,计算方法如下.式中,R2表示确定系数,n表示样本数量,p表示模型中的可解释变量数,结果如表3所示. 表中结果显示,在大气HULISWS中ROS组分较多和较低时,MLR的预测结果均有较大下降. 其中,
$ {{R}}_{\text{adjust}}^{\text{2}} $ 从生物质燃烧时期的0.86和0.91(P< 0.01)分别降至混合排放时期的0.44和0.34(P< 0.01)以及供暖排放时期的-0.02和0.24(P< 0.05). 这一结果也表明了相较于生物质燃烧时期的OP,其他两个时期可能要考虑增加可解释变量来增加MLR模型的复杂程度.尽管MLR算法在一定程度上能够预测出DTTV和DTTm值(R2> 0.4, P< 0.05),但由于线性算法本身对高维数据拟合的局限性,无法很好低反映OP值与HULISWS各来源浓度之间的关系,在整体OP值较低的生物质燃烧排放时期模拟较好(R2> 0.9,
$ {{R}}_{\text{adjust}}^{\text{2}} $ > 0.8, P< 0.01),而在较高的供暖排放时期模拟较差($ R $ 2< 0.5,$ {{R}}_{\text{adjust}}^{\text{2}} $ < 0.2, P< 0.05)[7]. 在目前OP与来源机理尚不明晰时,FSL-RF可以在很大程度上弥补MLR算法的局限. -
本节通过使用选择的最优FSL-RF模型,量化了来源对OP的贡献(图8). 结果表明,BB是HULISWS中DTTV(~62%)和DTTm(~63%)的主要贡献者,其次是化石燃料燃烧(Fossil fuel Burning, FB)和烹饪排放. 本文对HULISWS质量浓度贡献约4%的烹饪排放贡献了HULISWS中OP的18%—19%,突出了人为一次污染组分对OP的重要贡献,与Zhou等[27]报道一致,表明所训练的RF模型已充分学习了来源与OP的复杂非线性关系.
生物质燃烧时期中的OP主要来自二次BB(36%)和FB(28%). 由于此时尚未开始集中供暖,分析此时的FB排放可能主要由车辆排放产生[32]. Ma等[3]研究表明,非采暖期的车辆排放量往往多于其他时期,进一步佐证了我们的推论. 此外,需要注意的是,不同的二次反应可能会削弱[33]或增强[34]气溶胶的OP. 东北平原附近有较多的潜在的一次BB排放[35],这些BB组分经过长距离输送[8],可能会与经过地区排放的人为排放污染物(主要来自BB活动[31]和车辆排放[36])所生成的·OH和·NO3自由基发生反应,产生更有害的二次产物[34]. 然而随着二次气溶胶氧化态的进一步增加,颗粒物的有害组分反而会开始衰减[33]. 混合排放时期,相对人为源污染物,BB排放了HULISWS总质量的77%,但由于受到二次反应本身的拮抗作用,对DTTV和DTTm的贡献分别降低为64%和71%. 考虑人为源污染物是PM2.5中OP的关键来源[27],随着供暖排放时期BB事件的逐步减少,FB对HULISWS中OP的值与贡献逐步增加. 其中,二次生物质燃烧源对DTTV和DTTm贡献分别由46%和54%降低至40%和36%,而对HULISWS质量浓度贡献50%的FB只分别贡献了DTTV的17%和DTTm的20%. 在浓度上,较多的二次BB贡献表明本研究中的BB主要来自于外来输送,因而对BB的防治应主要以区域协同控制为主;较多的FB贡献凸显了本地人为活动贡献的重要性. 此外,对浓度贡献较低的烹饪排放贡献了远超其浓度贡献的活性氧组分,突出了污染时期对本地烹饪排放的治理很可能是控制东北地区细胞损伤的关键因素.
-
本文在综合此前研究对正定矩阵因子分解模型(positive-definite matrix factorization, PMF)所解析来源与非线性目标变量的处理方法基础上,详细报道了一种针对小样本高维目标变量的源解析方法. 该方法使用小样本学习(few-shot learning, FSL)驱动的随机森林(random forest, RF)方法[FSL-RF]拟合PMF所解析的目标组分来源结果与目标变量之间非线性函数模型,并利用置换变量重要性量化了排放源对目标变量的相对贡献. 本文通过应用FSL-RF方法定量解析了东北地区HULISWS中OP的潜在来源,佐证了FSL-RF方法的准确性. FSL-RF方法可以用较小样本拟合高维目标变量,适用于气溶胶毒理病理学或其他特性参数的来源解析工作,可以为精准减排政策提供数据支撑.
然而,由于置换变量重要性计算只能对单一模型进行相对贡献解析,当需要关注多个时期相对贡献变化时需要建立多个RF模型对不同时期污染物来源进行解析. 此外,不同模型间的误差尚无较好的消除方法,未来仍需要进一步关注可以解析模型内部不同时期变量贡献的算法开发工作.
应用小样本机器学习方法定量解析大气水溶性类腐殖质氧化潜势的关键来源
Applying the few-shot learning method to quantify crucial sources of oxygen potential of water-soluble humic-like substances
-
摘要: 水溶性类腐殖质(water-soluble humic-like substances,HULISWS)是大气颗粒物中一类危害人体健康的有机物. 氧化潜势(oxygen potential,OP)可以用于衡量颗粒物对细胞内分子的氧化能力,精确解析HULISWS的OP来源可以助力有害污染物的精准减排工作. 本文于2016年秋、冬季节在东北平原逐日采集了大气细颗粒物(PM2.5)样品,并使用正定矩阵因子分解(positive-definite matrix factorization,PMF)模型量化了PM2.5中HULISWS来源的变化特征. 尽管此前很多研究解析了HULISWS中OP的潜在来源,但传统源解析方法难以准确拟合OP与物质来源关系,导致其解析结果存在较大不确定性. 随机森林(random forest,RF)是一种可以拟合非线性关系的机器学习算法,可以对OP来源进行解析. 然而,RF算法在较小样本训练下通常会增加泛化误差,导致模型不确定性较大. 针对这些问题,本文提出并验证了一种通过强化RF模型对特征变量的识别来提升其泛化能力的小样本学习(few-shot learning,FSL)方法[FSL-RF]. 通过FSL-RF拟合HULISWS的OP与PMF源解析结果来建立来源与OP的关系,并使用置换变量重要性量化了各来源对OP的贡献. 结果表明,生物质燃烧贡献了HULISWS浓度和HULISWS中OP的72%和63%. 此外,烹饪排放贡献了4%的HULISWS浓度,对HULISWS中OP的贡献为19%. 目前,尽管生物质燃烧仍然是东北地区大气HULISWS对人体造成细胞损伤的主要方式,但对烹饪排放的减排对人体细胞损伤的控制更加有效.Abstract: Water-soluble humic-like substances (HULISWS) are a group of organic compounds which is harmful to human health. Oxygen potential (OP) could evaluate the oxygen ability of aerosols in the lungs and quantifying its source could help the precise emission reduction works. Here, the daily aerosol samples were collected in Northeast China Plain during autumn and winter. In this work, the sources of HULISWS concentration were firstly quantified using the positive-definite matrix factorization model (PMF). Although lots of work using PMF quantified the sources of the OP of HULISWS, the non-linear relation between concentration and OP could cause lots of uncertainties. Random forest (RF) algorithm, which is an easy tool to fit the complex non-linear relationship, was used to quantify the potential sources of OP. However, the generalization error will be much higher when the sample size is small. Here, we conducted a few-shot learning (FSL) method which improved the learning ability of the RF model by strengthening the recognition of characteristic variables [FSL-RF]. Combining FSL-RF with PMF, the contribution of sources to the oxygen potential (OP) of HULISWS was quantified. The results indicated that biomass burning emission contributed 72% of mass concentration and 63% to OP of HULISWS. Besides, cooking emissions, which contributed 4% of the mass concentration of HULISWS, contributed 19% to OP of HULISWS. Our results showed that although biomass burning emissions domaint the OP of HULISWS, reducing the cooking emission might be the crucial way to reduce the OP of HULISWS in the Northeast China Plain.
-
Key words:
- humic-like substances /
- oxygen potential /
- source apportionment /
- machine learning /
- few-shot learning.
-
-
图 3 (a)PMF模型所解析出的不同排放源总数下各排放源对HULISWS质量贡献;(b)排放源总数变化下QTrue/QExpected比值变化图;(c)PMF模型预测HULISWS质量浓度与观测所得HULISWS质量浓度相关性图.
Figure 3. (a) The relative contribution of emission sources to HULISWS mass computed by the PMF model under different factor numbers; (b) QTrue/QExpected ratio changes with the number of factors; (c) Comparison of predicted values by PMF model and observed values of HULISws
图 8 (a)PMF模型在不同时期对HULISWS的源解析结果;随机森林算法量化得出的不同时期四个PMF模型解析出的来源对HULISWS组分的DTTV(b)和DTTm(c)的贡献
Figure 8. (a) The source apportionment results of HULISWS using PMF model in different periods; The contribution of four sources computed by the PMF model to the DTTV (b) and DTTm (c) of the HULISWS fractions using a random forest algorithm during the different periods
表 1 不同采样时期气溶胶组分、活性氧物质和气象参数的值
Table 1. The value of aerosols, reactive oxygen species, and the meteorological parameters during the different periods
物质
Matters单位
Unit总体
Whole生物质燃烧
Biomass混合排放
Mixed供暖排放
HeatingN 44 8 19 17 PM2.5 μg·m−3 80.2 ± 55.2 54.8 ± 22.0 127.4 ± 67.9 61.1 ± 33.0 OC μg·m−3 20.8 ± 15.3 15.0 ± 6.1 34.3 ± 19.3 14.8 ± 7.9 EC μg·m−3 2.5 ± 2.1 2.3 ± 0.8 2.8 ± 1.4 2.5 ± 2.7 WSOC μg·m−3 9.8 ± 7.7 6.6 ± 2.7 17.2 ± 9.6 6.4 ± 3.2 HULIS μg·m−3 4.7 ± 3.5 4.2 ± 1.2 8.6 ± 3.6 2.4 ± 1.3 DTTm pmol·min−1·μg $ {\text{HULIS}}_{\text{WS}}^{\text{-1}} $ 28.1 ± 28.6 23.2 ± 22.4 13.8 ± 15.9 54.9 ± 30.2 DTTV nmol·min−1·m−3 0.14 ± 0.14 0.12 ± 0.10 0.11 ± 0.18 0.19 ± 0.07 $ {\text{K}}_{\text{BB}}^{\text{+}} $ μg·m−3 0.80 ± 0.63 0.57 ± 0.19 1.37 ± 0.77 0.54 ± 0.35 (Lev)corrected μg·m−3 3.29 ± 2.71 2.50 ± 0.85 5.97 ± 3.29 1.94 ± 1.14 Temperature ℃ -2.7 ± 6.0 4.0 ± 2.9 -1.6 ± 4.0 -6.2 ± 5.2 Wind speed m·s−1 6.1 ± 1.6 5.2 ± 0.6 5.7 ± 1.2 6.7 ± 1.8 注1: 数据为平均值±标准偏差. Notes 1: The data were mean ± standard deviation. 表 2 不同采样时期DTTV和DTTm与不同参数的相关系数(P< 0.01).
Table 2. The correlation coefficient between the DTTV and DTTm with other different parameters during the whole, biomass, mixed, and heating periods (P< 0.01).
时期
PeriodsTemperature WSOC (Lev)corrected NO3− Isophthalic Citric Acid Pinic Acid DTTV 总体 −0.3 −0.1 −0.3 −0.1 −0.3 −0.3 −0.3 生物质燃烧 0.5 −0.6 −0.7 −0.5 0.0 −0.3 −0.4 混合排放 −0.6 0.0 −0.2 0.0 −0.3 −0.2 −0.3 供暖排放 0.0 −0.4 −0.3 0.1 −0.5 −0.5 −0.4 DTTm 总体 −0.2 −0.5 −0.5 −0.3 −0.5 −0.5 −0.5 生物质燃烧 0.5 −0.6 −0.7 −0.5 0.0 −0.3 −0.4 混合排放 −0.6 −0.2 −0.3 −0.2 −0.4 −0.4 −0.4 供暖排放 0.1 −0.5 −0.4 −0.1 −0.4 −0.4 −0.4 注1: 全部时期相关性绝对值小于0.4的数据未被列入此表.
Notes 1: The absolute correlation value during all periods lower than 0.4 were not listed in this table.表 3 OP观测值与MLR和FSL-RF算法预测值的相关性
Table 3. The correlation between the observed and predicted oxygen potential (OP) by the multiple linear regression (MLR) and few-shot learning based random forest (FSL-RF) algorithm
算法
Algorithm物质
Matters整体采样时期
Whole Period生物质燃烧时期
Biomass Burning Period混合排放时期
Mixed Emission Period供暖排放时期
Heating Emission PeriodMLR R2 DTTV 0.34** 0.96** 0.69** 0.37* DTTm 0.35** 0.98** 0.64** 0.53** $ {R}_{\text{adjust}}^{\text{2}} $ DTTV 0.37** 0.86** 0.44** -0.02* DTTm 0.30** 0.91** 0.34** 0.24** FSL-RF R2 DTTV 0.99** 0.91** 0.93** 0.96** DTTm 0.97** 0.91** 0.93** 0.95** $ {R}_{\text{adjust}}^{\text{2}} $ DTTV 0.94** 0.90** 0.92** 0.96** DTTm 0.90** 0.90** 0.93** 0.95** 表注:*表示双尾T检验中P值小于0.05,**表示P值小于0.01.
Notes: * represent a P-value smaller than 0.05 and ** represent a P-value smaller than 0.01 under the double-tailed T-test. -
[1] FANG T, LAKEY P S J, WEBER R J, et al. Oxidative potential of particulate matter and generation of reactive oxygen species in epithelial lining fluid[J]. Environmental Science & Technology, 2019, 53(21): 12784-12792. [2] BAO M Y, ZHANG Y L, CAO F, et al. Light absorption and source apportionment of water soluble humic-like substances (HULIS) in PM2.5 at Nanjing, China[J]. Environmental Research, 2022, 206: 112554. doi: 10.1016/j.envres.2021.112554 [3] MA Y Q, CHENG Y B, QIU X H, et al. Sources and oxidative potential of water-soluble humic-like substances (HULISWS) in fine particulate matter (PM2.5) in Beijing[J]. Atmospheric Chemistry and Physics, 2018, 18(8): 5607-5617. doi: 10.5194/acp-18-5607-2018 [4] MA Y Q, CHENG Y B, QIU X H, et al. Optical properties, source apportionment and redox activity of humic-like substances (HULIS) in airborne fine particulates in Hong Kong[J]. Environmental Pollution, 2019, 255(Pt 1): 113087. [5] 吴继炎, 杨池, 张春燕, 等. 保定市冬季PM2.5的氧化潜势特征及其影响来源分析[J]. 环境科学, 2022, 43(6): 2878-2887. WU J Y, YANG C, ZHANG C Y, et al. Analysis on the characteristics of oxidation potential and influence sources of PM2.5 in Baoding city in winter[J]. Environmental Science, 2022, 43(6): 2878-2887 (in Chinese).
[6] DAELLENBACH K R, UZU G, JIANG J H, et al. Sources of particulate-matter air pollution and its oxidative potential in Europe[J]. Nature, 2020, 587(7834): 414-419. doi: 10.1038/s41586-020-2902-8 [7] SAMUËL W, GAËLLE U, OLIVIER F, et al. Source apportionment of atmospheric PM10 oxidative potential: Synthesis of 15 year-round urban datasets in France[J]. Atmospheric Chemistry and Physics, 2021, 21(14): 11353-11378. doi: 10.5194/acp-21-11353-2021 [8] HONG Y H, CAO F, FAN M Y, et al. Using machine learning to quantify sources of light-absorbing water-soluble humic-like substances (HULISws) in Northeast China[J]. Atmospheric Environment, 2022, 291: 119371. doi: 10.1016/j.atmosenv.2022.119371 [9] GRANGE S K, UZU G, WEBER S, et al. Linking Switzerland’s PM10 and PM2.5 oxidative potential (OP) with emission sources[J]. Atmospheric Chemistry and Physics, 2022, 22(10): 7029-7050. doi: 10.5194/acp-22-7029-2022 [10] WANG Y Q, YAO Q M, KWOK J T, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys, 53(3):1-34. [11] WRIGHT M N, ZIEGLER A. A fast implementation of random forests for high dimensional data in C++ and R[J]. Journal of Statistical Software, 2017, 77(1): 1-17. [12] WU X, CAO F, HAQUE M, et al. Molecular composition and source apportionment of fine organic aerosols in Northeast China[J]. Atmospheric Environment, 2020, 239: 117722. doi: 10.1016/j.atmosenv.2020.117722 [13] HAQUE M M, FANG C, SCHNELLE-KREIS J, et al. Regional haze formation enhanced the atmospheric pollution levels in the Yangtze River Delta region, China: Implications for anthropogenic sources and secondary aerosol formation[J]. The Science of the Total Environment, 2020, 728: 138013. doi: 10.1016/j.scitotenv.2020.138013 [14] 范美益, 曹芳, 张园园, 等. 徐州市冬季大气细颗粒物水溶性无机离子污染特征及来源解析[J]. 环境科学, 2017, 38(11): 4478-4485. FAN M Y, CAO F, ZHANG Y Y, et al. Characteristics and sources of water soluble inorganic ions in fine particulate matter during winter in Xuzhou[J]. Environmental Science, 2017, 38(11): 4478-4485 (in Chinese).
[15] 洪一航, 曹芳, 鲍孟盈, 等. 南京秋季大气PM2.5中类腐殖质的光学性质与来源分析[J]. 环境化学, 2021, 40(1): 301-311. doi: 10.7524/j.issn.0254-6108.2020021201 HONG Y H, CAO F, BAO M Y, et al. Optical properties and source apportionment of humic-like substances (HULIS) in Nanjing atmospheric PM2.5 in autumn[J]. Environmental Chemistry, 2021, 40(1): 301-311 (in Chinese). doi: 10.7524/j.issn.0254-6108.2020021201
[16] HONG Y H, CAO F, FAN M Y, et al. Impacts of chemical degradation of levoglucosan on quantifying biomass burning contribution to carbonaceous aerosols: A case study in Northeast China[J]. The Science of the Total Environment, 2022, 819: 152007. doi: 10.1016/j.scitotenv.2021.152007 [17] LI Y M, FU T M, YU J Z, et al. Impacts of chemical degradation on the global budget of atmospheric levoglucosan and its use As a biomass burning tracer[J]. Environmental Science & Technology, 2021, 55(8): 5525-5536. [18] WU J Y, YANG C, ZHANG C Y, et al. Development, characterization, and application of an improved online reactive oxygen species analyzer based on the Monitor for AeRosols and Gases in ambient Air (MARGA)[J]. Atmospheric Measurement Techniques, 2022, 15(8): 2623-2633. doi: 10.5194/amt-15-2623-2022 [19] PAATERO P, TAPPER U. Positive matrix factorization: A non-negative factor model with optimal utilization of error estimates of data values[J]. Environmetrics, 1994, 5(2): 111-126. doi: 10.1002/env.3170050203 [20] PISSO I, SOLLUM E, GRYTHE H, et al. The Lagrangian particle dispersion model FLEXPART version 10.4[J]. Geoscientific Model Development, 2019, 12(12): 4955-4997. doi: 10.5194/gmd-12-4955-2019 [21] LIN Y C, ZHANG Y L, YU M Y, et al. Formation mechanisms and source apportionments of airborne nitrate aerosols at a himalayan-tibetan plateau site: Insights from nitrogen and oxygen isotopic compositions[J]. Environmental Science & Technology, 2021, 55(18): 12261-12271. [22] AN X Q, YAO B, LI Y, et al. Tracking source area of Shangdianzi Station using Lagrangian particle dispersion model of FLEXPART[J]. Meteorological Applications, 2014, 21(3): 466-473. doi: 10.1002/met.1358 [23] LIN Y C, YU M Y, XIE F, et al. Anthropogenic emission sources of sulfate aerosols in Hangzhou, east China: Insights from isotope techniques with consideration of fractionation effects between gas-to-particle transformations[J]. Environmental Science & Technology, 2022, 56(7): 3905-3914. [24] FAN M Y, ZHANG Y L, LIN Y C, et al. Important role of NO3 radical to nitrate formation aloft in urban Beijing: Insights from triple oxygen isotopes measured at the tower[J]. Environmental Science & Technology, 2022, 56(11): 6870-6879. [25] ZHAO Z Y, CAO F, FAN M Y, et al. Coal and biomass burning as major emissions of NO x in Northeast China: Implication from dual isotopes analysis of fine nitrate aerosols[J]. Atmospheric Environment, 2020, 242: 117762. doi: 10.1016/j.atmosenv.2020.117762 [26] LU S L, WIN M S, ZENG J Y, et al. A characterization of HULIS-C and the oxidative potential of HULIS and HULIS-Fe(Ⅱ) mixture in PM2.5 during hazy and non-hazy days in Shanghai[J]. Atmospheric Environment, 2019, 219: 117058. doi: 10.1016/j.atmosenv.2019.117058 [27] ZHOU J, ELSER M, HUANG R J, et al. Predominance of secondary organic aerosol to particle-bound reactive oxygen species activity in fine ambient aerosol[J]. Atmospheric Chemistry and Physics, 2019, 19(23): 14703-14720 doi: 10.5194/acp-19-14703-2019 [28] 吴瑕. 哈长城市群冬季细颗粒物中有机气溶胶组成特征及来源[D]. 南京: 南京信息工程大学, 2020. WU X. Characterization and sources apportionment of chemical composition of PM2.5 in hachang city group in winter[D]. Nanjing: Nanjing University of Information Science & Technology, 2020 (in Chinese).
[29] SCHAUER J J, KLEEMAN M J, CASS G R, et al. Measurement of emissions from air pollution sources. 3. C1-C29 organic compounds from fireplace combustion of wood[J]. Environmental Science & Technology, 2001, 35(9): 1716-1728. [30] SIMONEIT B R T, ELIAS V O, KOBAYASHI M, et al. Sugars: Dominant water-soluble organic compounds in soils and characterization as tracers in atmospheric particulate matter[J]. Environmental Science & Technology, 2004, 38(22): 5939-5949. [31] DING X, WANG X M, XIE Z Q, et al. Impacts of Siberian biomass burning on organic aerosols over the North Pacific Ocean and the Arctic: Primary and secondary organic tracers[J]. Environmental Science & Technology, 2013, 47(7): 3149-3157. [32] CHEN X C, CHUANG H C, WARD T J, et al. Toxicological effects of personal exposure to fine particles in adult residents of Hong Kong[J]. Environmental Pollution, 2021, 275: 116633. doi: 10.1016/j.envpol.2021.116633 [33] ZHOU J, ZOTTER P, BRUNS E A, et al. Particle-bound reactive oxygen species (PB-ROS) emissions and formation pathways in residential wood smoke under different combustion and aging conditions[J]. Atmospheric Chemistry and Physics, 2018, 18(10): 6985-7000. doi: 10.5194/acp-18-6985-2018 [34] GUNSCH M J, SCHMIDT S A, GARDNER D J, et al. Particle growth in an isoprene-rich forest: Influences of urban, wildfire, and biogenic air masses[J]. Atmospheric Environment, 2018, 178: 255-264. doi: 10.1016/j.atmosenv.2018.01.058 [35] TAKAHASHI M, FENG Z Z, MIKHAILOVA T A, et al. Air pollution monitoring and tree and forest decline in East Asia: A review[J]. Science of the Total Environment, 2020, 742: 140288. doi: 10.1016/j.scitotenv.2020.140288 [36] SOMMARIVA R, CRILLEY L R, BALL S M, et al. Enhanced wintertime oxidation of VOCs via sustained radical sources in the urban atmosphere[J]. Environmental Pollution, 2021, 274: 116563. doi: 10.1016/j.envpol.2021.116563 -