-
自19世纪70年代,Rao[1]和Zafiriou[2]使用闪光光解在海水中检出卤素自由基以来,卤素自由基的检测技术及其环境化学过程引起研究者的普遍关注。据估计,表层海水中卤素自由基的总浓度约为2.0 × 10−14 mol·L−1,高于·OH浓度(1.1 × 10−17 mol·L−1)约3个数量级[3]。因此,卤素自由基在溶解性有机质(DOM)的卤化[4]、部分天然物质[5]和有机污染物[6-7]的降解过程中均可发挥重要作用。近年来,UV/氯高级氧化技术的发展,也使得氯自由基参与的有机污染物降解成为环境领域的研究热点问题之一[8-10]。卤素自由基参与的反应可导致卤代污染物的生成,而卤代化合物的环境持久性和毒性往往高于其对应的非卤代化合物[11-13]。因此,研究氯自由基和有机化合物的反应过程具有重要的环境意义。
氯原子(也称氯自由基,Cl·)和二氯阴离子自由基(Cl2·−)是具有较高氧化活性的卤素自由基,其标准氧化电势分别为2.47 V和2.00 V[14]。高的还原电势使得Cl·和有机化合物有着较高的反应活性,反应速率常数范围为108—1010 L·mol−1·s−1 [15-20]。Cl2·−和有机化合物的反应速率常数范围为< 103—1010 L·mol−1·s−1 [21-25]。卤素自由基与有机污染物的反应速率可影响天然水中污染物的环境持久性及UV/氯水处理过程中污染物的去除效率,获取卤素自由基与有机化学品的反应速率常数对评估其在污染物降解过程中的贡献至关重要。定量结构活性关系(QSAR)模型已经成为一种高效获取有机化合物各类反应速率常数的工具[26]。Lei等[9]构建了部分特定结构痕量有机污染物的Hammett常数与Cl·和Cl2·−反应速率常数的关系模型。然而,对于有机化合物与氯自由基反应速率常数的QSAR模型尚缺少系统的研究,氯自由基反应速率常数的数据仍很缺乏。
因此,本研究从文献中搜集了有机化合物分别与Cl·和Cl2·−的二级反应速率常数(
和$ {\text{k}}_{\text{Cl·}} $ ),通过理论计算获取了有机化合物的分子结构描述符,采用多元线性回归(MLR)的方法构建了可预测Cl·和Cl2·−与有机物的反应速率常数的QSAR模型,通过Euclidean距离法以及Williams图法分别表征了模型的描述符域和应用域,并对模型进行了机理解释。$ \text{}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ -
从文献[3,18,21,27,28]中收集了28种和18种有机污染物分别与Cl· (表1)和Cl2·−(表2)的二级反应速率常数。所有有机物的反应条件(pH=7、温度20 ℃)相同。如果不同的文献中有多个k值,则取平均值。根据文献[29],将数据随机分为训练集和验证集,两者的比例约为4:1。在分析之前,将k进行对数变换,以缩小取值范围,增加其匀称性。
-
在Gaussian 16[30]软件上采用B3LYP[24,26,29,31]泛函6-31 + G (d, p)基组对所选取的有机污染物进行分子结构优化,得到优化好的分子构型之后,计算量子化学描述符(如最高占据分子轨道能EHOMO,最低未占据分子轨道能ELUMO,偶极矩μ,极化率α等)。基于Gaussian软件优化好的构型,使用Dragon 7.0[32]软件计算表征分子结构信息的Dragon描述符。对所提取的Dragon描述符进行筛选,剔除常数项和近似项,以及缺失的描述符等不符合要求的描述符。
-
运用SPSS 19.0软件采用多元线性回归的方法筛选描述符,构建QSAR模型。最佳的模型需要满足以下几个条件[33]:1)分子结构描述符数量较少(训练集中的化合物数量/描述符的数量大于5);2)较高的决定系数(R2),一般大于0.6;3)方差膨胀因子(VIF)小于10,VIF表示预测变量的多重共线性;4)显著性水平(P)小于0.05。
对所建模型采用内部验证和外部验证来评价其相关性能。对于内部验证来说,相关的统计学参数要满足以下几个原则:内部交叉验证系数(Q2LOO)和Q2BOOT(由bootstrapping计算得到的参数)大于0.6,较高的校正后的决定系数(R2adj),一般大于0.7,较小的均方根误差(RMSE)。对于外部验证来说,具有较高的验证集外部可解释方差Q2ext以及验证集决定系数R2ext,较小的均方根误差(RMSE)。相关统计学参数的计算公式如下:
其中,n是样本数;p是自变量的个数;
和yi分别是化合物活性的预测值和实测值;$ \widehat{{y}_{\mathrm{i}}} $ 是化合物活性实测值的平均值。$ \stackrel{-}{{y}_{i}} $ 模型的应用域(ADs)是使模型可靠和可预测的化学结构空间,本研究用Euclidean距离法对模型的描述符域进行了表征,其计算公式如下:
其中,μ为描述符x的均值。
本模型的应用域采用基于Williams方法进行表征,杠杆指及其警戒值的的公式定义如下:
其中,n为训练集化合物数量,k为模型中的描述符的个数,Xi为第i个有机物分子结构描述符值。
本研究最大警戒值h*,取|δ| > 3为离群点。
-
的QSAR模型为:$ \text{lg}{\text{k}}_{\text{Cl·}} $ 11.133 - 7.236 × Dv - 0.087 × VE3sign_RG + 0.569 × GATS5e - 0.158 × H -051$ \text{lg}{\text{k}}_{\text{Cl·}}\text{=} $ ntr = 22, R2adj, tr = 0.810, Q2LOO = 0.716, Q2BOOT = 0.653, RMSEtr = 0.34, Kx = 0.127, Kxy = 0.303; next = 6, R2adj, ext = 0.861, RMSEext = 0.48, Q2ext = 0.793
的QSAR模型为:$ \text{lg}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ = 3.657 + 0.374 × RDF010s - 0.037 × ATSC5s + 0.073 × L/Bw$ \text{lg}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ ntr = 14, R2adj, tr = 0.902, Q2LOO = 0.839, Q2BOOT = 0.735, RMSEtr = 0.29, Kx = 0.385, Kxy = 0.401; next = 4, R2adj, ext = 0.838, RMSEext = 0.67, Q2ext = 0.629
关于
QSAR模型,模型包含4个分子结构描述符,分别是Dv、VE3sign_RG、GATS5e和H-051,所有的分子结构描述符都属于Dragon描述符。其中ntr和next分别表示训练集和验证集中有机化合物的数量。对于模型的内部验证,R2adj, tr > 0.60表示训练集具有高拟合优度。交叉验证系数(Q2LOO)和Q2BOOT值均大于0.6,表明模型具有良好的统计稳健性。由表1可知VIF < 10并且Kxy > Kx,因此所建立的模型不存在多重共线性。$ \text{lg}{\text{k}}_{\text{Cl·}} $ QSAR模型同$ \text{lg}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ ,所有的统计学参数都满足条件,模型具有较高的拟合优度,稳健性以及预测能力。如图1和图2所示,模型预测值与文献实验数据吻合较好。因此,所建立的模型符合经济合作与发展组织(OECD)原则的要求,能够准确地预测有机化合物与Cl·与Cl2·−反应的速率常数。$ \text{lg}{\text{k}}_{\text{Cl·}} $ -
采用基于欧几里得距离表征的描述符域以及Williams的方法对模型的应用域进行表征,如图2和图3所示,两个模型所有的有机化合物都在描述符内,并且在描述符域的平面空间内分布比较均匀。
模型中,所有化合物均在在警戒值范围h* = 0.68之内,且|δ| < 3。因此所构建的模型能预测含有羟基、羧基、羰基以及芳香族化合物与Cl·的二级反应速率常数。而在$ \text{lg}{\text{k}}_{\text{Cl·}} $ 模型中,所有的化合物也都处于应用域内,由于本次建模所选取的化合物大部分为苯甲酸类物质,因此所构建的QSAR模型可以较好地预测苯甲酸类物质与Cl2·−的二级反应速率常数。$ \text{lg}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ -
由表1可知,所搜集的Cl·与有机物反应的速率常数范围为9.3 × 106—4 × 1010 L·mol−1·s−1。芳香族化合物的速率常数要大于小分子的烯烃、醚、羧酸、醇类化合物,并且醇类有机物与Cl·的反应速率常数要明显高于小分子的烯烃、醚类、羧酸类有机物。由表2可知,Cl2·−与表中有机物的反应速率常数范围为1.9 × 106—1.1 × 109 L·mol−1·s−1,由表可知对氯苯甲酸要小于对溴苯甲酸,含氨基的苯甲酸类物质(1.1 × 109 L·mol−1·s−1)要高于含羟基(2.8 × 108 L·mol−1·s−1)和甲氧基类(2.0 × 108 L·mol−1·s−1)物质。对比表1与表2中的反应速率常数可以得出,有机物与Cl·的反应速率常数整体上要大于Cl2·−的反应速率常数,对于两表中含有的共同化合物来说,与Cl·的反应速率常数要远远大于与Cl2·−的反应速率常数,是由Cl·和Cl2·−的氧化还原电势所决定的[14]。
从表3可以看出,对于
模型,描述符Dv的t值(t = -13.517)最大,表明描述符Dv在这个模型中有最重要的作用。Dv描述符属于WHIM (weighted holistic invariant molecular)描述符[34-35],这种描述符的建立是为了获取有关分子的三维信息,包括分子的大小、形状、对称性和原子分布。在本次研究中,Dv定义为D总可达性指数/原子范德华体积加权(D total accessibility index / weighted by atomic van der Waals volumes),此描述符前面的系数为负表明化合物的Dv值越大,化合物与氯自由基的反应速率常数越小。VE3sign_RG定义为来自倒数平方几何矩阵的最后一个特征向量的对数系数和(logarithmic coefficient sum of the last eigenvector from reciprocal squared geometrical matrix),此描述符属于3D matrix-based描述符,系数为负数表明此描述符与反应速率常数呈负相关;GATS5e (Geary autocorrelation—lag 5 / weighted by atomic Sanderson electronegativities) [35-38]为Sanderson电负性加权的lag5 Geary 自相关指数,属于二维自相关描述符,在这个描述符中,Geary系数是一个距离型函数,该函数是分子中每个原子计算的任何物理化学性质,如原子质量、极化率等。因此,分子原子代表了空间中离散点的集合和在这些点上的函数的原子性质,描述符前面的系数为正,代表其值越高的分子在结构中电子分布越合适,而已知Cl·较强的电子受体能力可以使难降解的化合物降解,因此其值与反应速率常数呈正相关。H-051 (H attached to alpha-C Atom-centred fragments)为H加到以原子为中心的alpha-c片段的基本描述符,系数为负,代表化合物alpha-c上的H原子的数量与反应速率常数呈负相关,如苯酚、苯胺、六甲基苯、苯甲酸的alpha-c数量的氢原子较二氯甲烷,甲烷二醇等结构的少,因此速率常数较大。$ \text{lg}{\text{k}}_{\text{Cl·}} $ 从表4可以看出,对于
模型来说,描述符RDF010s (radial distribution function weighted 010s / weighted by 1-state)的t值(t = 8.311)最大,是影响本模型最大的描述符,此描述符代表I-stat加权的径向分布描述符[39],与反应速率常数呈负相关。剩余两个描述符分别为ATSC5s和L/Bw,其意义分别为I-state加权的lag5中心[40-42]Broto-Moreau自相关描述符以及用几何描述符的形状指数来计算长宽比[43-44],分别与反应速率常数呈负相关与正相关。$ \text{lg}{\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $ -
综上可知,本研究采用MLR方法,发展了一种在OECD原则下实现快速且便捷地预测污染物与卤素自由基反应速率常数的QSAR模型,并通过Euclidean距离法以及Williams方法表征了模型的描述符域及应用域。本模型的的拟合优度较高,稳健性以及预测性都比较好,能够较为准确地预测醇类、醚类、醛类、酸类烷烃及芳香族化合物室温条件下的
值以及苯甲酸取代类物质的$ {\text{k}}_{\text{Cl·}} $ 值。本研究可为进一步发展优化基于卤素自由基的有机污染物去除技术如高级氧化技术提供科学依据,为评估卤素自由基引发的表层海水中有机污染物毒理性变化及生态风险变化提供基础数据。$ {\text{k}}_{{\text{Cl}}_{\text{2}}{\text{·}}^{\text{-}}} $
A quantitative structure-activity relationship model for reaction rate constants of organic chemicals with halogen radicals in aqueous phase
- Received Date: 14/10/2020
- Available Online: 27/02/2022
-
Key words:
- chlorine radical /
- reaction rate constant /
- multiple linear regression /
- quantitative structure-activity relationship
Abstract: Halogen radicals, especially chlorine radicals, play an important role in the transformation and degradation of micro-pollutants in sewage and surface seawater, which can affect the persistence and toxicity risk of pollutants in water environment. There are many kinds of organic pollutants in aqueous phase. However, it is time-consuming and costly to determine the reaction rate constants of organic pollutants with chlorine radicals based on the experiments. Quantitative structure-activity relationship (QSAR) is well recognized as a valuable tool to achieve rapidly quantitative prediction of these reaction rate constants. In this study, the reaction rate constants of 28 organic compounds with Cl· and 18 organic compounds with Cl2·− were collected. QSAR models were then established by multiple linear regression (MLR) for these compounds, respectively (i.e.