为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

赤潮肆虐东海_英文_

2017-11-26 12页 doc 56KB 23阅读

用户头像

is_079973

暂无简介

举报
赤潮肆虐东海_英文_赤潮肆虐东海_英文_ V o l124, N o 13 海 洋 技 术第 24 卷 第 3 期 O C EA N T ECHN O L O GY Sep t, 2005 2005 年 9 月 赤潮随机梯度回归分析 王洪礼, 李胜朋, 冯剑丰 ()天津大学机械工程学院, 天津 300072 建摘 要: 赤潮的危害日益严重, 为了预测赤潮的发生, 运用回归树的随机梯度 算法分析渤海赤潮数据, Boo st ing 立浮游植物总量与环境因子的定量关系, 给出各种环境因子对浮游植物总量相对影响的大小 以及浮游植物总量和 ...
赤潮肆虐东海_英文_
赤潮肆虐东海_英文_ V o l124, N o 13 海 洋 技 术第 24 卷 第 3 期 O C EA N T ECHN O L O GY Sep t, 2005 2005 年 9 月 赤潮随机梯度回归 王洪礼, 李胜朋, 冯剑丰 ()天津大学机械工程学院, 天津 300072 建摘 要: 赤潮的危害日益严重, 为了预测赤潮的发生, 运用回归树的随机梯度 算法分析渤海赤潮数据, Boo st ing 立浮游植物总量与环境因子的定量关系, 给出各种环境因子对浮游植物总量相对影响的大小 以及浮游植物总量和 各种环境因子偏相关的图形, 有利于探索赤潮的发生机制, 指导菌种的培养。最后, 相比其它算法, 回归树的随 而且具有较高的预测精度。机梯度 Boo st ing 对于 “局部剧增”的赤潮数据是稳健的, 关键词: 赤潮; 回归树; 支持向量回归;M A R S 随机梯度 Boo st ing; 中图分类号: 322文献标识码: () O B文章编号: 100322029 20050320065205 2 回归树的随机梯度 算法Boo s t in g 1 引言 集成学习技术是机 器 学 习 领 域 近 10 a 研 究 的 热 点 之 20 a 中, 由于沿海经济的高速发展, 海洋富营 在过去的 一, 它试图连续地调用简单的学习算法, 通过改变学习样本 养化状况日益严重, 赤潮发生的频率、影响规模都在不断扩 获得不同的基础学习器, 最后将基础学习器组合起来, 成为 大, 各国都加强了对于赤潮预测理论的研究。利用预测模型 一个可以达到需求精度的方法。一般来说, 组合学习器的复 探索赤潮的形成机理, 对于预测预报赤潮、减少赤潮的损害 杂程度要比签础学习器高的多。相比较学习器复杂程度的增 十分关键。 加, 如果性能的改进更为显著, 那么最终的学习 器不仅能减 国内外许多学者建立浮游植物总量与环境因子的定量 1 小拟和误差, 而且将提高泛化能力。 () 模型。国内, 天津大学王洪礼 2003建立了赤潮藻类营养 盐 限 制 方 程 并 研 究 了 方 程 的 非 线 性 动 力 学 行 为。 黄 奕 华 102 () 算法 将梯度下降技术应用于回归树的梯度 1997等以逐步回归、主成分分析及判别的方法分析了大 Boo st ing 3 () 棚湾中肋骨条藻 与环境因子的关系; 夏综万 1997等将 () 回归树中。将每轮迭代的基础学习器 回归树在 上的值 x 海洋动力学与赤潮生物动力学相结合, 建立了一个赤潮发生 看作损失函数空间在 上的负梯度, 将基础学习器前的系数 x 10 看作步长, 来逼近误差函数空间的最小值。将这种技术用 4于 一 些 损 失 函 数, 如 平 方 损 失, 绝 对 损 失, 损 失, H ube r 等人 对 淡 水 赤 潮 所 做 的 统 计 分 析。的仿真模型。F uk e ju 5 损失, 并给出了一些实验数据以证明其有效性。如果lo g ist ic 等人利用决策树以及分片非线性回归预测藻类浓 Q iuw en 将 的 思 想 融 入 到 回 归 树 的 梯 度 算 法 中 B agg ing Boo st ing 度和赤潮发生时间。但就目前来说, 这些模型都还没有真正 (() ) 去, 在每次伪残差 损失函数关于 的负梯度的训练F x 用于赤潮的预测预警。本文基于渤海实测数据, 选用回归树 6 过程中不是把所有的伪残差都用来训练, 而是随机地选择一的随机梯度 Boo st ing 算法, 综合考虑了 支持向量回归, 7最后Boo st ing 算法, 部分用来训练就是回归树的随机 梯度 (人工神经网络, M A R Sm u lt iva r ia te adap t ive reg re ssio n9 8 得到的模型就是一些回归树的线性组合 ) , 回归树, 从预留的三个数据的投影寻踪回归, sp line sM 预测值与实测值的相对误差可以知道, 绝对损失函数的随机 () ()()F x = 1 ΑT x m m ?m = 1 梯度 算法比起其它方法更稳健。Boo st ing () 其中 是线性组合的系数。这种T m x 是棵回归树, Αm 方法具有回归树的统计性质, 而且通常比单棵回归树预测的 收稿日期: 2005201212 精度更高。 ( ) 基金项目: 国家自然科学基金资助项目 104723077 ( ) 作者简介: 王洪礼 1945- , 女, 河北沧县人, 天津大学教授, 博 3 监测数据及预处理 士生导师。 ()()2003 年, 分别于枯水期 5 月、 丰水期 8 月、 平水 () 期 10 月对天津近海海域生态环境因子进行了调查。2000 证。 ()() , 2003 年, 分别于枯水期 5 月、 丰水期 8 月、 平水期 () 10 月对天津近海海域生态环境因子进行了调查。 4 随机梯度 回归结果及讨论Boo st in g 监测项目为: ()水文气象: 风速、简易天气现象 晴天、阴天、雨天、 411 数选择及相对影响计算 运算过程中主要是一些参数的选择, 有些可以按照建议 表层水温。 的取值, 如 小于 011 就行, 这里取 01001。sh r ink age B agg ing 水质:值、 盐度、 溶解氧、 叶绿素2、 化学耗氧量、 pH a的比例取 015 , 每棵树的叶结点数 是树的深度控制的, 这 J 磷酸盐、亚硝酸盐2氮、硝酸盐2氮、氨盐2氮。赤潮生物浮游 里令为 3, 即每棵树最多有三个变量的交互作用。比较难确 ()11 植物细胞总量 个ƒ毫升。 由于藻类浓度是赤潮发生的标定的参数是树的数目, 采用的方法, 由于梯度M Boo st ing 志, 以浮游植物总量作 可以在原来生成树的基础上任意增加树的数目, 所以首先生 为预报量, 其它实测 14 个环境变量为预报因子。通过回归技 成足够多的树, 然后从中选择最优的。M 术, 给出它们的定量关系, 从而确定影响藻类浓度的关键因 预留的三组数据的相对误差为, - 01428, - 01172, - ( ) 子以及临界值。预报因子中光照 为名义水平变量, 存 sr01204, 这在一个可以接受的水平之内。但是由于所得模型的 在三个水平, 晴天, 阴天, 雨天。其它的 13 个自变量都为数 形式非常复杂, 很难有实际的解释。实际上人们最关心的问 值变量, 浮游植物总量也是数值变量, 所以应采用回归算法。题在这么多的变量中究竟哪个变量与浮游植物总量关系更 如果假定它们之间的联系不随时间和空间而改变。我们就将 密切, 哪个变量对浮游植物 的生长起着关键的作用, 即它们 全部 93 组数据当作预报因子和预报量的样本。 在数据分析 对浮游植物总量影响的强弱。不管函数多么复杂, 总是可以 之前必须对数据预处理, 数据的预处理包括两个方面, 一是计算的。 问题就 转 化 成 这 样 的 形 式: 给 定 一 个 多 元 函 数, 名义水平变量的处理, 二是数据的标准化。由于数据有的比 较整齐, 波动以及方差不是很大, 有的波动以及方差都很大, ) ((), , = x , 怎样度量单自变量 x 对整个函 x 1 F x Fn j 9 如浮游植物总量, 对应的盒子图以及直方图如图 1。 从图 1) (给出回归树的不同变量, 数F 的相对影响? , x n x 1 来看, 浮游植物总量的“异常值”相当多, 变化范围从 10 到对目标函数影响的度量的一个估计 8 952, 而且样本量不是很充分, 这给预测带来很大的困难。 δδ 2J - 1 2 ()()= =1 IiI v =j 2 j t t ?t 减去均值, 除以标准差这种标准化方法不大适合异常值较多 其中 t 表示 J 个叶结点的回归树的第 t 个非叶结点, 叶 的数据,() ()标准化方法,( 所以采用 - ƒ- x x m in x m ax x m in 结点总比所有非叶结点多一个, 是在非叶结点分割变量,v t 消除不同量纲的影响, 将所有数据映射到 0, 1区间。 δ2 就是分 割 造 成 的 经 验 损 失 的 减 少。 对 于 树 的 线 性 组 合,it () 2自然的推广就是 M δδ 22() ()3 = I T Ij j m ?m = 1 一般树的数目非常多, 每个变量被选作分割变量的概率 是同等的, 如果一个变量多次被选作分割变量, 应该是该变 (量确实对目标函数的贡献大。16 个环境因子 加上拆分的两 ) 个名义水平变量对浮游植物总量的相对影响具体数值大小 如表 1。 从表 1 可以看出, 对浮游植物总量影响大小依次为气压 > 磷酸盐> 值> 溶解氧> 表层水温> 叶绿素> 风速> 硅 pH 酸盐> 亚硝酸盐> 盐度> 铵盐> 化学耗氧量> 硝酸盐> 晴 天> 阴天> 雨天。实际上, 晴天、阴天、雨天是光照因子的 1 浮游植物总量盒子图和直方图 图 三个名义水平, 它们对浮游植物总量的影响是如此之小以致 可以忽略。另外浮游植物总量针对光照因子的三个水平的方在数据预处理之后, 为了便于比较各种回归算法对赤潮 () () 表 2也说明光照因子的不同水平对 差分析表 A N OV A 数据的适应性, 特意预留了 5 月 22 日 5 号监测站, 6 月 12 日 浮游植物总量没有影响。而方差分析表是假定每组数据来自 2 号监测站和 8 月 7 日 4 号监测站 3 组数据, 其余 90 组数据 正态分布且方差相同, 也可以采用不必假定方差相等的均值() 用来得到回归方程。最后以相对误差 - ƒ作y p red ict y true y true 12检 验 , 检验的 值为 0141 > 0105, 同 样 加 强 了 以 上 结 p 第 3 期王洪礼等: 赤潮随机梯度回归分析 67 , 能够给出一些有用的建议。印像对浮游植物总量影响大小次序为气压> pH 值> 盐度> 硅酸 是自变量 = {,, 令 } 的一个大小为 的子表 1 环境因子对浮游植物总量的相对影响大小 z l x x 1 x n l 集和, 即 序号环境因子相对影响 z = {z , , z } = {x , , x } l 1 l 1 n 34176 气压1 是补集z l \ 10161 2 磷酸盐 值 9165 3 pH z l ? z l = x \δδδ 8114 溶解氧 4 () ()所以模型 = , 。如果将 固定, 则就是 的 Fx Fz l z l z l Fz l \\ δ 75 172 表层水温 函数, 这就是通常所讲的截面。 我们关心的是对 函数 z l F5136 6 叶绿素 风( ) 的影响, 这随着 不同而不同, 为了减少对 的依赖x z \ l z \ l 5108 7 速 硅酸盐 性,平均是一种很好的方法 4171 8 亚硝酸盐 ~ δ δ ()() () () () 4 F [ F F , z z z l = E z \ l x = z l \ l p \ l z \ l d \ l3194 9 盐度 ? 3142 10 铵盐 化学耗() () p z 是 z 的边缘密度。 4的一个估计就是 l l l \\\ N 2161 11 氧量 1 ~ δ() ()()5 Fz l = Fz l , z i, l \? N 2107 12 硝酸盐i= 1 ( 图 2 显示对浮游植物总量最有影响的环境因子 气 1178 13 p 晴天 ) () 014 112 压, 磷酸盐, , 单个变量分别与浮游植物总量 阴天 PO 4 pH DO 0100 15 ( )的偏相关 4。从图 2 明显可以知道浮游植物总量随着磷酸 0100 16 雨天 盐的增加而增大, 且磷酸盐存在一个临界点, 当超过这个临 界点, 磷酸盐再增大, 浮游植物总量也不会增加。可见在渤 海湾赤潮的形成过程中, 磷酸盐扮演着一个重要的角色。盐> 风速> 表层水温> 溶解氧> 硝酸盐,其它的因子如磷 酸盐、叶绿素、亚硝酸盐、铵盐、化学耗氧量、光照 可以认 为对浮游植物总量没有贡献。两者都认为气压、值、表层 pH 水温、硅酸盐、盐度对浮游植物总量的影响很大, 有所差别 13 的是因子磷酸盐和叶绿素, 认为对浮游植物总量没有影 响, 而这里分析出它们对浮游植物总量影响很大, 尤其是磷 酸盐。一个原因是秩相关系数只是检验单调性, 不是对所有 的关系都能检验出来。 第二个原因是分别计算各种因子与 浮游植物总量的秩相关系数, 而没有考虑其它因子的交叉作 用。 表 2 浮游植物总量针对光照因子的 三个水平的方差分析表 来源组间组内 自由度2 90 平方和 01017 21811 ) () (图 2 环境因子 p 气压, PO 磷酸盐, 4 值 , 单个变量分别与浮游植物总量的偏相关F 显pH DO 01265 著性 01768 5 其它算法比较 412 模型偏相关可视化 函数的可视化是数据分析的一个重要工具, 但是可视化 基于环境因子预测浮游植物总量也是赤潮研究的一个 只是限制在一二元函数。 一元函数的图形表达包括散点图 , 14 和 15 的算法是人工神经网络, 16 的是支 主要方向 ( ) () 自变量连续, 方格图 自变量是名义水平变量等等。二 持向量, 17 、2 和 18 采用一些传统的回归方法。不同算 元函数表达常用就是等高图。高于二元的函数是很难通过图 法预测预留的三组数据的相对误差的结果见表 3, 从表 3 可形表达, 一种有用的想法是考虑部分自变量对整个函数的偏 以知道绝对损失函数的随机梯度 算法更稳健。 值 Boo st ing 相关性, 然后收集这些图形, 对函数的整体就有一个大概的 得 注意的是, 同样的梯度 算法, 损失函数选择不Boo st ing 同, 对预测的精度影响很大。由于浮游植物总量的异常值较 () 多 图 1, 绝对损失函数就比平方损失函数效果更好。 6 结语 表 3 不同算法预测预留的三组数据的相对误差 运用回归树的随机梯度 Boo st ing 建立浮游植物总量与 5 月 22 日6 月 12 日8 月 7 日 相对误差 环境因子的定量关系, 利用相关度量得到环境因子对浮游植 5 号监测站 2 号监测站4 号监测站物总量影响大小次序, 并且获得其它统计模型的验证。浮游 随机梯度 植物总量和各种环境因子偏相关的图形直接反映环境因子 - 01428 - 01172 01204 Boo st ing ()绝对损失函数 对浮游植物总量的影响。以上结论有利于探索赤潮的生成原 随机梯度 随因, 指导菌种的培养。最后, 比较其它算法, 知道回归树的 103 - 11151 - 11378 - 4Boo st ing ()平方损失函数 机梯度 是非常适合 “局部剧增”的赤潮数据的。Boo st ing 01701 1901 1339 - 1- 0支持向量回归 人工神经网络 - 01328 41186 01059 - M A R S - 01439 - 01336 01277 - 01191 1092 - 6185 - 0投影寻踪 回归树 - 01357 01318 - 11383 参考文献: ( ) 王洪礼, 冯剑丰, 李超, 沈菲 1 多种群赤潮生态模型的非线性动力学研究 [] 1 天津大学学报 1 2003, 1 36 4: 40024031 J ( ) 2 黄奕华, 楚建华, 齐雨藻 1 南海大鹏湾盐田海域骨条藻数量的多元分析 [ ] 1 海洋和湖泊 1 1997, 28 2: 12121261 J ( ) 夏综万, 于斌 1 大鹏湾的赤潮生态仿真模型 [ ] 1 海洋与湖沼 1 1997, 28 5: 468247413 J 1 1 , , [ ] 4 S H F uk u ju T T ak ah a sh iT Kaw ayo k eS ta t ist ica l A na ly sis o f F re sshw a te r R ed t ide in J ap ane se R e se rvo ir s J W a te r Sc ience and ( ) , 1998, 37 2: 20322101T ech no lo gy 1 , C h en Q iuw en E M A r th u rP red ic t io ng p h aeo cy st is g lo bo sa b loom in D u tch co a sta l w a te r s by dec isio n t ree s and no n linea r p iecew ise 5 [] 1 , 2004, 176:reg re ssio n J E co lo g ica l M o de lling 27722901 1 1 1[] , , 19956 V V ap n ik T h e N a tu re o f S ta t ist ica l L ea rn ing T h eo ry M Sp r inge rN Y () 1 1 21411[] , 1991, 19: 17 J F redm an M u lt iva r ia te adap t ive reg re ssio n sp line s w ith d iscu ssio n J T h e anna ls o f sta t ist ic s 1 1 28231, [] , 1981, 76: 8178 J H F r iedm an W S tue tzleP ro jec t io n p u r su it reg re ssio n J J A m e r S ta t ist A sso c 9 1 ˉ11, , , [] : , 1984L B re im anJ H F r iedm anR A O lsh en C J S to neC la ssica t io n and R eg re ssio n T ree s M N ew Yo rkC h apm an and H a ll 1 1 : [] ,10 J H F re idm anG reedy func t io n app ro x im a t io na g rad ien t boo st ing m ach ine J A nna ls o f S ta t ist ic s 2001, 29: 1189212321 11 1 221 ƒƒ1[ ] : - G R idgew ayA no te o n o u to fbag e st im a t io n fo r e st im a t ing th e op t im a l num be r o f boo st ing ite ra t io n s J h t tpwww i 111ƒƒ, 2003p en sie r icom g reg rgbm sh tm l 1 1 23361: [] 1951, 38: 33012 B L W e lch O n th e com p a r iso n o f seve ra l m ean va lue san a lte rna t ive app ro ach J B iom e t r ik a ( ) 李胜朋, 王洪礼, 冯剑丰 1 渤海湾赤潮藻类浓度与环境因子的非线性相关分析 [J ] 1 海洋技术, 2004, 23 3: 822841 13 ( ) 14 杨建强, 罗先香, 丁德文, 秦洁 1 赤潮预测的人工神经网络方法初步研究 [] 1 海洋科学进展, 2003,21 3: 31823241 J ( ) 15 蔡如钰 1 基于人工神经网络的夜光藻密度预测模型 [] 1 中国环境监测 1 2001, 17 3: 522551J 16 ( ) 陆文聪, 杨柳 1 支持向量机算法用于夜光藻密度建模 [] 1 计算机与应用化学, 2002, 19 2: 70627081 J ( ) 17 谢中华 1 运用混合回归模型预报赤潮 [] 1 海洋技术, 2004, 23 1: 272301J ( ) 林祖享, 梁舜华 1 探讨运用多元回归分析预报赤潮 [] 1 海洋环境科学, 2002, 21 3: 124118 J 第 3 期王洪礼等: 赤潮随机梯度回归分析 69 S to ch a s t ic G rad ien t R eg re s s io n A n a ly s is o f HA B 222, , W A N G H o n gliL I Sh en gp en gF EN G J ian fen g (), , , 300072 S ch ool of M ech an ica l E ng inee r ing T ianj in U n iv e rs ity T ianj in A bstrac t: It is o f g rea t im po r tance to p red ic t o ccu r rence o f HA B since it s h a rm fu l re su lt s a re ge t t ing m o re and m o re se r io u s. , , M o reo ve rfunc t io na l re la t io n R e levan t effec t and p a r t ia l dep endence g rap h ic s be tw een p h y top lank to n and each env iro nm en ta l fac to r can be co nc luded f rom su rvey da ta abo u t HA B in B ao h a i by S to ch a st ic G rad ien t Boo st ing o f R eg re ssio n , . T reew h ich is e ssen t ia l fo r th e re sea rch o f cau se o f HA B and in st ruc t io n o f incuba t io n o f th a lliIt is show ing th a t sto ch a st ic , , g rad ien t boo st ing w h ich h ave be t te r p e rfo rm ance th an suppo r t vec to r reg re ssio na r t if ica l neu ra l ne tw o rk M A R S and p ro jec t .p u r su it reg re ssio n is m o re ro bu st to HA B da ta w h ich is lo ca lly sh a rp ly inc rea sed Key words: R ed t ide; R eg re ssio n T ree; S to ch a st ic G rad ien t Boo st ing; Suppo r t V ec to r R eg re ssio n; M A R S
/
本文档为【赤潮肆虐东海_英文_】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索