12+
1
神经网络敏感性研究及其应用
12+
2
泛化能力
• 泛化能力(generalization ability)是指机器学习算法对
新鲜样本的适应能力。学习的目的是学到隐含在数据
对背后的规律,对具有同一规律的学习集以外的数据
,经过训练的网络也能给出合适的输出,该能力称为
泛化能力。
12+
3
• 敏感性研究
– 分析网络输出因参数波动的变化趋势
– 量化网络输出因参数波动的变化程度
• 敏感性应用
– 完善网络设计和训练的方法
– 解决模式识别的有关问题
• 研究展望
– 打造更加精确和实用的敏感性尺度
– 推广敏感性的应用
概要
12+
4
敏感性研究
• 研究背景
– 人工神经网的工作原理
通过学习在输入和输出之间建立隐式的函数依
赖关系,用来实现记忆、联想、分类、聚类、
逼近、优化等功能。
),,( AWXfY
X NN Y
12+
5
敏感性研究
• 研究背景(续)
– 有监督的性能学习机制
对于来自一个未知函数 的样本数据:
通过调整网络 的权参数使其满足:
来实现 逼近 。
)}(|),(),...,,(),,{( 2211 iiNN XFddXdXdX
)(XF
f
)(XF
)))(),((
1
(
1
2
N
i
ii
W
XFWXf
N
Min
)(Xf
12+
6
敏感性研究
• 研究背景(续)
– 无监督的竞争学习机制
对于样本数据:
用如下规则调整权网络 的权参数直至稳定
))1()(()1()( qWXXfqWqW qq
},...,,{ 21 NXXX
f
12+
7
• 研究提出
– 问题
• 环境噪音将引起神经网络输入的异常波动
• 硬件精度将导致神经网络权值的截断误差
– 动机
• 参数的扰动对网络输出会产生怎样影响?
• 如何量化对网络输出产生的影响来衡量网络容
错和泛化性能?
敏感性研究
12+
8
• 研究内容
– 探索网络输出对网络参数(输入、权和结构)扰
动的敏感性
– 网络输出敏感性的定性分析和定量计算
敏感性研究
),,( AWXfY
XX NN YY
)),,(),,(( AWXfAAWWXXfY
12+
9
• 研究意义
– 相对尺度,度量网络容错和泛化性能
• 容错尺度(视 为破坏性干扰):
• 泛化尺度(视 为输入增量):
敏感性研究
N
i
iiX XfXXfE
N 1
))()(((|
1
|))()((| XFXfEGErr X
|)))()(())()(( XXFXFXFXf iiii
|)))()((|( XXFXXfEE iiXX i
|)),(),((| WXfWWXXfEErr X
WX ,
X
12+
1
0
• 研究意义(续)
– 通用尺度,解决模式识别和机器学习等方面问题
• 降维:度量输入属性相关性
• 主动学习:度量输入样本代表性
• 自适应学习:度量权可塑性
• 网络结构裁减:度量神经元重要性
• 集成学习:度量网络输出多样性(差异性)
敏感性研究
12+
1
1
• 研究现状
– Madaline敏感性
• 几何模型(超球面)
– M. Stevenson, R. Winter & B. Widrow, “Sensitivity
of Feedforward Neural Networks to Weight Errors,”
IEEE Trans. on Neural Networks, 1(1): 71–80, 1990.
• 统计模型(方差)
– S. W. Piché, “The Selection of Weight Accuracies for
Madalines,” IEEE Trans. on Neural Networks, 6(2):
432–445, 1995.
敏感性研究
12+
1
2
• 研究现状(续)
– Madaline敏感性(我们的工作)
• 几何模型(超立方顶点)
– X. Zeng, Y. Wang, et al, “Computation of Adalines’
Sensitivity to Weight Perturbation”, IEEE Trans. on
Neural Networks, 17(2): 515-519, 2006.
• 概率模型
– Y. Wang, X. Zeng, et al,“Computation of Madalines’
Sensitivity to Input and Weight Perturbations”, Neural
Computation, 18(11): 2854-2877, 2006
– S. Zhong, X. zeng, et al, “Approximate Computation
of Madaline Sensitivity Based on Discrete Stochastic
Technique”, Science in China (F), 53(12): 2399–2414,
2010.
敏感性研究
12+
1
3
• 研究现状(续)
– MLP的敏感性
• 分析方法(偏微分)
– S. Hashem, “Sensitivity Analysis for Feedforward
Artificial Neural Networks with Differentiable
Activation Functions,” Proc. IJCNN, 419–424 , 1992.
• 统计方法(标准差)
– J. Y. Choi & C. H. Choi, “Sensitivity Analysis of
Multilayer Perceptron with Differentiable Activation
Functions,” IEEE Trans. on Neural Networks, 3(1):
101–107, 1992.
敏感性研究
12+
1
4
• 研究现状(续)
– MLP的敏感性(续)
• 统计方法(方差和均值)
– D. Yeung & X. Sun, “Using function approximation to
analyze the sensitivity of MLP with antisymmetric
squashing activation function,” IEEE Trans. on
Neural Networks, 13(1): 34-44, 2002.
– S. Yang, C. Ho & S. Siu, “Computing and Analyzing
the Sensitivity of MLP Due to the Errors of the i.i.d.
Inputs and Weights Based on CLT,” IEEE Trans. on
Neural Networks, online, 2010.
敏感性研究
12+
1
5
• 研究现状(续)
– MLP的敏感性(我们的工作)
• 统计方法(均值)
– X. Zeng & D. Yeung, “Sensitivity analysis of
multilayer Perceptron to input and weight
perturbations,” IEEE Trans. on Neural Networks,
12(6): 1358-1366, 2001.
• 统计+几何方法(均值+超立方体)
– X. Zeng & D. Yeung, “A Quantified Sensitivity
Measure for Multilayer Perceptron to Input Pertur-
bation,” Neural Computation, 15(1): 183-212, 2003.
敏感性研究
12+
1
6
• 研究现状(续)
– RBF的敏感性
• 统计方法(方差)
– W. Ng, D. Yeung, et al, “Statistical Output Sensitivity
to Input and Weight Perturbations of RBF neural
networks,” Proc. IEEE ICSMC, 503–508, 2002.
• 统计方法(均值)(我们的工作)
– X. Cheng, X. Zeng, et al, “A Quantified Sensitivity
Measure of Radial Basis Function Neural Networks to
Input Variation”, Proc. IEEE IJCNN, 386-391, 2010.
敏感性研究
12+
1
7
• 研究思路
– 自底向上:首先是单个神经元的敏感性;然后是
一层的敏感性;最后是整个网络的敏感性。也就
是,从第一层开始,逐层计算层上每个神经元的
敏感性,前一层的神经元敏感性作为下一层神经
元的输入扰动,输出层的敏感性就是网络的敏感
性。
– 自后向前:仅仅考虑输出层上每个神经元的敏感
性,即将这些神经的输出作为网络输入或各隐层
权值的复合函数来自后向前处理。
敏感性研究
12+
1
8
• 敏感性定义
– 网络输出对某个参数(输入或权)的导数
或
– 网络因参数扰动导致输出变化的概率
– 网络因参数扰动导致输出变化的均值
– 网络因参数扰动导致输出变化的方差
敏感性研究
|)),(),((| WXfWWXXfEs
)),(),(( WXfWWXXfPs
)),(),(( WXfWWXXfDs
X
WXf
s
),(
W
WXf
s
),(
12+
1
9
• 敏感性定义的多样性及其应用背景
敏感性研究
Parameter
deviation
Statistical
variable Sensitivity
function
Applicable situation
, Sensitivity to a given input deviation
for untrained networks on overall input
patterns.
, , Sensitivity to given input and weight
deviations for untrained networks on
overall input patterns.
, Sensitivity to given input and weight
deviations for untrained networks on a
given input pattern.
Sensitivity to a given input deviation
for trained networks on overall input
patterns.
Sensitivity to a given input deviation
for trained networks on a given input
1X 1XW )( 1XS 1XW 1XW ),( 1 WXS 1XWW
),,( 11 WXXS
1X 1X
),( 1 WXS
1X
),,( 11 WXXS
1X 1X
),( 1 WXS
1X
1X
1X
)(WS
)( 1XS
12+
2
0
• 敏感性计算
–
敏感性研究
Parameter
deviation
Statistical
variable
Sensitivity
function
Applicable situation
, Sensitivity to a given input deviation for
untrained networks on overall input
patterns.
, , Sensitivity to given input and weight
deviations for untrained networks on
overall input patterns.
, Sensitivity to given input and weight
deviations for untrained networks on a
given input pattern.
Sensitivity to a given input deviation for
trained networks on overall input patterns.
Sensitivity to a given input deviation for
trained networks on a given input pattern.
Sensitivity to overall input deviations for
trained networks on a given input pattern.
,
Sensitivity to overall input deviations for
trained networks on overall input patterns.
1X 1XW )( 1XS 1XW 1XW ),( 1 WXS 1XWW ),,( 11 WXXS 1X 1X ),( 1 WXS 1X ),,( 11 WXXS 1X 1X ),( 1 WXS 1X 1X 1X )(WS
12+
2
1
• 分析及实验验证
–
敏感性研究
12+
2
2
• 网络自适应参数(权、神经元)选择
– W. W. Y. Ng and D. S. Yeung,
“Selection of weight quantisation
accuracy for radial basis function
neural network using stochastic
sensitivity measure”, Electronic
Letters, pp. 787-789, 2003.
敏感性应用
12+
2
3
• 网络结构(属性、结点)裁减
–
敏感性应用
12+
2
4
• 训练样本挑选(主动学习)
– 网络差异性度量(集成学习)
– 环境噪音将引起网络输入的异常波动
– 硬件精度将导致网络权值的截断误差
敏感性应用
12+
2
5
• 网络差异性度量(集成学习)
–
敏感性应用
12+
2
6
• 网络自适应参数(权、神经元)选择
– 网络自适应参数(权、神经元)选择
– 网络结构(属性、结点)裁减
– 训练样本挑选(主动学习)
– 网络差异性度量(集成学习)
– 环境噪音将引起网络输入的异常波动
– 硬件精度将导致网络权值的截断误差
敏感性应用
12+
2
7
思考题
从结构、学习、功能和性能等方面,对含单隐层MLP网络、
RBF网络和SVM网络进行详细比较,并结合自己的研究领域
讨论它们的应用前景。