用身高和体重数据进行分类实验用身高和体重数据进行性别分类的实验报告
一、基本要求:
1. 用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。
二、具体做法:
(1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。在分类器...
用身高和体重数据进行性别分类的实验
一、基本要求:
1. 用FAMALE.TXT和MALE.TXT的数据作为训练
集,建立Bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学
的理解和感性认识。
二、具体做法:
(1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。在分类器
时可以考察采用不同先验概率(如0.5对0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。
(2)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。
(3)自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。
三、原理简述及程序框图
最小错误率Bayes分类器
(1)基于身高
第一步 求出训练样本的方差和期望
第二步 利用单变量正态分布公式算出条件概率
第三步 将前两步的值带入贝叶斯公式
第四步 若pF>=pM,则判断其为第一类,反之,第二类
(2-1) 假设身高与体重不相关
令协方差矩阵次对角元素为零
判别函数可简化为
其中 ,
具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA,MA。
第二步分别对FA,MA求取协方差,令协方差矩阵次对角
元素为零,平均值并输入先验概率
第三步将第二步所得数值代入判别函数表达式得。
第四步将待测样本集数据转为矩阵T,将T中数值依次代
,若,则判断其为第一类,反之,第二类。
(2-2) 假设身高与体重相关
判别函数可简化为
其中 ,
具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA,MA。
第二步分别对FA,MA求取协方差平均值并输入先验概率
第三步将第二步所得数值代入判别函数表达式得。
第四步将待测样本集数据转为矩阵T,将T中数值依次代,若,则判断其为第一类,反之,第二类。
最小风险Bayes分类器
(1)在已知先验概率和类条件概率密度,j=1, …c及给出带识别的x的情况下,根据Bayes公式计算后验概率:
(2)利用后验概率及决策表,计算条件风险
(3),就是最小风险Bayes决策。
其中(1)中先验概率根据自行输入,类条件概率密度=
,本实验 为二维二类,故d=2,决策表自行输入。
四实验结果及
总结
用最小错误率Bayes决策
(1)基于身高身高(300个测试样本)
性别为女生的先验概率
性别为男生的先验概率
男生误判错的个数
女生误判错的个数
测试样本的
正确率
0.9
0.1
147
0
51%
0.75
0.25
64
2
78%
0.5
0.5
23
4
91%
0.25
0.75
10
10
93.3%
0.1
0.9
4
13
94.3%
(2-1)身高与体重不相关(300个样本)
性别为女生的先验概率
性别为男生的先验概率
男生误判错的个数
女生误判错的个数
测试样本的
正确率
0.9
0.1
57
1
80.7%
0.75
0.25
44
1
85%
0.5
0.5
27
2
90.3%
0.25
0.75
15
4
93.7%
0.1
0.9
8
8
94.7%
(2-2)假设身高与体重相关(300个测试样本)
性别为女生的先验概率
性别为男生的先验概率
男生误判错的个数
女生误判错的个数
测试样本的
正确率
0.9
0.1
97
1
67.3%
0.75
0.25
59
1
80%
0.5
0.5
31
1
89.3%
0.25
0.75
8
6
95.3%
0.1
0.9
4
12
94.7%
(2)用最小风险的Bayes决策
女生
男生
判为女生
0
3
判为男生
2
0
当决策为
身高体重相关(300个测试样本)
性别为女生的先验概率
性别为男生的先验概率
男生误判错的个数
女生误判错的个数
测试样本的
正确率
0.9
0.1
80
1
73%
0.75
0.25
46
1
84.3%
0.5
0.5
20
4
92%
0.25
0.75
6
9
95%
0.1
0.9
3
16
93.7%
结论:当女生先验概率等于待测样本中女生样本占待测样本的概率时,
正确率,且越远离此概率,正确率越小。
本文档为【用身高和体重数据进行分类实验】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。