为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 因子分析作业

因子分析作业

2019-08-19 10页 doc 108KB 9阅读

用户头像

is_079973

暂无简介

举报
因子分析作业基于因子分析的学生成绩信息挖掘 一、研究背景 进入21世纪以来,高校学生的综合素质培养越来越成为关注的热点。如何科学地对学生的综合成绩进行评价也越来越受到教育人士的重视。在中国的目前,大多数高校采取的是以学习成绩加权平均的传统评价方式,但这一方法存在很多弊端,比如说它掩盖了学生的个性,对学生的评价不够全面,不能够突出学生的独特优势和特点。这就大大降低了评价本身激励、调节等作用的发挥,使得很多学生一味地追求总成绩,而忽略自己的特长发展和自身成长。 2002年12月,国家教育部公布了体现全新教育理念的中小学评价与考试制度改革方案...
因子分析作业
基于因子分析的学生成绩信息挖掘 一、研究背景 进入21世纪以来,高校学生的综合素质培养越来越成为关注的热点。如何科学地对学生的综合成绩进行评价也越来越受到教育人士的重视。在中国的目前,大多数高校采取的是以学习成绩加权平均的传统评价方式,但这一方法存在很多弊端,比如说它掩盖了学生的个性,对学生的评价不够全面,不能够突出学生的独特优势和特点。这就大大降低了评价本身激励、调节等作用的发挥,使得很多学生一味地追求总成绩,而忽略自己的特长发展和自身成长。 2002年12月,国家教育部公布了体现全新教育理念的中小学评价与考试改革,要求评价要多远、评价方法要多样。就在即将要来临的高等教育“大文大理”教育改革中,如何正确地评价一个学生,就显得更为重要。一个好的评价体系,应该形成有效的激励机制,全面并且有针对性地评价学生,使得学生能够了解自我,发展自我优势,扬长避短。进而也帮助学校和用人单位能够了解学生情况,更有针对性地选拔人才。 针对这种按照综合成绩对学生进行笼统排队的方法所存在的种种诟病,考虑到现代教育改革对科学评价方式的迫切需求,本文将利用因子分析的方法,尝试提出更为科学、全面的评价方面,尽力能从学生的考试成绩中挖掘出最有价值的信息。 二、数据说明 本案例的数据来自于北京师范大学某专业21名学生,前两个学年的部分考试成绩。成绩来源于教务处内部数据库,可信度与准确度都较高。数据均为百分制的数值型数据,代每一名学生在这门课上的所得有效成绩。 本次研究将主要运用回归分析的方法对数据进行研究。具体包括线性(逐步)回归、参数检验、显著性检验等方法。 三、研究方法 其实对于怎样科学、综合评价一个学生质量和水平,一直以来都困扰着很多教育工作者和评价计量学家。有的学者通过相关分析、回归分析等手段来探究学生成绩与某些指标之间的关系【1】,有的是以学分绩点为来对学生成绩进行分析【2】。美国哈佛大学的著名心理学家加德纳曾经提出了多元智力理论,该理论认为人类的所有智力大体分为以下七类:语言智力、节奏智力、数理智力、运动智力、自我认知智力和人际关系智力。本文从其中得到想法:是否能利用因子分析的方法,将学生各个学科的成绩降维为类似于多元智力理论中的分类。 因子分析是指研究从变量群中提取共性因子的统计技术。最早有英国心理学家斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而猜想是否存在某些潜在的共性因子,或称为某些一般智力条件影响着学生的成绩。因此分析可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,达到降维的作用,还可检验变量间关系的假设【3】。 四、数据检验和预处理 (一) 奇异点的剔除和数据的筛选 由于部分同学没有选修某些课程,加上某些同学由于特殊情况存在缺考现象,对于这些课程进行了删除,重新筛选出了部分课程共计15门。最后使用的数据是21名同学两学年中共15门课程的成绩。 (二) 前提条件检验 因子分析是将多个实测变量转换为少数几个不相关的综合指标的多远统计分析方法,它要求自变量之间要有一定的关联,表现出一定程度的共线性。因此在进行因子分析之前要先进行检验。检验方法主要有以下三种:相关系数矩阵、巴特利球形检验、KMO检验。 一般来说,当变量之间的相关系数一般都大于0.3时比较适合做因子分析。而巴特利球形检验用于检验相关阵是否是单位阵,即各变量是否独立,检验的零假设是“相关系数矩阵是一个单位阵”如果巴特利球形检验统计量的数值较大且符合显著性检验时,就认为变量之间相关,适合进行因子分析,反之则不能拒绝零假设,不适合做因子分析。而KMO是用于比较变量间简单相关系数和偏相关系数的指标,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近1,意味着变量间的相关性越强,越适合做因子分析。Kaiser给出的常用kmo度量标准如下: <0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1 极不适合 不太适合 一般适合 比较适合 很适合 非常适合             表格1 KMO度量标准 根据以上检验方法,利用SPSS检验结果如下(相关性系数矩阵见附录): KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .728 Bartlett's Test of Sphericity Approx. Chi-Square 204.842 df 105 Sig. .000       表格2条件检验 由检验结果看,相关系数矩阵大部分都大于0.3;KMO值为0.728,比较适合做因子分析;同时巴特利球形检验的P值为0.000小于0.05,拒绝原假设。 综上所述,对于本研究中的数据,基本符合因子分析中的前提假设。 五、具体计算 学生在大学期间所修课程众,但是不同课程之间存在某些或多或少的联系,因为无论是哪些课程——公共课、专业课、选修课等,决定其成绩高低的都是逻辑思维能力、记忆能力等等,只要能找出这些潜在的、共同的因子,那么就可以化繁为简。而因子分析的基本思想就能体现出这些。 首先建立正交因子的模型如下: 其中 表示学生成绩, 表示成绩背后隐藏的“共同因子”, 表示一些不可测量的误差因子。用向量的方式进行表示,则上式可看作是 。 而其中 构成的矩阵A是被称为因子载荷矩阵, 表示为第i门课成绩在第j个共同因子上的载荷。而因子分析的目的就是通过实际数据 来求解载荷矩阵,据此对公共因子进行归类和推导。在提取因子的时候,可利用主成分分析法、最小平方法、主因子解法、极大似然法等等,本文采用比较普遍的主成分法。 六、结果分析与模型修正 (一) 结果分析与说明 根据上述方法的过程,首先得到方差贡献率表如下: Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative % 1 8.102 54.014 54.014 8.102 54.014 54.014 4.677 31.178 31.178 2 1.531 10.206 64.220 1.531 10.206 64.220 3.663 24.420 55.598 3 1.379 9.194 73.414 1.379 9.194 73.414 2.672 17.815 73.414 4 .764 5.094 78.508             5 .710 4.733 83.241             6 .561 3.738 86.980             7 .552 3.677 90.657             8 .442 2.947 93.604             9 .336 2.242 95.846             10 .196 1.308 97.153             11 .158 1.056 98.209             12 .107 .713 98.922             13 .081 .539 99.462             14 .050 .336 99.798             15 .030 .202 100.000             Extraction Method: Principal Component Analysis.                     表格3方差贡献率表 从上述结果可以看出,在选取三个公因子之后累计方差贡献率就已经达到73.414%,第四个特征根相比下降比较快,因此这里选取了三个公共因子。而下面的碎石图也能从直观上印证这一点:前3个特征值的变化比较明显,而后面12个变化都比较缓慢。 图表1碎石图 在确定抽取的公共因子有三个之后,可以来看选取的因子的解释能力,这一点通过公因子方差表来体现,结果如下: Communalities   Initial Extraction 线性代数 1.000 .750 数据库 1.000 .772 普通物理学2 1.000 .754 毛泽东思想 1.000 .870 数理方法 1.000 .775 windows程序设计 1.000 .785 matlab基础与应用 1.000 .781 计算机基础 1.000 .599 大学数学1 1.000 .742 管理学原理 1.000 .795 经济学原理 1.000 .592 大学数学2 1.000 .764 信息管理概论 1.000 .621 C语言 1.000 .660 普通物理学1 1.000 .752 Extraction Method: Principal Component Analysis.       表格4公因子方差表 从表格4可以看出,所有课程信息抽取比例都超过50%,大部分都超过70%,这意味着这三个因子已经都能反映出课程成绩大部分的信息,解释能力已经满足要求,并且遗失的信息也不是很多。 得到的载荷图如下: Component Matrixa   Component 1 2 3 线性代数 .861 .035 -.083 数据库 .837 -.129 -.232 普通物理学2 .581 .229 -.604 毛泽东思想 .456 .694 .423 数理方法 .829 -.027 .294 windows程序设计 .870 -.118 .115 matlab基础与应用 .806 -.093 .350 计算机基础 .535 -.430 .358 大学数学1 .765 .176 -.355 管理学原理 .736 -.285 -.414 经济学原理 .554 .516 -.138 大学数学2 .854 .107 .152 信息管理概论 .692 .371 .074 C语言 .733 -.251 .245 普通物理学1 .743 -.425 -.138 a. 3 components extracted.         表格5载荷图 为了获得意义明确的因子含义,在这里我们将因子载荷矩阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下,通过此法,我们可以更加清楚的来对因子进行定义。 Rotated Component Matrixa   Component 1 2 3 线性代数 .541 .571 .363 数据库 .542 .672 .165 普通物理学2 -.007 .837 .232 毛泽东思想 .145 -.053 .920 数理方法 .732 .244 .425 windows程序设计 .724 .409 .305 matlab基础与应用 .777 .182 .379 计算机基础 .774 .006 -.016 大学数学1 .269 .740 .349 管理学原理 .469 .755 -.071 经济学原理 .042 .453 .621 大学数学2 .609 .378 .500 信息管理概论 .317 .356 .627 C语言 .761 .219 .179 普通物理学1 .680 .530 -.092 a. Rotation converged in 6 iterations.         表格6旋转后载荷图 可以看出数理方法、windows程序设计、Matlab基础与应用、计算机基础、c语言等课程在因子1上的载荷比较大;普通物理学2、大学数学1、管理学原理在因子2上的载荷比较大;毛泽东思想、经济学原理、信息管理概论在因子3上的载荷比较大;还有像线性代数、数据库、普通物理学1等课程在因子1、2上的载荷相对都比较大。 通过和实际课程设置与考察导向来看,特归纳因子意义如下: 因子 载荷比较大的课程 因子意义 因子1 数理方法、windows程序设计、matlab、计算机基础、C语言、线性代数、数据库、普通物理学1、大学数学2 算法与程序思维 因子2 大学数学1、普通物理学2、普通物理学1、管理学原理、数据库、线性代数 逻辑与理解能力 因子3 毛泽东思想、经济学原理、信息管理概论、大学数学2 记忆与文字能力       表格7因子意义
/
本文档为【因子分析作业】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索