为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

《回归分析》PPT课件 (2)

2021-02-19 32页 ppt 211KB 98阅读

用户头像 机构认证

爱赢

公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)

举报
《回归分析》PPT课件 (2)第九章回归分析精选PPT主要内容9.0回归分析概述9.1线性回归分析9.2曲线估计9.3非线性回归分析精选PPT9.0回归分析概述(1)确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。(2)回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据自变量...
《回归分析》PPT课件 (2)
第九章回归精选PPT主要内容9.0回归分析概述9.1线性回归分析9.2曲线估计9.3非线性回归分析精选PPT9.0回归分析概述(1)确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系,函数达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。(2)回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。精选PPT主要内容9.0回归分析概述9.1线性回归分析9.2曲线估计9.3非线性回归分析精选PPT9.1线性回归分析(1)基本概念线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。根据自变量的多少,线性回归可有不同的划分。当自变量只有一个时,称为一元线性回归,当自变量有多个时,称为多元线性回归。(2)统计原理一元回归方程和多元回归方程一元线性和多元线性回归分析的核心任务就是估计其中的参数。精选PPT9.1线性回归分析(3)分析步骤第1步确定回归方程中的因变量和自变量;第2步确定回归模型:根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来概括回归方程。如果被解释变量与解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;反之,建立非线性回归模型。第3步建立回归方程:根据收集到的数据以及第2步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。第4步对回归方程进行各种检验:拟合优度检验;回归方程的显著性检验;回归系数的显著性检验。第5步利用回归方程进行预测。精选PPT9.1线性回归分析SPSS实现举例【例9-1】现有1992年~2006年国家财政收入和国民生产总值的数据如下表所示,请研究国家财政收入和国民生产总值之间的线性关系。年份国内生产总值(单位:亿元)财政收入(单位:亿元)年份国内生产总值(单位:亿元)财政收入(单位:亿元)199226923.53483.37200099214.613395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003135822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.08精选PPT9.1线性回归分析第1步分析:这是一个因变量和一个自变量之间的问题,故应该考虑用一元线性回归解决。第2步数据组织:定义三个变量,分别为“year”(年份)、“x”(国内生产总值)、“y”(财政收入。第3步一元线性回归分析设置:将变量“y”作为因变量,“x”作为自变量。在Plots对话框中选用DEPENDENT和*ZPRED作图。并且选择Histogram复选框给出正态曲线和Normalprobabilityplot复选框输出标准化残差的正态概率图。并作相应的保存选项设置。精选PPT9.1线性回归分析第4步主要结果及分析。引入或剔除表表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“x”(国内生产总值)。模型综述表R=0.989,说明自变量与因变量之间的相关性很强。R2=0.979,说明自变量x可以解释因变量y的97.9%的差异性。ModelVariablesEnteredVariablesRemovedMethod1国内生产总值a.Entera.Allrequestedvariablesentered.b.DependentVariable:财政收入ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.989a.979.9771621.66312a.Predictors:(Constant),国内生产总值b.DependentVariable:财政收入精选PPT9.1线性回归分析方差分析表表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。从表中可以看出,方差来源有回归(Regression)、残差(Residual)和总和(Total),F统计量的观测值为592.25,显著性概率为0.000,即检验假设“H0:回归系数B=0”成立的概率为0.000,从而应拒绝零假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。ModelSumofSquaresdfMeanSquareFSig.1Regression1.557E911.557E9592.250.000aResidual3.419E7132629791.290Total1.592E914a.Predictors:(Constant),国内生产总值b.DependentVariable:财政收入精选PPT9.1线性回归分析回归系数表表中显示回归模型的常数项(Constant)、回归系数(UnstandardizedCoefficients)B值及其标准误差(Std.Error)、标准化的回归系数(StandardizedCoefficients)Beta值、统计量t值以及显著性水平(Sig.)。从表中可看出,回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为0.197。因此,可以得出回归方程为:财政收入=-4993.281+0.197×国内生产总值。ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-4993.281919.356-5.431.000国内生产总值.197.008.98924.336.000a.DependentVariable:财政收入精选PPT主要内容9.0回归分析概述9.1线性回归分析9.2曲线估计9.3非线性回归分析精选PPT9.2曲线估计(1)基本概念曲线估计(曲线拟合、曲线回归)则是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定的意义。在曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小。精选PPT9.2曲线估计(2)统计原理在曲线估计中,有很多的数学模型,选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题,可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在可能的方程之间,以吻合度而论,也许存在着许多吻合得同样好的曲线方程。因此,在对曲线的形式的选择上,对采取什么形式需要有一定的理论,这些理论是由问题本质决定的。(3)分析步骤首先,在不能明确究竟哪种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型;其次,SPSS自动完成模型参数的估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。精选PPT9.2曲线估计(4)SPSS实现举例【例9-2】下表是1989年~2001年国家保费收入与国民生产总值的数据,请研究保费收入与国民生产总值的关系。年度保费收入国民生产总值年度保费收入国民生产总值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.41994630466701984207206.7199568357494.9198533.18989.1199677666850.5198645.810201.41997108073142.7198771.0411954.519981247.376967.21988109.514922.319991393.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.4精选PPT9.2曲线估计第1步分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。第2步数据组织:定义为三个变量,分别是:“year”(年度)、“y”(保费收入)和“x”(国民收入),输入数据并保存。第3步作散点图初步判定变量的分布趋势:费收入y随着国民生产总值x的提高而逐渐提高,而且当国民生产总值达到一定水平后,保费收入的增幅更加明显,因此用线性回归模型表示x,y的关系是不恰当的。由于不知道哪种拟合效果更好,于是应先找拟合效果好的模型。精选PPT9.2曲线估计第4步进行曲线估计:按顺序选择Analyze→Regression→CurveEstimation,将Models下的模型全选上,看哪种模型拟合效果更好(主要看拟合优度R2),其所有模型的拟合优度R2如下表所示。从拟合优度(RSquare即R2)来看,三次曲线(Cubic)效果最好(因为其R2值较大),并且方差分析的显著性水平为0,故重新进行上面的过程,只选Cubic一种模型。模型名称RSquare(R2)直线(Linear)0.941二次曲线(Quadratic)0.973复合曲线(Compound)0.789生长曲线(Growth)0.789对数曲线(Logarithmic)0.772三次曲线(Cubic)0.990S曲线(S)0.946指数曲线(Exponential)0.789逆函数(Inverse)0.481幂函数(Power)0.972逻辑函数(Logistic)0.789精选PPT9.2曲线估计第5步结果与分析。三次曲线模型拟合效果的检验表相关系数R=0.995,RSquare=0.990,经校正后的R平方值为0.989,故可判断保费收入与国民生产总值之间有较显著的三次曲线关系。方差分析表相伴概率Sig.=0.000说明模型具有显著的统计学意义。RRSquareAdjustedRSquareStd.ErroroftheEstimate.995.990.98964.883Theindependentvariableis国民生产总值.SumofSquaresdfMeanSquareFSig.Regression7800612.55932600204.186617.659.000Residual75775.960184209.776Total7876388.51821Theindependentvariableis国民生产总值.精选PPT9.2曲线估计第5步结果与分析。回归系数表从表中可知因变量与自变量的三次回归模型为:y=-166.430+0.029x-5.364E-7x2+5.022E-12x3UnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta国民生产总值.029.0051.5065.836.000国民生产总值**2-5.364E-7.000-2.554-4.277.000国民生产总值**35.022E-12.0002.093..(Constant)-166.43045.399-3.666.002精选PPT9.2曲线估计第5步结果与分析。拟合效果图从图形上看出其拟合效果非常好。精选PPT主要内容9.0回归分析概述9.1线性回归分析9.2曲线估计9.3非线性回归分析精选PPT9.3非线性回归分析(1)基本概念非线性回归分析(NonlinearRegressionAnalysis)是寻求因变量与一组自变量之间的非线性相关模型的统计方法。线性回归限制模型估计必须是线性的,非线性回归可以估计因变量与自变量之间具有任意关系的模型。(2)统计原理非线性回归分析(NonlinearRegressionAnalysis)是寻求因变量与一组自变量之间的非线性相关模型的统计方法。线性回归限制模型估计必须是线性的,非线性回归可以估计因变量与自变量之间具有任意关系的模型。精选PPT9.3非线性回归分析(3)分析步骤针对呈非线性关系的情况,可以采用两种策略:一是对标准的线性模型做一些修正,使之能处理各种异常情况,但方法仍在线性回归的范畴内,SPSS软件中包含了一些常见的非线性回归模型及其变换方式;二是彻底打破原有模型的束缚,采用非线性模型来拟合。非线性回归过程是专用的非线性回归模型拟合过程,它采用迭代方法对用户设置的各种复杂曲线模型进行拟合,同时将残差的定义从最小二乘法向外扩展,为用户提供了极为强大的分析能力,不仅能够拟合SPSS的回归分析过程提供的全部模型,还可以拟合文件回归、多项式回归、百分位数回归等各种非常复杂的模型。精选PPT9.3非线性回归分析(4)SPSS实现举例【例9-3】某企业1990年~1998年年产值统计资料见下表。根据企业设备能力、产品的市场占有率及数据散点图分析,认为该企业的生产能力已经趋于稳定,假定产品能够全部销售出去。试根据数据资料进行非线性回归分析。年份199019911992199319941995199619971998年份序号123456789产值4.845.216.788.028.759.549.629.910.15精选PPT9.3非线性回归分析第1步分析:这显然是一个非线性回归的问题。第2步数据组织:定义三个变量:“Year”(年份)“t”(年份编号),“Products”(年产值),输入数据并保存。第3步进行非线性回归分析:选Log-Modified曲线为回归模型,并在参数对话框中将a,b,c的参数依次设为-4、63和0.4。(1)由于非线性回归的模型很多,在对具体问题进行分析时究竟选择何种数据模型,一般是通过先作散点图,根据散点图的情况,再进行适当的模型选择;(2)对具体模型参数值的初始设置在很大程度上是根据经验进行的,当然也可以先大致设置一个数,而后交系统进行迭代处理,最后根据迭代的情况再设置一个合适的参数值。精选PPT9.3非线性回归分析第4步主要结果及分析。参数估计表。根据参数估计值,可以建立回归方程为:相关系数表左表给出了各变量之间的相关系数情况。ParameterEstimateStd.Error95%ConfidenceIntervalLowerBoundUpperBounda-3.73951.421-129.562122.084b62.084102.600-188.968313.137c.372.096.138.607abca1.000-.956.946b-.9561.000-.999c.946-.9991.000精选PPT9.3非线性回归分析方差分析表。可以看出,复相关系数的平方和为0.962,也就是说模型能够解释因变量96.2%的变异,这说明了非线性估计的效果是非常好的。SourceSumofSquaresdfMeanSquaresRegression620.7463206.915Residual1.2646.211UncorrectedTotal622.0109CorrectedTotal32.9778Dependentvariable:Productsa.Rsquared=1-(ResidualSumofSquares)/(CorrectedSumofSquares)=.962.精选PPTlogistic回归logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。精选PPTlogistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。精选PPTlogistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。logistic回归的主要用途:一是寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。二是预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。三是判别,实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势。精选PPT题1.题目给出了X省交通客运量与人均GDP的数据,该数据记录了从1980到2003年的情况,部分相关数据如下图所示(数据文件:第一题.sav)。试采用曲线回归的方法,为交通运输量与人均GDP的关系拟合一条合适的曲线。精选PPT2.为了考察果汁饮料销售量是否受到其他类型饮料销售的影响,调查者调查了碳酸饮料销售量、茶饮料销售量、固体冲泡饮料销售量和咖啡类饮料的销售量。观测数据部分如下(数据文件:第二题.sav)利用线性回归分析方法分析其他饮料的销售对果汁饮料销售的影响。精选PPT
/
本文档为【《回归分析》PPT课件 (2)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索