为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > stata中变量描述分析和作图

stata中变量描述分析和作图

2019-02-24 51页 ppt 595KB 96阅读

用户头像 个人认证

佳乐

资深物流管理师从事采购、供应链、物流管理多年。

举报
stata中变量描述分析和作图第三讲描述性分析与画图 进行描述性统计分析的目的: 对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。本章主要内容6.1.频数分布6.2.条件频数分布6.3.频数分布的常见错误分析及解决方法6.4.变量的中央趋势和离散趋势6.5.描述数值型数据统计量的其它方法6.6.画图数据描述的方法 获得数据的目的是为了描述和分析数据,回答研究问题 数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一...
stata中变量描述分析和作图
第三讲描述性分析与画图 进行描述性统计分析的目的: 对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。本章主要6.1.频数分布6.2.条件频数分布6.3.频数分布的常见错误分析及解决方法6.4.变量的中央趋势和离散趋势6.5.描述数值型数据统计量的其它方法6.6.画图数据描述的方法 获得数据的目的是为了描述和分析数据,回答研究问题 数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一步处理 描述性统计通过一系列的程序帮助组织、归纳、样本的基本特征。常见的方法包括 频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariateanalysis)。考察变量的属性分布 二元或多元交叉表、二元相关关系分析 图形描述性分析的菜单窗口该内容是statistics菜单下的首个选项:Statistics–Summaries,tables&tests6.1.频数分布 频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包括定性、定序、定距和定比数据。频数与频数分布 频数也称次数,即分布在各个类别中的数据个数 频数分布就是对样本中变量的不同属性出现次数的描述 假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况 2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例菜单窗口 在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的 窗口路径 相应的基本命令 功能 Tableofsummarystatistics(table) .table 计算展示多种统计量 Tableofsummarystatistics(tabstat) .tabstat 计算展示多种统计量 One/two-waytableofsummarystatistics .tabulate…,sum(…) 提供均值和标准误 One-waytables .tabulate…,subpop(…) 单变量的频数分布 Multipleone-waytables .tab1 多个变量的频数分布 Two-waytableswithmeasureofass. .tab 两个变量的交叉表 Allpossibletwo-waytabulations .tab2 多个变量的交叉表 Tablecalculator .tabi 利用指定的数值计算单变量频数分布.tab[变量名]①② ①:.tab也可写为tabulation,是获得频数分布的基本命令 ②:需要输出频数分布的变量名称 该命令不对频数分布作任何定义,只提供单个变量的频数分布.tabgirl 该命令告诉Stata,给变量girl生成一张频数分布表girlin|2004,0=boy|---1=girl|Freq.PercentCum.------------+-----------------------------------0|1,24853.7053.701|1,07646.30100.00------------+-----------------------------------Total|2,324100.00 输出结果显示,该数据一共有2324个观察值 变量girl有两个取值:0代表男孩,1代表女孩 样本中有1248个男孩,占53.7%;女孩为1075,占46.3%多变量频数分布.tab1[变量a变量b变量c]①② ①:同时获得多个变量频数分布的基本命令 ②:需要输出频数分布的变量名称 与tab或tabulate不同的是,.tab1可接多个变量.tabgirlurban 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表6.2.条件频数分布 条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.基本命令 .tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate 若其令后面仅有一个变量,则Stata输出该变量的频数分布 若多于两个变量,则会出现错误提示 Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量 .tab2也提供双变量的交叉分析表 .tab和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表例1.tabgirlenroll,chi2columnrowmissnokey①②③④⑤ ①:提供两个变量关系的卡方 ②:提供列变量的百分比 ③:提供行变量的百分比 ④:提供缺失变量的比例 ⑤:压缩单元格内容的提示girl|schoolenrollment0=boy|1=enrolled---0=not---1=girl|01.|Total-----------+---------------------------------+----------0|96735294|1,125|8.5365.3326.13|100.00|59.6351.9156.11|53.55-----------+---------------------------------+----------1|65681230|976|6.6669.7723.57|100.00|40.3748.0943.89|46.45-----------+---------------------------------+----------Total|1611,416524|2,101|7.6667.4024.94|100.00|100.00100.00100.00|100.00Pearsonchi2(2)=5.3049Pr=0.0706.3.频数分布的常见错误之一 toomanyvariablesspecified 导致I类错误的原因在于,混淆了tab,tab1,tab2的用法 .tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描述两个变量的交叉分布,其后面只能接两个变量 tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表 tab2则可以生成多个双变量的交叉表 因此,若使用下列命令,则会遇到这类错误.taburbanyrschenrolltoomanyvariablesspecifiedr(103);6.3.频数分布的常见错误之二 toomanyvalues 导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如:.tabageweight.toomanyvalues(变量的取值太多) 这里,变量age和weight均为连续变量,且都有很多的取值,尤其是weight 若需要生成二者之间的交叉表,可以限制其中一个或两个变量的取值,或者将它们转换为分类变量6.4.变量的中央趋势和离散趋势集中趋势:众数 数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加 描述集中趋势的方式包括:众数、均值、中位数 众数(mode):最常出现的观察值或属性 如果在全班30个学生中,20个18岁的学生、5个19岁、5个20岁,则18是众数 众数适用于所有类型数据,但主要用于测度分类数据的集中趋势 一个数据可以有两个或多个众数,故众数具有不唯一性的特点集中趋势:算术均值(mean,average) 加总多个观察值,除以总观察量得到的数值 适用于正态分布或者近似正态分布; 均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势; 全域(总体)均数称为µ;样本均数称为 集中趋势:中位数(median) 将一组数值从小到大排列后,位于中间的数值; 若5个人的年龄分别为1,3,6,8,32,则中位数为6(均值为10); 中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关; 对于正态分布,理论上中位数等于均数;离散趋势:极差或者全距(range,R) 数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或变异程度; 描述离散趋势的方法包括:级差、方差、标准差; 极差或者全距(range,R):表示变量取值中的最大值和最小值之差。适合所有分布类型的数据;R=最大值-最小值 计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定离散趋势:方差(variance) 方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。离散趋势:标准差(standarddeviation) 方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量 标准差和方差是实际中应用最广的测量离散程度的统计量 如果一个变量具有正态分布,则均值 68%的数值将会位于离平均值加减一个标准差的范围内; 95%的个案将会位于加减两个标准差的范围内; 99.9%的个案将会位于加减三个标准差的范围内 标准差越小,数据的分布就越围绕均值聚集;标准差越大散,数据的分布就越分散。离散趋势:标准差(II) 适合描述近似正态分布资料的离散趋势 方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度 计算公式:离散趋势:自由度 为什么样本标准差的分母是n-1呢 自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有n-1个数据可以自由取值; 假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值; 在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量。正态分布与偏态分布正态分布(normaldistribution) 一个变量的集中位置居中,左右两侧频数基本对称的分布 从形态上看,正态曲线两头低、中间高、左右对称 正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=μ,并在x=μ时取最大值。从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的 其性质如下:数方程中μ为位置参数;σ为形状参数 若σ不变,函数曲线形状不变。μ变大时,曲线位置向右移;μ变小时,曲线位置向左移 若μ不变,函数曲线位置不变。σ变大时,曲线形状变得越来越胖、矮;σ变小时,曲线形状变得越来越瘦、高正态分布.histogramyrschifyrsch<=13,percentstart(0)width(1)normal偏态分布 数据的集中位置偏向一侧,频数分布不对称。偏态分布有两种表现形式 正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部 负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部.histogramweight,percentstart(0)normalysize(4.5)xsize(2.5).histogramheight,percentstart(0)normalysize(4.5)xsize(2.5)6.5描述性统计.sum[连续变量] 该命令给出标准统计量。输出结果包括:ObsMeanStd.Dev.MinMax(观察量)(均值)(标准差)(最小值)(最大值).sum[连续变量],detail summ或summarize得出同样的结果标准信息描述.sumageyrschweightheightVariable|ObsMeanStd.Dev.MinMax-------------+--------------------------------------------------------age|234110.092275.283423019yrsch|18306.0316943.440358015weight|210334.8563518.54676.4151height|2100132.819330.602770185.5 由于缺失值个数的差异,几个变量的观察值都不一样详细情况描述.sumage,detailagein2004-------------------------------------------------------------PercentilesSmallest1%005%1010%20Obs232125%50SumofWgt.232150%10Mean9.658337LargestStd.Dev.5.08463175%141890%1618Variance25.8534795%1719Skewness-.31632799%1719Kurtosis1.917769 变量age有2321个观察值 最小值为0,最大值为19 1%的样本为0岁 5%的样本1岁或以下 10%的样本2岁或以下 25%的样本5岁或以下 …… 99%的样本在19岁及以下 样本的均值为9.66;标准差为5.08;Variance、Skewness和Kurtosis分别表示样本的方差为25.85、偏移度为-0.32和年龄分布的峰度为1.92。6.5.描述数值型数据统计量的其它方法均值估计(mean).meangirlurbanMeanestimationNumberofobs=5381--------------------------------------------------------------|MeanStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|.4781639.0068103.464813.4915148urban|.1908567.0053577.1803535.2013599--------------------------------------------------------------比例估计(proportion).proportiongirlurban ProportionestimationNumberofobs=5381_prop_1:girl=0.boy _prop_2:girl=1.girl_prop_3:urban=0.Rural _prop_4:urban=1.Urban--------------------------------------------------------------|BinomialWald|ProportionStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|_prop_1|.5218361.0068103.5084852.535187_prop_2|.4781639.0068103.464813.4915148-------------+------------------------------------------------urban|_prop_3|.8091433.0053577.7986401.8196465_prop_4|.1908567.0053577.1803535.2013599--------------------------------------------------------------使用table命令描述数据.table[变量a],contents[mean变量bsd变量b]①②③④⑤④⑤ ①:计算和表现统计量的命令 ②:分组变量。按照其分类描述中央趋势或离散趋势的统计量 ③:需要输出统计量的内容。后面括号内列出(1)要描述的统计量,(2)需要计算统计量的变量名称 ④:分别指均值和标准差 ⑤:需要计算均值和标准差的变量.tableab,contents(meancsdd) 按变量a和b的分类,计算变量c的均值、d的标准差.tableurban,contents(meanyrschsdsibs)------------------------------------urban|residence|mean(yrsch)sd(sibs)----------+-------------------------0,Rural|5.622172.62964511,Urban|7.109127.5369387------------------------------------ 按urban的分类,计算变量yrsch的均值和sibs的标准差使用tabstat命令描述数据.tabstatabcd①②①:展示一个或多个数值型变量的描述性统计②:为变量a,b,c,d提供均值统计量 输出的统计量是可选择的。若不选择,则默认值为均值。其主要选项包括:.tabstatabcd,by(e)statistics(meansd)columns(statistics) ①②③④①:按照选项by后面变量的类别,分组计算统计量;by后面的变量多是分类变量,也可以是取值不多的连续变量②:需要得到的统计量,可多选,不同统计量之间需用空格隔开③:输出结果的格式可以选择④:选择columns(statistics),则竖列表述的是统计量,横行表现的是变量。若选择columns(variables)格式,则反之使用tabulate,sum命令描述数据.tabab,sum(c)①②③④①:接变量a、b的分类变量,计算变量c的统计量,并输出a、b的频数分布③:sum后面接一个需要输出统计量的数值型变量②:分类变量;④:连续变量.tabstrata,sum(yrsch)|Summaryofyearofschoolstrata|MeanStd.Dev.Freq.------------+------------------------------------1.city|5.41916173.69704186682.suburb|6.69467213.38783494883.town|5.75415283.18214153014.village|6.48525472.9960408373------------+------------------------------------Total|6.0316943.440358218306.6画图 数据往往使人眼花缭乱。没有人能记住数据中的所有数值。频数分布提供数据分布的一些基本特征和规律。若用图形表示频数分布,则更形象和直观 统计图形是用点的位置、线段的升降、线条的长短或面积的大小等方法来表达数据的内容,包括统计资料反应的变化趋势、数量的多少、分布状态和相互关系等 通过图形描述出来的数据便于阅读、比较和分析 一张好的统计图表,胜过冗长的文字表述Stata的制图功能 既可通过命令产生图形,也可以直接使用Graphics窗口菜单中的选项来实现 在Easygraph的菜单下,Stata的作图模块主要提供十种基本图形的制作:散点图(twoway)、线图(line)、面积图(area)、柱形图(bar)、点图(dot)、圆形图(饼图)(pie)、直方图(histogram)、箱线图/盒型图(boxplot)、矩阵图、回归线图和功能图 对简单图形(Easygraph)的巧妙应用,可以满足绝大多数用户的统计作图要求。但有时我们必须求助于复杂的制图功能 在Graphics的主菜单下,可选择制作更复杂的图形Stata制图的窗口菜单Stata的其它制图功能 Stata的某些非绘图命令也具有绘制图形的功能。比如 在频数分布命令中,有制作简单茎叶图的选项 事件史分析提供生存曲线图 回归分析提供回归线或残差图等 Stata制图功能比较复杂。生成图形的过程中往往会遇到错误。有时,命令中一个不恰当的空格,一个不正确的标点符号都将使程序不能正常运行。因此,从窗口菜单入手可能更容易一些 但是,Stata的图形种类及每种图形的选项虽多,但许多基本命令十分类似,可举一反三图形的种类及适用范围数据结构和变量属性的不同要求采用不同的图形Sheet1 图2.非变化模型的选择 分类变量还是连续变量 连续变量 分类变量 单值或多值 名义或次序变量 单值 多值 次序 名义 分布是否偏斜或删截 因自变量而异? 二元或多元变量 是 否 是 否 虚拟 多元 变量的均值大于还是小于标准误 OLS 固定效果模型 随机效果模型 次序logistic回归 logistic回归 多元logistic回归 小于 大于 Poisson回归 Negative二元回归Sheet2 分类变量还是连续变量 连续变量 分类变量 单值或多值 名义或次序变量 单值 多值 次序 名义 分布是否偏斜或删截 因自变量而异? 二元或多元变量 是 否 是 否 虚拟 多元 Poisson回归 OLS 固定效果模型 随机效果模型 次序logistic回归 logistic回归 多元logistic回归Sheet4 直接关系 间接关系 直接和间接关系 职业 父母的收入水平 子女的教育机会 温度 户外活动时间 犯罪率 性别 收入 调节关系 虚假关系 现代科技 性别观念 派出救火车的数量 生育政策的强弱 出生性别比失衡 火灾规模 社会经济 损失大小 其它因素Sheet6 命令 基本功能 describe,short 通过“short”命令,STATA只列出样本和变量的数量 describe,detail 该命令与“describe”基本相同,列出具体的变量名称及其表现形式 describe,fullname 与上述命令基本相同 describeusing〈dataset> 查看其它数据的情况,也有short/detail区分 codebook 描述数据中每个变量的具体内容,包括变量的类型(比如,数值型变量、分类变量),极差(最大值与最小值),特殊值,均值,标准差,单位,缺失样本量,百分位数 inspectgirl 类似频数分布,但提供更详细的资料 labelvariable<varname>"label" 给变量贴上标签Sheet7 饼图的选项和解释 选项 解释 over(varname) 每个扇形分别代表变量的特殊数值 missing 不要忽视变量的缺失值 cw 将缺失值按casewise来处理 noclockwise 逆时针的园形图 angle0(#) 第一个扇形的角度;设定值是90度 sort 按扇形面积的大小排序 sort(varname) 将扇形按变量名称顺序 descending 与设定的反方向排序或自己排序 pie(...) 扇形的形状,包括突出显示 plabel(...) 给与扇形定义 ptext(...) 给扇形附加文字 intensity([*]#) 扇形色彩强度 line(line_options) 扇形的外观 legend(...) 解释扇形的图例 std_options 标题等 by(varlist,...) 重复次组群Sheet5 命令 功能 .describe 描述数据的基本情况:样本总量,变量总数,变量的具体情况等等 .list<varnames> 陈列数据中被选定的变量分布,从第一个样本到最后一个样本;将<varnames>替换成想查看的变量 .list<varnames>inX/Y 陈列数据中被选定的变量分布。in限定数据的观察值范围。比如,若只想查看第100个-200个观察值的分布,则将X/Y替换成100/200 .order<varnames> 将变量按自己喜欢的先后排序。比如,样本的编号、年龄、性别、教育程度,……,等 .aorder 将所有变量从a-z排序 .labelvariable 给变量贴上标签 Stata基本图形命令 中文 适用范围 .graphpie 饼图 所有类型数据 .graphbar 柱形图 所有类型数据 .graphtwoway 相关关系图 定性(分类)数据和定序数据 .histogram 直方图 分类和数值型数据 .graphline 线图 时间序列和预测值的置信区间 .graphbox 箱线图 数值型数据 .graphdot 散点图 数值型数据Sheet3 概念 变量 属性 成绩好 平均成绩 每个学生的成绩介于A-F之间 智力 IQ测试 每个个体都有一个介于某个区间的数值 年轻 年龄 青年、中年、老年 经济成功 年收入 $50000-100000等 A B C X (X-X) (X-X)2 X (X-X) (X-X)2 X (X-X) (X-X)2 10 4 16 10 4 16 8 2 4 8 2 4 10 4 16 6 0 0 6 0 0 6 0 0 6 0 0 4 -2 4 2 -4 16 6 0 0 2 -4 16 2 -4 16 4 -2 4 X=8 X=8 X=8 Σ(X-X)2 =40 Σ(X-X)2 =64 Σ(X-X)2 =8 s=40/5=8 s=64/5=12.8 s=8/5=1.6散点图(ScatterPlot) .scatter描绘散点图;双向关系图型(twowayplottypes)之母 适合于y轴和x轴均为数值型的数据 用于反映两个或多个变量之间的关系。y轴往往被假定为因变量,x轴被当作为自变量。其图形反映y轴的数值是否随x轴数值的变化而发生相应变化 .scatter既是命令,也是双向关系图型(twowaygraph)中的一种散点图的基本命令.graphtwoway(scatteryx)(lfityx) 这里graphtwoway是命令scatter表示图形类型y代表y变量,表现为纵轴x代表x变量,表现为横轴由于没有指定其它的限定条件,散点将表现为实心圆圈.twowayscatteryx同上,twoway是命令,scatter表示图形类型.scatteryx这里的scatter既表示图形类型,也表示命令散点图的选项:总体外观.scatterheightage, ① title("HeightofChildren") ② subtitle("StataExample") ③ note("1") ④ caption("Source:Chapter7") ⑤ scheme(economist) ⑥①:生成height和age散点图的基本命令②:给图形附上标题,标题在括号内③:给图形添加副标题,副标题在括号内④:给图形编号⑤:给图形提供注释,note和caption的意思基本是一样的⑥:定义图形的外观,括号内的economist告Stata输出一个经济型的图形 逗号后面所有的内容都属于选项,在所有图形中都是通用的散点图的选项:绘图区域的大小 绘图区格式的比例通过region_optionsysize(#)和xsize(#)选项控制。该选项指明绘图区的高度和宽度(单位:英寸)。比如,.scatteryx,xsize(4)ysize(4) ①②③④①:横轴(宽度)的选项②:横轴的宽度;这里将其定义为4英寸③:纵轴(高度)的选项④:纵轴的高度;这里将其定义为4英寸 该命令将生成一个4英寸x4英寸的图形
/
本文档为【stata中变量描述分析和作图】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索