• 876.00 KB
  • 2023-01-17 11:50:53 发布

SAS系统和数据分析编辑统计图形.doc

  • 29页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
第二十三课编辑统计图形一、图形编辑窗口提交的图形过程如果没有语法错误将产生高分辨图形,并自动输出在GRAPH窗口中。图形在GRAPH窗口生成以后,为了进一步探查和分析数据或增强视觉效果,需要在图形编辑窗口编辑所生成的图形。我们也可以从下拉菜单Globals中选择Graph命令调出GRAPH窗口,窗口的名称自动被设为GRAPH1,如图23.1所示。如果当前图形过程产生了图形,将在GRAPH1窗口显示此图形,如果还没有产生图形,在GRAPH1窗口将显示空白。GRAPH窗口与其他WINDOWS窗口一样,可以放大窗口、缩小窗口和改变窗口的长宽。图23.1图形编辑窗口从命令框中直接键入命令GRAPH1…4也可以调出GRAPH窗口。如果没有指定存放图形的图形目录,默认图形目录为WORK.GSEG。如果图形名没有指定,在图形GRAPH窗口,将显示指定目录中最后一个使用的图形。图形文件的后缀被SAS系统默认为.GRSEG。可以直接键入GRAPH命令调出图形管理器GraphManager窗口来指定4个GRAPH窗口对应的图形目录。SAS系统的图形文件名的结构如下所示:<库名.>目录名<.图形名><.GRSEG>; 例如,有一个图形文件的全称为Glib.mygraphs.gabc.grseg,Glib为库名,mygraphs为目录名,gabc为图形名,grseg为后缀名。一、编辑图形我们以PROCG3D过程产生的上证指数气泡图为例来说明编辑一个图形的基本操作步骤。步骤如下:1.选择一个对象SAS软件的高分辨率图形过程在GRAPH窗口输出图形后,可选择工具栏上EDIT按钮(一个彩色按钮),或选择Edit/Editgraph菜单命令,进入图形编辑状态。图形编辑窗口中的最左边有8个编辑工具,工具栏上的彩色按钮变成属性按钮,同时窗口中还出现一个可修改的属性对话框。刚开始进入图形编辑窗口时,编辑工具中的第一个选择对象按钮处于被选中状态,此时在图形中移动MOUSE到所要编辑的地方,然后单击MOUSE左键选中一个编辑对象,或按住左键不放拖动MOUSE再放开左键选中一组编辑对象。如图23.2所示。图23.2图形编辑状态 1.改变一个对象的属性和值选中图形中的编辑对象后,属性对话框中的填充颜色FillColor属性、线条类型LineStyle属性和线条宽度Width属性的值,都是对应于当前选中对象的各属性值,改变选中对象,这些属性值都可能发生变化。对于要改变填充颜色FillColor属性的值,可以使用属性对话框右边的圆形调色盘,只要用MOUSE单击所需要的颜色即可。对于其他属性值的修改,可以直接键入相应的修改值。选择属性对话框中的Apply按钮,可以将修改后的属性值应用于选中的对象,保持属性对话框可继续修改属性值,选择Cancel按钮不修改属性值且退出属性对话框,选择End按钮修改属性值且退出属性对话框。如果要重新调出属性对话框,单击工具栏上的属性按钮即可。2.编辑一个对象对选中的对象可以进行各种编辑操作,主要的编辑操作如下:l删除对象——用MOUSE单击菜单工具栏上的删除Delete按钮来删除。l复制对象——先单击Copy复制按钮,再单击Paste粘贴按钮将出现一个与原选中对象大小相同的方框,将此方框移到图形中的某目的地,单击确认完成复制操作。l移动对象——先将MOUSE的箭头指向选择对象方框的边线,按住MOUSE的左键不放,然后移动到目的地再放开左键。l放大或缩小对象——先将MOUSE的箭头指向选择对象方框的顶角,按住MOUSE的左键不放,然后向方框外移动或向方框内移动到所需的对象大小,再放开左键。3.添加辅助对象可以使用图形编辑窗口中最左边的一列编辑工具按钮来添加对象。一般操作方法是先单击所要使用的工具,然后再进行以后相应的进一步的操作。编辑工具箱中的工具按钮有:lSelect工具——用于选择一个或一组对象。操作为:单击或拖放MOUSE。lText工具——用于输入文本。操作为:先单击MOUSE确定文本的起始位置,然后输入文本。lLine工具——用于画直线。操作为:先单击MOUSE确定线段的起始点,然后移动MOUSE到线段的结束点单击。lRectangle工具——用于画矩形。操作为:先单击MOUSE确定矩形的一个顶点,然后移动MOUSE到矩形的另一个对角顶点单击。lEllipse工具——用于画椭圆。操作为:先单击MOUSE确定椭圆的中心点,然后移动MOUSE到椭圆的边界单击或拖放。lPolygon工具——用于画多边形。操作为:先单击MOUSE确定多边形的起始点,然后移动MOUSE不断单击,确定依次的其他顶点,最后再单击一下Polygon工具按钮。lPolyline工具——用于画多边线。操作同Polygon工具。lZoom工具——用于缩放图形。操作为:拖放MOUSE,则选中的区域被放大,然后单击Zoom工具按钮,再单击一下放大的图形区域,则图形还原成原来大小。 图23.3所示的是我们经过编辑后的图形。图23.3用GPLOT过程订制的价格和成交量图并经过编辑处理1.放大或缩小图形的显示选择View/Zoom/Zoomin菜单命令,可以放大当前正在编辑的图形;选择View/Zoom/Zoomout菜单命令,可以缩小当前正在编辑的图形;选择View/Zoom/Entiregraph菜单命令,还原图形大小。有时我们需要把编辑好的图形COPY到WORD文档中去,常用的操作步骤如下:l选择View/Zoom/Zoomout菜单命令,缩小图形。l选择Locals/Select/all菜单命令,选中整个图形。l单击菜单工具栏上的Copy按钮。l打开WORD文档,确定插入点,单击常用工具栏上的Paste按钮。二、输入输出图形1.存储图形为了能以后显示图形过程产生的图形或经过编辑的图形,需要将图形放入一个永久性的SAS数据库的图形目录里,用LIBNAME语句先指定永久性库。例如,我们先用WINDOWS的资源管理器创建一个文件夹:D:SASDATAMYGRAPHS,然后在生成图形之前,提交下述LIBNAME语句,以便指定库标记GLIB对应于路经d:sasdatamydir。 Libnameglib‘d:sasdatamydir’;对生成的图形的保存方法主要有两种:第一种,由图形过程中的选项指定输出图形保存的库名、目录名和图形名;第二种,对在GRAPH窗口输出的图形用菜单命令保存。1.程序中保存图形首先要增加图形过程的PROC语句中的GOUT选项,用于指定输出图形的目录,如GOUT=给出的永久性目录,需要规定一个库标记和一个目录名。例如,下述PROCG3D语句将在GLIB.MYGRAPHS目录中存储图形。Procg3ddata=study.indexshgout=glib.mygraphs;然后在PROCG3D中用SCATTER语句的NAME=选项来命名输出图形文件的名称。例如,下述SCATTER语句生成一个图形并命名为GABC:Scattervolume*date=close/name=’gabc’;如果我们用这个名字生成的图形不止一个,新图形将添加到这个目录里,且名字中的序号将被增加,如GABC1、GABC2,而老名字不被替换。2.菜单命令保存图形如果对图形过程输出的图形进行了一定的图形编辑操作,那就需要用菜单命令来保存编辑后的图形。最简单的保存方法是单击菜单工具栏上的Save按钮,将按原来的图形文件名保存,但原来的图形文件被覆盖了。也可以选择File/Saveas/Graph菜单命令或File/Saveas/Image菜单命令来保存图形,此时可以修改图形保存的位置和图形名,如可以修改库名Library、目录名Catalog、Graph或Image图形名。另外,还可以选择File/Export菜单命令输出图形,将当前的图形按其他外部图形文件格式保存,如可以保存为*.bmp、*.jpg、*.gif等图形文件格式。3.重新显示图形存储的图形能用SAS/GRAPH软件中的GREPLAY过程来显示。GREPLAY过程是一个专门管理由SAS图形过程产生的图形目录的全屏幕工具。在使用GREPLAY过程之前,通常我们应该知道如何输出图形和输出图形存在什么目录里。程序如下:Libnameglib"d:sasdatamydir";Procgreplay;Run;上述的程序运行结果将调出一个全屏幕的GREPLAY窗口,在IGOUT提示后的下划线上键入图形存储的目录:GLIB.MYGRAPHS后按Enter,将在窗口的下面显示此图形目录下存储的所有图形的名称。如图23.4所示。 图23.4GREPLAY窗口如果我们要在GRAPH窗口显示GABC图形,只要在GABC图形名称前的命令横线上键入S命令后按Enter即可。在命令横线上还可以发布其他命令,如Del命令,将删除此图形。如C命令,将拷贝图形到GOUT指定的目录下,例如,我们在GOUT提示后的下划线上键入图形输出的目录:WORK.ABC,然后在GABC1图形名称前的命令横线上键入C命令后按Enter,将产生一个新的WORK.ABC图形目录,且此目录下生成一个图形文件GABC1.GRSEG。GREPLAY图形目录管理工具还有许多其他功能,我们在这里不再叙述,请查看HELP。显示已经存储在某图形目录里的图形,还可以先用LIBNAME语句定义库标记,再选择Globals/Access/Displaylibraries菜单命令,调出libraries对话框,找到图形存储的目录后,双击目录名将调出CATALOG窗口,在此图形目录下列有所有的图形名,在图形名称前的命令横线上键入S命令后按Enter,同样将在GRAPH窗口显示此图形。如图23.5所示。 图23.5用PROCG3D过程的PLOT语句订制的曲面图第二十三课总体均值的估计对于样本来自正态总体和方差齐性的基本假设,根据观察结果(结果变量或反映变量)的水平数,一元时基本的分析方法有检验、检验,多元时用多元检验(或Wilks’∧检验)。一、计量资料的统计指标测定每个观察单位某项指标值的大小,所得的资料称为计量资料(measurementdata)又称测量资料,这类资料一般具有计量单位。计量资料的统计指标分成两大类:l表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。l表达计量资料变异的指标,又称离散指标,用以描述观察值间参差不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。设原始观察值为,第组频数记为,组中值记为 。在不发生混淆的场合,有时将下标省略,如,有时简记为。1.集中位置的指标(1)算术平均值算术平均值(arithmeticmean)简称为均值(mean),总体均值用希腊字母表示,样本均值用表示。算术平均值的具体计算方法分为简单算术平均和加权算术平均两种。简单算术平均为:(24.1)加权算术平均为:(24.2)算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零,②各个变量值与平均值的离差平方之和为最小值。(2)几何均值几何均值(geometricmean)用表示,为观察值的总乘积开次方根。根据资料是否分组,也分为简单几何平均和加权几何平均两种方法。简单几何平均为:(24.3)为避免溢出及方便计算,常用对数计算,也称对数平均值,两边取对数有:(24.4)(3)加权几何平均(24.5)几何均值适用于表达呈对数正态分布资料的平均水平。也常用于速度、比率等变量的平均。(4)调和均值调和均值(harmonicmean)用表示,为观察值的倒数求平均,然后再取倒数而得到的平均值,也称倒数平均值。调和平均值有简单调和平均值与加权调和平均值两种。简单调和平均值为: (24.5)加权调和平均值为:(24.6)调和均值适用于表达呈极严重的正偏态分布资料的平均水平。(1)中位数中位数(median)用表示,它将总体或样本的全部观察值分成两部分,每部分各有50%的观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。(2)众数频数最大的变量值称为众数(mode),列为频数表的资料,频数最大的组的组中值为众数。适用于粗略地表示呈单峰分布资料的集中趋势。当数据个数较少时,众数就是出现次数最多的个数据。(3)百分位数百分位数(percentile)以表示,它将总体或样本的全部观察值分成两个部分,其中有的观察值小于,(100-)%个观察值大于。如百分之25分位数或称第25百分位数,表示有25%个观察值小于;75%个观察值大于。中位数就是百分之50分位数。2.离散程度的指标(1)全距全距(range)也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。(2)标准差与方差标准差(standarddeviation)与方差(variance)是一种常用的离散指标,结合均值能给出正态分布的特征。标准差的平方为方差,标准差(或方差)越大,表示观察值的分布越分散;反之,标准差(或方差)越小,表示观察值的分布越集中。如果标准差为0,表示这组观察值都为一个相同的值。实际应用时常以均值± 标准差的写法综合观察值的集中和离散特征。总体的标准差和方差分别以和表示,样本的标准差和方差分别以和表示,当用样本标准差作为的估计值时,有:(24.7)其中,为样本含量,称为离均差平方和,也可以如下计算:(24.8)如用频数表资料,有:(24.8)(1)变异系数变异系数(coefficientofvariantion)是一种离散指标,简记为,它是标准差与均值之比,用百分数表示:(24.9)由于无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。(2)标准误差标准误差(standarderror)是统计量的标准差。因为统计量是样本观察值的函数,一旦样本改变,统计量的取值也会随之改变。为了避免与样本观察值的标准差相混淆,在统计学上,把反映一群性质相同的统计量离散程度大小的量称为标准误差。从理论上来说,只要给出了一个统计量,就有其相应的标准误差。在参数估计中,用样本的统计量去估计参数时,统计量的标准误差越小,表示抽样误差小,统计量较稳定,与参数较接近。用、、、分别表示统计量(样本均值)、(样本率)、(样本相关系数)、(变异系数)的标准误差,它们的计算公式分别为:(24.10)(24.11)(24.12)(24.13) (1)四分位数间距四分位数间距(interquartilerange)是一种离散指标,它是第3个四分位数与第1个四分位数之差,即。(2)偏度系数偏度系数(skewness)返回分布的偏斜度,简记为SKEW。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称部分的分布更趋向正值。负偏斜度表示不对称部分的分布更趋向负值。偏斜度的计算公式为样本观察值消除量纲影响的三阶中心矩,然后按样本数进行无偏修正,定义如下:(24.14)式中,为样本的标准差。(3)峰度系数峰度系数(kurtosis)返回数据集的峰值,简记为KURT。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。峰值的计算为样本观察值消除量纲影响的四阶中心矩减去3(因为标准正态分布的四阶原点矩为3),然后按样本数进行无偏修正,公式如下:(24.15)式中,为样本的标准差。一、正态性检验用于判断总体分布是否为正态分布的检验称为正态性检验。检验资料是否服从正态分布的主要方法有:Wilk-Shapiro(威尔克斯-夏皮罗)的检验和Dagustino的检验。原假设为总体服从正态分布。1.小样本的检验在观察值为小样本时,Wilk与Shapiro提出用如下的统计量:(24.16) 它可以看成是数对()相关系数的平方,所以的取值在0和1之间。系数按标准正态分布构造,均值为0,标准差为1,且是对称值。不同的样本数有不同的系列值。可以证明,在原假设为真时,的取值应接近于1。1.大样本的检验在观察值为大样本时,Dagustino建议用以下的统计量:(24.17)在原假设为真时,统计量的标准化后渐近分布为标准正态分布。一、总体均值的估计和检验1.总体均值的估计总体均值用表示,总体均值的估计包括点估计和区间估计。点估计即用样本均值来估计总体均值:。点估计虽然简单,但未考虑抽样误差。区间估计即按一定的概率估计总体均值在哪个范围内,这个范围称为置信区间,这个概率称为可信度或置信度,用表示,常取95%()或99%(),按此确定的可信区间分别称之为95%或99%可信区间。总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。主要分成三种情况:(1)正态总体方差已知如果总体服从正态分布且总体的方差已知,于是样本的均值分布为:(24.18)对变量作标准化处理,得到统计量:(24.19)称为检验。则总体均值的可信区间为: (24.20)是抽样误差,为一定倍数的抽样误差,称为极限误差,或误差范围。其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。(1)正态总体方差未知实际上,总体均值未知而总体方差已知的情况是不常有的,通常的情况是和都未知。设总体服从正态分布且总体的方差未知。在这种情况下,可用样本标准差来代替总体标准差,这样就得到了统计量:(24.21)称为检验。则总体均值的可信区间为:(24.22)1.非正态总体在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量足够大,样本均值的抽样分布就近似为正态分布。若方差已知(通常根据历史资料或经验得到),则可用公式(24.20)来计算总体均值的可信区间。若未知,则用样本标准差来代替总体标准差,总体均值的可信区间为:(24.23)2.配对检验配对检验(pariedtest)用于配对试验设计(paireddesign),它是按一些非试验因素条件将受试对象配对对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重等等。其优点是在同一对的试验对象间取得均衡,从而提高试验效率。有些试验中就同一受试对象作比较称为自身对照,例如,观察某指标不同时间的变化,或试验前后的变化,也属于配对试验。想要比较配对试验中两种处理(和)的效果,或者自身对照中比较试验前后某指标(和)的变化。可以先求出成对数据之差 。在这种试验设计的情况下,可以认为均值总体服从正态分布且总体的方差未知。用样本标准差代替总体标准差,然后使用检验,检验是否来自均值为0()的总体。因此,配对检验公式为:(24.21)1.成组检验当按完全随机化设计的两个样本均值比较时,可用成组检验(groupedtest),比较的目的是检验它们各种所代表的总体是否具有相同的均值,其假设检验,。设总体,,如果和都已知,则(24.22)经标准化变换:(24.23)如果和都未知,但方差相等,其中未知需要估计。由于和都是的无偏估计,集中了各自样本中有关的信息,故可以使用合并方差估计法(PooledVarianceEstimate),有:(24.24)然后,用样本合并标准差来代替中的总体标准差,这样就得到了统计量:(24.25)如果在和都未知的一般场合,即。当和分别使用各自方差估计法(SeparateVarianceEstimate),即分别使用其相合估计和代替后,有: (24.26)这时,就不再服从分布了,其形式很像统计量。近似统计量概率水平的Chchran和Cox近似是如下统计量的值:(24.27)用上面修正后的统计量作出合适的统计推断。一般地,Chchran和Cox检验趋于保守。另外,Satterthwaite(1864)就设法用统计量去拟合,结果发现若取:(24.28)但的计算结果为非整数时取最接近的整数,则近似服从自由度为的分布。当样本数和较大时,式中的值也将随之而增大,我们知道,当时,自由度为的分布就很接近于正态分布,故在和较大时,我们将认为统计量服从分布。1.两组方差的齐性检验两个均值比较的检验,其前提是两个样本所代表的正态总体具有相同的方差,因此在作检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验(testforhomogeneityofvariance)。设从正态总体中获得的个样本均值为,样本无偏方差为,从另一正态总体中获得的个样本均值为,样本无偏方差为,且两个样本独立。假定和未知。现在要检验的原假设是,备择假设是。由于: (24.29)(24.30)构造统计量:(24.31)如果原假设是为真的情况下:(24.32)对于给定显著水平,检验统计量的拒绝原假设的区域为或。实际计算值时常用:较大的样本方差/较小的样本方差,所以,拒绝区域只要看。不拒绝时,认为两组方差齐性(homoscedasticity),这时检验的前提条件满足,所以计算的值及统计推断可靠;拒绝时,认为两个总体方差不齐(heteroscedasticity),这时不能直接作检验,应该采取适当的措施。如检查试验的本身,寻找原因给出可能的解释;或作变量置换;或用非参数统计分析方法;或用检验。当涉及到个正态总体的方差相齐性检验时,分成两种情况:样本容量相等和样本容量不等。样本容量相等,假设为,常用的有两种检验方法:最大检验(Hartley(哈特利)检验)和最大方差检验(Cochran(卡克伦)检验)。最大检验用的统计量为:(24.32)最大方差检验用的统计量为(24.33)在样本容量不相等的情况下,可以采用Bartlett检验。它是从广义似然比导出。 一、简单的描述性统计procmeans过程SAS系统的BASE软件提供了一些计算基础统计量的过程,如means过程、summary过程、univariate过程、corr过程、freq过程和tabulate过程。这些过程可完成单变量或多变量的描述统计量计算。SAS的means过程用来对数据集中的数值变量计算简单的描述统计量。1.Means过程的语句格式Means过程的主要控制语句如下:procmeans输入数据集名<选项列表>;var变量列表;class变量列表;by变量列表;freq变量;weight变量;id变量列表;output<统计量关键字=变量名列表>;run;2.procmeans语句中的<选项列表>lvardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。(1)例vardef=df则d=n-1缺省值(2)vardef=n则d=n(3)vardef=weight/wgt则d=(4)vardef=wdf则d=-1lnoprint——不输出任何描述统计量,仅为了创建新的数据集。lmaxdec=数字——输出结果中小数部分的最大位数(0至8),缺省值为2。lfw=数字——规定打印时每个统计量的域宽,缺省值为2。ldescending——规定输出数据集按_type_值下降的次序(缺省时为上升)。lorder=freq/data/internal/formatted/——规定输出时class变量按所指定方式排序。lalpha=数字——设置计算置信区间的置信水平,值在0与1之间。l统计量——可使用的关键字见表24.1所示。表24.1procmeans语句中可用的统计量关键字统计量名称含义统计量名称含义n未丢失的观测个数mode众数,出现频数最高的数nmiss丢失的观测个数sumwgt权数和mean算术平均max最大值stderr均值的标准误差min最小值sum加权和range极差,max—min std标准偏差median中间值var方差t总体均值等于0的t统计量cv变异系数的百分数prtt分布的双尾p值uss加权平方和clm置信度上限和下限css关于均值偏差的加权平方和lclm置信度下限skewness对称性的度量——偏度uclm置信度上限kurtosis对尾部陡平的度量——峰度1.output语句中的选项l——输出数据集名。l统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。2.其他语句lvar语句——规定要求计算简单描述性统计量的数值变量的次序。lby语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。lclass语句——与by语句一样,可用class变量定义观测组,分别计算各组观测的描述统计量。输出格式与by不同且事先不需要按class变量排序。lfreq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。lweight语句——规定一个weight变量,它的值表示相应观测的权数。lid语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。一、实例分析1.用output语句创建一个新的数据集例24.1我们对原数据集survey,用means过程的output语句创建一个新的数据集meansout,程序如下:procmeansdata=study.survey;classsex;varageincome;outputout=meansoutmean=magemincomesum=totalrange=;run;procprintdata=meansout;run; 运行的主要结果如表24.2所示。表24.2用procmeans过程的output语句创建一个新的数据集TheSASSystemOBSSEX_TYPE__FREQ_MAGEMINCOMETOTALAGEINCOME10524.643229.941233276768.762F1218.043430.2136214139.693M1329.043096.43873176768.761.简单算术平均和加权平均例24.2某车间20名工人加工某种零件,按生产数量X分组,每组工人数为W,求20名工人的平均日产量。其数据见表24.3。程序如下:datastudy.aaa01;inputxw@@;cards;142154168175181run;procmeansdata=study.aaa01mean;varx;run;procmeansdata=study.aaa01mean;varx;weightw;run;表24.3将工人按生产数量分组按日生产数量分组X工人人数W142154168175181合计20显然,直接对X求简单平均值(=16)和用W权值求出的X加权平均值(=15.95)是不一样的。在这里正确的是加权平均值。2.分类和分组的算术平均例24.3对三个班class各随机抽取5名学生,记录他们的性别sex,年龄age,体重weight,身高height。按班级和性别分组计算平均值。程序如下:datastudy.aaa02; inputclass$sex$ageweightheight@@;cards;AF1546156AF1441149AM1550160AM1348155AM1438150BM1655165BM1660170BF1750160BF1660165BM1765175CF1865165CF1758160CM1870180CF1861162CM1768176;run;procprintdata=study.aaa02;run;procmeansdata=study.aaa02;varageweightheight;run;procmeansdata=study.aaa02;varweightheight;byclass;classsex;outputout=study.newaaa02mean=meanwmeanh;run;procprintdata=study.newaaa02;title"Newaaa02";run;提交后,主要的运行结果如表24.4所示。表24.4在procmeans中使用by和class语句计算分类和分组平均Newaaa02OBSCLASSSEX_TYPE__FREQ_MEANWMEANH1A0544.6000154.0002AF1243.5000152.5003AM1345.3333155.0004B0558.0000167.0005BF1255.0000162.5006BM1360.0000170.0007C0564.4000168.6008CF1361.3333162.3339CM1269.0000178.0001.计算T值和P概率值例24.4 我们从学生总体中抽样出9名学生的体重,计算超出标准体重的数值。利用这组数据来检验学生总体中标准体重的假设。通过means过程计算的T统计量和P值,是根据原假设均值为0,即H0:μ=0来计算的。用户可以在计算前设定显著性水平的值,默认的值为0.05。means过程将计算出大于这组T统计量的概率值。程序如下:datax;inputx@@;cards;-7-213610152130;procmeansdata=xnmeanvarstdstderrtprt;run;程序运行的主要结果如表24.5所示。表24.5计算T值和P概率值TheSASSystemAnalysisVariable:XNMeanVarianceStdDevStdErrorTProb>|T|-------------------------------------------------------------------------------98.138.11.3.2.0.0606-------------------------------------------------------------------------------从计算结果可见,T值为2.18<2.30(临界值),故在5%的显著水平上接受假设H0。如果选择显著性水平为10%,这时T分布的临界值为1.86,1.86<2.18,故应拒绝原假设。因为此例样本量太小,所以结论的有效性非常强地依赖于总体的分布接近正态分布的程度。另外,一种更直接的检验方法是查看计算出的P值。该值说明总体均值在此概率水平上显著地不为0。一般地,若取显著水平=0.05,因0.0606>0.05,故接受H0的假设;若取=0.1,因0.0606<0.1,故拒绝H0的原假设。1.与均值有关的单组统计分析例24.5某物品的某成分的数据真值为20.70,现用某法重复测定物品成分11次(数据见程序中),问用该法测定所得的总体均值与真值之间的差别是否有显著性。程序如下:datameantest;inputx@@;y=x-20.7;cards;20.9920.4120.1020.0020.9122.6020.9920.4120.0023.0022.00;run;procmeansmeanstderrtprt;vary;run;输出的主要结果见表24.6所示。表24.6与均值有关的单组统计分析结果 TheSASSystemAnalysisVariable:YMeanStdErrorTProb>|T|--------------------------------------------------0.0.1.0.3125--------------------------------------------------输出结果分析:T=1.,P=0.3125>0.5,不能拒绝原假设u=0,接受原假设,即用该法测定所得的总体均值与真值之间的差别无显著性。一、详细的描述性统计procunivariate过程SAS的univariate过程主要用于对指定随机变量进行详细的描述性统计。该过程除了可以完成means过程的基本统计量的计算外,它还可以生成统计图和计算其他的一些统计量。两者的用法基本类似,主要区别在于means允许使用class语句,而univariate过程可绘制茎叶图、盒型图和计算各种百分位值。1.单变量统计分析对一组单指标实验数据进行分析常采用两种方法:l图示法——包括茎叶图、盒型图和正态概率图。l描述统计量——包括矩、分位数、极端值和頻数分布表。2.茎叶图(Stem-and-leafdisplay)茎叶图是探索性数据分析中对数据的初步形象描述,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形,这样既有了直观的图示,又有了对具体数据的大致了解。每一个数据分解为三个部分:l茎l叶l可忽略部分3.盒型图(Boxplot)我们对数据组分布的粗略描述,常采用“五数概括”(fivenumbersummaries),即数据组中的最小数、下四分位数、中位数、上四分位数与最大数。但五数概括没有像直方图、茎叶图那样给人以直观的感觉。与五数概括联系在一起的图像是盒型图,它与茎叶图一样常用于探索性数据分析。盒型图的主要特点如下:l矩形描述了居中的50%数据l上下两线段(触须线)代表上下各25%的数据的分布状况l矩形盒较短表明数据比较集中l两端的触须线对称或长短不一反映数据的分布特性4.Univariate过程的语句格式Univariate过程的主要控制语句如下: procunivariate输入数据集名<选项列表>;var变量列表;by变量列表;freq变量;weight变量;id变量列表;output<统计量关键字=变量名列表>;run;(1)procunivariate语句中的<选项列表>。lvardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。与上面的procunivariate语句中的选项vardef意义相同。lfreq——要求生成包括变量值、频数、百分数和累计频数的频率表。lnormal——要求计算关于输入数据服从正态分布的假设的检验统计量。lplot——要求生成一个茎叶图、一个盒型图和一个正态概率图。lround=舍入单位列表——规定var语句中变量的四舍五入的单位。lpctldef=1/2/3/4/5——规定计算百分位的五种方法,缺省值为5。(2)output语句中的选项。l——提供用户自己想计算的百分位数和规定在输出数据集中合成的变量名。l统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。在这里可以使用的统计量的关键字名称见表24.7。表24.7univeriate过程中的统计量关键字统计量名称含义统计量名称含义n未丢失的观测个数mode众数,出现频数最高的数nmiss丢失的观测个数t总体均值等于0的t统计量nobs观测个数prtt分布的双尾p值mean算术平均q3上四分位数(75%)stderr均值的标准误差q1下四分位数(75%)sum加权和qrange上下四分位数差(q3-q1)std标准偏差p11%分位数var方差p55%分位数cv变异系数的百分数p1010%分位数uss加权平方和p9090%分位数css关于均值偏差的加权平方和p9595%分位数skewness对称性的度量——偏度p9999%分位数kurtosis对尾部陡平的度量——峰度msign符号统计量 sumwgt权数和probm大于符号秩统计量的绝对值概率max最大值signrank符号秩统计量min最小值probs大于中心符号秩统计量的绝对值prange极差,max—minnormal检验正态性的统计量median中间值probn检验正态分布假设的概率值(1)其他语句。lvar语句——规定要求计算简单描述性统计量的数值变量的次序。lby语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。lfreq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。lweight语句——规定一个weight变量,它的值表示相应观测的权数。lid语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。一、实例分析——单变量数据的详细描述统计量例24.6有68个抽样数据,现要求计算此单变量数据的描述统计量,并分析此抽样数据的统计特征。程序如下:datastudy.aaa03;inputx@@;cards;6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5;procunivariatedata=study.aaa03plotnormal;varx;run;程序说明:data步产生一个单变量的数据集aaa03,共有68条观测。univariate过程步中各选项的含义是:plot要求绘制茎叶图、盒型图和正态概率图;normal要求对抽样数据进行正态性检验。程序提交后,输出分别见表24.8(a)(b)(c)所示。运行结果分析如下面所述。 1.Moments:矩或称动差。见表24.8(a)所示,输入数据集68条观测(n)中的变量x的算术平均值(mean)为5.,总和(sum)为341.3,方差(variance)为5.,标准差(stddev)为2.,均值的标准误差(stdmean)为0.,变异系数(cv)为44.60452%。由于没有指定权数变量,每一条观测x变量的权数默认值为1,因此,权数和(sumwgts)为68,加权平方和(uss)为2048.83,均值偏差的加权平方和(css)为335.8051。这68个数列分布的偏度系数(skewness)为-0.12124,峰度系数(kurtosis)为-1.0954。由于t=18.48739,P=0.0001,说明数据并非抽自均值为零的正态总体。非零观察的个数(Num^=0)为68,正观察的个数(Num>0)为68。符号检验的统计量(M(Sign))为34及检验概率(Pr>=|M|)为0.0001,拒绝数据抽自中位数为零的总体。符号秩和检验统计量(SgnRank)为1173及检验概率(Pr>=|S|)为0.0001,同样拒绝数据抽自中位数为零的总体。因选择项normal的要求进行正态性检验,W=0.,P=0.0147,说明该数据不服从正态分布。当N<2000时,使用Shapiro-Wilk统计量W计算;如果N>2000,则为Kolmogorov统计量,SAS系统将采用D检验法进行正态性检验。表24.8(a)procunivariate过程输出的矩、分位数和极端值TheSASSystemUnivariateProcedureVariable=X①Moments②Quantiles(Def=5)N68SumWgts68100%Max9.699%9.6Mean5.Sum341.375%Q36.8595%8StdDev2.Variance5.50%Med590%7.8Skewness-0.12124Kurtosis-1.095425%Q12.8510%2uss2048.83css335.80510%Min0.55%1.4cv44.60452StdMean0.1%0.5T:Mean=018.48739Pr>|T|0.0001Range9.1Num^=068Num>068Q3-Q14M(Sign)34Pr>=|M|0.0001Mode6.4SgnRank1173Pr>=|S|0.0001W:Normal0.Pr|T|0.0264W:Normal0.Pr;class变量列表;var变量列表;by变量列表;run;其中,class语句是必需的。Cochran过程选项——在方差不等的情况下要求用Cochran和Cox方法计算近似的统计量的近似概率水平。 lclass语句——给出分类变量名字,分类变量必须且只能有两个水平。利用这两个水平值,把观察值分成两个观察组进行检验。可以使用字符变量或数值变量。lby语句——用来得到由by变量定义的几个观察组。lvar语句——指出要比较其均值的变量名。如果缺省,输入数据集中所有数值型变量(除出现在class语句中的数值变量外)都包含在分析中。一、实例分析——成组数据的统计分析例24.7随机抽取20只某种动物,分为A、B两组,A组不接受任何处理(空白对照),B组接受某种实验。分别测得A、B组某种指标数据(数据见程序中)。试检验两组指标数据的均值之间的差别是否有显著性。程序如下:datagroup;inputg$n;doi=1ton;inputx@@;output;end;cards;A10548.1327.1512.7238.7344.8539.2592.3689.5335.9610.0B10751.4601.1998.9831.0822.1645.3495.0698.4636.5724.9;procsort;byg;procunivariatenormal;varx;byg;procttestcochran;classg;varx;run;输出的主要结果如表24.10所示。表24.10成组数据的统计分析结果 TheSASSystem------------------G=A-------------------UnivariateProcedureVariable=XMomentsVariance22542.26W:Normal0.Pr|T|------------------------------------------------------------------------Unequal-3.7846Satterthwaite17.90.0014Cochran9.00.0043Equal-3.784618.00.0014ForH0:Variancesareequal,F"=1.13DF=(9,9)Prob>F"=0.8571输出结果分析:由于组A:W=0.,P=0.3899>0.05,因此,组A满足正态性要求;同样,由于组B:W=0.,P=0.9332>0.05,因此,组B满足正态性要求。对于原假设组A和组B的方差相等,方差齐性检验F=1.13=(22542.26/19924.4),P=0.8571>0.05,即满足方差齐性要求,此时采用一般T检验:T=-0.37846,P=0.0014<0.05,拒绝相等的原假设,即本例中两组指标数据的均值之间的差别是有显著性的。如果计算出的P<0.05,不满足方差齐性要求,用Satterthwaite和Cochran检验法:T=-0.37846,P=0.0014<0.05,即拒绝相等的原假设。