2023年7月9日发(作者:)
实验三 SAS描述统计分析
对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。其目的是为了揭示数据的集中趋势、分散程度和数据分布形态,展示极端数据,最后做出说明现象本质的初步结论。
用图形对数据进行描述性统计分析具有直观、鲜明、形象、便捷等特点,在表达统计数据时可以给人留下深刻的印象。统计图形的种类很多,利用SAS可以方便的绘制常用的统计图形。
3.1 实验目的
掌握使用SAS对数据作描述性统计分析的方法。掌握SAS/GRAPH所提供的常用图形功能,能用SAS的统计图形对数据进行描述性统计分析。
3.2 实验内容
一、用INSIGHT计算统计量、绘制统计图形
二、用“分析家”计算统计量、绘制统计图形
三、编程实现描述性统计(MEANS、UNIVARIATE、FREQ过程)、编程绘制统计图(GPLOT和GCHART过程)
3.3 实验指导
一、用INSIGHT计算统计量
【实验3-1】按性别分别计算中身高的均值、标准差、中位数和其它四分位数,简单分析学生身高的状况。
1. 在INSIGHT中打开数据集
在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“Interactive Data Analysis(交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集:,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图3-1左所示。
2. 用Distribution菜单项计算统计量
(1) 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据集CLASS的变量列表中,选择height,然后单击“Y”按钮,height被选为分析变量,选择sex,然后单击“Group”按钮,sex被选为分组变量,如图3-1右所示。
图3-1
在INSIGHT中计算统计量
(2) 单击“Output(输出)”按钮,在打开的对话框中包含描述性统计的选项,见表3-1。
表3-1
描述性统计选项
选项
Moments
Quintiles
Basic Confidence Intervals
Tests for Location
说明
矩统计量
分位数
基本置信区间
位置检验
选项
Frequency Counts
Robust Measures of Scale
Tests for Normality
说明
频数统计
尺度的稳健估计
正态性检验
选择矩统计量和分位数选项,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogram/Bar
Chart”,如图3-2所示。
图3-2
描述性统计选项
两次单击“OK”按钮,即可得到变量height按sex分组的各种矩统计量(Moments)和分位数(Quantiles),如图3-3所示。
3. 结果分析
从结果可以看出女生和男生分别有9个和10个观测,女生的平均身高60.5889低于男生的平均身高63.91,女生的标准差5.0183略大与男生的标准差4.9379,说明女生的身高较为分散一些。 图3-3
分组显示的各种矩统计量和分位数
女生的中位数、四分之一分位数和四分之三分位数分别为62.5、56.5和64.3,说明身高大于或小于62.5的女生各占一半,有四分之一的女生身高不超过56.5,而另有四分之一的女生身高超过了64.3;男生的中位数、四分之一分位数和四分之三分位数分别为64.15、59.0和67.0,说明身高大于或小于64.15的男生各占一半,有四分之一的男生身高不超过59.0,而另有四分之一的男生身高超过了67.0。
二、用“分析家”计算统计量
【实验3-2】从某大学总数为500名学生的“概率统计学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表3-2所示(数据集为:3-2,变量名为F1):
表3-2
“概率统计学”考试成绩
63
93
88
75
63
71
83
75
94
91
99
85
45
74
82
81
76
79
93
95
100
30
91
90
72
83
83
80
61
88
82
82
84
83
85
48
81
83
72
76
44
80
67
88
85
84
72
80
72
66
87
58
94
76
83
68
62
64
78
96
求出上述数据的平均值、方差、极差、中位数、四分之一分位数及四分之三分位数,并分析成绩分布情况。
1. 在“分析家”中打开3-2数据集
(1)选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。
(2) 选择主菜单“File(文件)”→“As SAS Name Open…(按SAS名称打开)”,在打开的对话框中,选择3-2。
2. 用Summary Statistics菜单项计算描述性统计量
(1) 选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Summary Statistics(汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中的F1,单击“Analysis”按钮,选定分析变量,如图3-4左所示。 图3-4
选定分析变量与统计量
(2) 单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计量,见表3-3。
表3-3
可计算统计量
Mean
Standard deviation
Standard error
Variance
Minimum
Maximum
Range
Sum
Median
均值
标准差
标准误
方差
最小值
最大值
极差
和
中位数
Number of observations
Number of missing values
Skewness
Kurtosis
Student's t
Probability of t
Coefficient of variation
Corrected sum of squares
Uncorrected sum of squares
观测数
缺失数
偏度
峰度
t检验值
p值
变异系数
校正平方和
未校平方和
选择输出统计量平均值、方差、极差,如图3-4右所示。两次单击“OK”按钮后,得到平均值、方差、极差如图3-5所示。
图3-5
描述性统计量
3. 用Distributions菜单项计算分位点
在“分析家”窗口选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的F1,单击“Analysis”按钮,选定分析变量。
单击“OK”按钮,即可得到关于变量F1的矩统计量和基本统计测度,如图3-6所示。
图3-6
矩统计量和基本统计测度 另外,还有位置检验、分位数以及极值观测(最大和最小的5个观测),如图3-7所示。
图3-7
位置检验、分位数以及极值观测
4. 结果分析
学生成绩的均值、方差和极差分别为77.72、194.07和70,方差和极差较大,说明成绩的分布很分散。中位数、四分之一分位数及四分之三分位数分别为81、72和86,说明成绩大于或小于81的学生各占一半,有四分之一的学生成绩不超过72;而有四分之一的学生成绩超过了86,从均值和中位数可以看出有一大半学生的成绩超过了平均数。
三、编程实现描述性统计
【实验3-3】编程实现描述性统计。
1. 用FREQ过程编制频数表
编制中age(年龄)的频数表,代码如下:
proc freq data = ;
tables age;
RUN;
图3-8
频数表
运行结果如图3-8所示。
2. 用NEANS过程计算均值、标准差、极差和分位数
按性别分别计算中体重的均值、标准差、极差、中位数、四分之一分位数和四分之三分位数,代码如下:
proc means data = mean std range median q1 q3;
var weight;
class sex;
run;
运行结果如图3-9所示。
图3-9
使用class语句分类计算均值、标准差、极差、中位数和分位数
或者
proc sort data =;
by sex;
run;
proc means data = mean std range median q1 q3; var weight;
by sex;
run;
运行结果如图3-10所示。
说明: 1) 通常使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。
2) 在means过程中使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。
图3-10
使用by语句计算均值、标准差、极差、中位数和分位数
3. 用UNIVARIATE过程计算众数和分位数
计算中age(年龄)的众数、2.5%和97.5%分位数。
proc univariate data =;
var age ;
output out=pct pctlpre=p pctlpts=2.5 97.5;
run;
proc print data=pct;
run;
运行结果如图3-11所示,age(年龄)的众数为12,2.5%分位数为11,97.5%分位数为16。
图3-11
众数和分位数
说明: UNIVARIATE过程中的output语句表示将UNIVARIATE产生的统计量输出到“out=”后定义的新数据集中,本例新数据集名称为pct,output语句中的选项pctlpre用于指定新数据集中变量的前缀,本例表示百分位数变量的前缀为p;选项pctlpts表示需要计算百分位数,本例需要计算2.5%和97.5%分位数。
四、用INSIGHT绘制统计图形
【实验3-4】研究中gpa分数的分布:画出gpa的直方图、盒形图;通过直方图、盒形图简述不同性别的gpa数据的特点。
在INSIGHT中打开数据集。 1. 绘制直方图
(1) 选择菜单“Analyze(分析)”→“Histogram/Bar
Chart (Y)(直方图/条形图)”,打开“Histogram/Bar Chart
(Y)”对话框。
(2) 在数据集gpa的变量列表中,选择gpa变量,然后单击“Y”按钮,gpa变量被选定,如图3-12所示。
(3) 单击“OK”按钮,即可得到直方图,如图3-13
左所示。
图3-12
“Histogram/Bar Chart(Y)”对 (4) 单击图形框左下角处的三角形,在打开的菜单中话框
选择“Values(值)”,即可在图中显示频数值,如图3-13右所示。
(5) 如果在“Histogram/Bar Chart (Y)”对话框中选定gpa变量作为分析变量,然后选择sex变量后再单击“Group(分组)”按钮,单击“OK”后可将gpa分数按男女学生分别画出直方图,如图3-14所示。
图3-13
在INSIGHT中绘制直方图
图3-14
不同性别gpa分数的直方图
2. 绘制盒形图
(1) 选择菜单“Analyze(分析)”→“Box Plot/Mosaic Plot (Y)(盒形图/马赛克图)”,打开“Box Plot/Mosaic Plot (Y)”对话框。在数据集gpa的变量列表中,选择gpa变量,然后单击“Y”按钮,gpa变量被选定,如图3-15左所示。
(2) 单击“Output(输出)”按钮,取消“Y Axis Vertical(垂直的Y轴)”如图3-15右所示。单击“OK”按钮返回对话框。
图3-15
“Box Plot/Mosaic Plot (Y)”对话框
(3) 单击“OK”按钮,即可得到盒形图,如图3-16左所示。
(4) 单击图形框左下角处的三角形,在打开的菜单中选择“Means(均值)”,可以在盒形图中显示均值的位置,如图3-16右所示。
图3-16
在INSIGHT中绘制盒形图
(5) 按(1)中方法打开“Box Plot/Mosaic Plot (Y)”对话框,选择gpa变量,单击“Y”按钮,再选择sex变量,然后单击“X”按钮,如图3-17左所示,可以将男女生gpa分数的两个盒形图画在同一个坐标系下,如图3-17右所示,便于查看男女生gpa分数的分布情况。
图3-17
画在一个坐标系下
(6) 单击图3-17右图中左下角的三角,在弹出的菜单中选中“Means”和“Values”,可在盒形图上标出男女生gpa分数的均值、中位数、四分之一分位数和四分之三分位数等。
图3-18
显示均值、中位数、四分之一分位数和四分之三分位数等
3. 结果分析
从图3-13和3-16可以看到gpa分数在均值两边的分布是不对称,有半数以上学生的gpa分数超过了平均值。这部分高分学生的分数比较集中,因为盒形图中均值线右边部分较短,而其他低分部分的学生成绩较为分散,gpa分数的总体分布为左偏。另外,有四个学生的gpa分数是极端值,它不具有代表性。
从男女生各自的gpa分数直方图(图3-14)和盒形图(图3-17右)可以看到,男女生gpa分数的分布情况类似,都略微左偏。两条中位数线位置没有明显区别,但女生中位数线左方部分更长一些,说明女生的gpa分数低分部分更分散一些。
五、用“分析家”绘制统计图形
【实验3-5】某高校对学生逃课的情况进行抽样调查的结果如表3-4所示:
表3-4
学生逃课情况表
年级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
性别
男
男
男
男
男
男
男
男
男
男
男
男
男
男
男
女
女
女
女
女
女
女
女
女
女
女
女
女
女
女
逃课的情况
从不逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
年级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
性别
男
男
男
男
女
女
女
男
男
男
男
男
男
男
男
男
男
男
男
男
男
男
女
女
女
女
女
女
女
女
逃课的情况
从不逃课
从不逃课
从不逃课
从不逃课
从不逃课
从不逃课
从不逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课 2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
2004级
女
女
男
男
男
男
男
男
男
男
男
男
男
女
女
女
女
女
女
女
偶尔逃课
偶尔逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
2005级
女
女
女
女
女
女
女
女
女
女
女
女
男
男
男
男
男
女
女
女
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
偶尔逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
经常逃课
(1) 利用统计图形从整体上对逃课情况进行分析。
(2) 利用统计图形对两个年级逃课状况进行比较分析。
(3) 利用统计图形对男女生逃课状况进行比较分析。
1. 数据预处理
由于“分析家”对汉字处理效果不是很好,用变量grade、sex 和case分别代表年级、性别、逃课情况,“2004”和“2005”分别表示“2004级”、“2005级”,“M”和“F”分别表示“男”和“女”,“N”、“S”和“A”分别表示“从不逃课”、“偶尔逃课”和“经常逃课”。
(1) 首先将表3-4处理成Excel表格(sy4_),如图3-19所示。
(2) 将sy4_导入为SAS数据集4_2。
或在“分析家”中直接打开sy4_后存为数据集4_2。
以下操作总假定已经在“分析家”中打开数据集
4_2。
2. 利用统计图形从整体上对逃课情况进行分析
图3-19
数据表sy4_
(1) 绘制三维饼图
选择主菜单“Graphs(图形)”→“Pie Chart(饼图)”,打开“Pie Chart”对话框,选择变量列表中的case,单击“Chart”按钮,选定分析变量,选中3-D选项,如图3-20左。
图3-20
总体情况三维饼图
再单击“Options”按钮,进入“Options”窗口。单击“Slice Values”选项卡,选中“Percent”单选按钮,如图3-20右所示,两次单击“OK”按钮,得到标有百分比的立体三维饼图,如图3-21所示。
(2) 绘制三维条形图
选择主菜单“Graphs(图形)”→“Bar Chart(条形图)”→“Vercital…(垂直)”,打开“Vercital
Bar Chart”对话框,选择变量列表中的case,单图3-21
总体情况三维饼图
击“Chart”按钮,选定分析变量。再选中3-D选项,如图3-22上所示。
单击“Options”按钮,进入“Options”窗口,单击“Statistics”选项卡,选中“Display
Statistics”复选框,如图3-22下所示。两次单击“OK”按钮,得到标有频数的立体三维条形图,如图3-23所示。
图3-22
设置三维条形图
(3) 结果分析 从图3-21和图3-23中可以看出从不逃课的仅占8%,经常逃课的占26%,偶尔逃课的占66%,这说明绝大多数学生逃过课,众数为“偶尔逃课”,说明偶尔逃课能代表逃课的状况,有一小部分经常逃课,这是值得我们注意的。
图3-23
总体情况条形图
3. 利用统计图形对两个年级逃课状况进行比较分析
(1) 分别绘制两个年级的二维饼图
选择主菜单“Graphs(图形)”→“Pie Chart(饼图)”,打开“Pie Chart”对话框,选择变量列表中的case,单击“Chart”按钮,选定分析变量,选中2-D选项,再单击“Options”按钮,打开“Options”对话框。
单击“Slice Values”选项卡,选中“Percent”单选按钮,单击“OK”返回,再单击“Variables”按图3-24 Variable对话框
钮,打开分组变量设置对话框,将GRADE选为分组变量,如图3-24所示。
两次单击“OK”,可以分别得到标有百分比的两个年级的二维饼图,如图3-25所示。
图3-25
两个年级二维饼图
(2) 分别绘制两个年级的二维条形图
选择主菜单“Graphs(图形)”→“Bar Chart(条形图)”→“Vercital…(垂直)”,打开“Vercital Bar Chart”对话框,选择变量列表中的case,单击“Chart”按钮,选定分析变量,选中2-D选项,再选择grade变量,单击“Group By”按钮,选定分组变量,如图3-26左所示。
单击“Options”按钮,进入“Options”窗口,单击“Statistics”选项卡,选中“Display
Statistics”复选框,两次单击“OK”按钮,得到标有频数的两个年级的二维条形图,如图3-26右所示。
图3-26
两个年级三维条形图
(3) 结果分析
从图3-25和图3-26右看出两个年级学生逃课的状况的差异,主要在两个极端,即“从不逃课”和“经常逃课”上。2004级“经常逃课”的比2005级高出20%,而“从不逃课”的低12%,这说明2004级逃课的情况比2005级严重得多。
两个年级的逃课状况中,众数均为“偶尔逃课”,但2004级的异众比例为38%,2005级的异众比例为30%,这说明“偶尔逃课”并不能很好地代表2004级逃课的状况,相比之下“偶尔逃课”能够很好地代表2005级逃课的状况。
4. 利用统计图形对男女生逃课状况进行比较分析
(1) 分别绘制男女生的饼图
选择主菜单“Graphs(图形)”→“Pie Chart(饼图)”,打开“Pie Chart”对话框,选择变量列表中的case,单击“Chart”按钮,选定分析变量,选中3-D选项,再单击“Options”按钮,进入“Options”窗口,单击“Slice Values”选项卡,选中“Percent”单选按钮,单击“OK”返回,再单击“Variable”选项卡,进入分组变量的设置窗口,将Sex选为分组变量,如图3-27所示。两次单击“OK”分别得到标有百分比的男女生立体三维饼图,如图3-28所示。
图3-27 Variable对话框
图3-28
男女生三维饼图
(2) 分别绘制男女生的三维条形图
选择主菜单“Graphs(图形)”→“Bar Chart(条形图)”→“Vercital…(垂直)”,打开“Vercital Bar Chart”对话框,选择变量列表中的case,单击“Chart”按钮,选定分析变量,再选择sex变量,单击“Group By”按钮,选定分组变量。
选中3-D选项,再单击“Options”按钮,进入“Options”窗口,单击“Statistics”选项卡,选中“Display Statistics”按钮,两次单击“OK”按钮,得到标有频数的男女生的两个的三维条形图,如图3-29所示。
(3) 结果分析
观察图3-28和3-29。男女生均以“偶尔逃课”为众数,分别占逃课情况的58%和74%,但男生的异众比例为42%,女生的异众比例为26%,这说明用“偶尔逃课”代表男生逃课的状况并不好,代表性差。看条形图上的数据就明白,这是因为男生走“两个极端”的不少。而对女生而言,“偶尔逃课”能够很好地代表她们逃课的状况。
六、编程绘制统计图
1. 使用GCHART过程绘制条形图和饼图
图3-29
男女生三维条形图
【实验3-6】使用GCHART过程绘制实验3-5中有关图形。(图形略)
goptions ftext="宋体" htitle=1;
title '总体情况三维饼图';
proc gchart data = 4_2;
pie3d case/ type=PCT;
run;
title '总体情况三维条形图';
proc gchart data = 4_2;
vbar3d case/ outside=FREQ;
run;
title '两个年级二维饼图';
proc gchart data = 4_2;
pie case/group=grade type=PCT;
run;
title '两个年级二维条形图';
proc gchart data = 4_2;
vbar case/group=grade outside=FREQ;
run;
title '男女生三维饼图';
proc gchart data = 4_2;
pie3d case/group=sex type=PCT;
run;
title '男女生三维条形图';
proc gchart data = 4_2;
vbar3d case/group=sex outside=FREQ;
run;
title '';
2. 使用GPLOT过程绘制散点图和连线图
【实验3-7】使用GPLOT过程绘制中co和datetime的散点图以及wind和datetime的连线图。
goptions ftext="宋体" htitle=1;
proc gplot data =;
plot co*datetime;
title 'co和datetime的散点图';
symbol v=dot i=none cv=orange ;
proc gplot data =;
plot wind*datetime;
title 'wind和datetime的连线图';
symbol v=star i=join cv=red ci=blue w=2;
run;
title '';
图3-30
散点图和连线图
3.4 上机演练
【练习3-1】由2001年国家统计局公布的资料,我国内地主要省市的职工的年平均工资和人均GDP数据如表3-5所示:
表3-5
平均工资和人均GDP数据(单位:元)
东部
省市
北京
天津
河北
山西
辽宁
吉林
黑龙江
上海
江苏
浙江
工资
16350
12480
7781
6918
8811
7924
7835
18531
10299
13076
GDP
20387.62
18248.45
8270.65
5382.47
11876.07
7450.44
9658.26
29574.91
12791.88
14325.42
西部
省市
内蒙古
广西
重庆
四川
贵州
云南
西藏
陕西
甘肃
青海
工资
6974
7651
8020
8323
7468
9231
14976
7804
8560
10050
GDP
6504.58
4970.35
5662.62
5308.87
3070.04
4844.84
4507.46
5107.46
4195.36
5807.53 安徽
福建
江西
山东
河南
湖北
广东
海南
湖南
6989
10584
7041
8772
6930
7565
13823
7408
8128
5496.34
12268.42
5250.82
10395.76
6098.77
7734.37
12215.31
6928.71
6184.78
宁夏
新疆
8590
8717
5304.27
7706.38
(1) 将表3-5在Excel中整理并导入成SAS数据集。
(2) 用菜单操作方式分别计算我国内地东部、西部2001年职工的平均工资、中位数、标准差和变异系数;
(3) 编程分别计算我国内地东部、西部2001年职工的人均GDP数据和平均工资的中位数、标准差和变异系数。
【练习3-2】某城市自来水公司水费收缴员某次对某一居民楼内各用户两个月的用水量查表记录如表3-6 所示。试用“分析家”和编程绘制统计图形对该居民楼的用水情况做出分析。
表3-6
居民两个月的用水量(单位:立方米)
47
10
23
12
14
23
12
14
17
8
22
7
9
9
10
13
8
8
5
24
20
10
6
17
11
11
10
5
68
16
19
15
12
30
16
9
10
15
9
20
20
4
20
35
9
9
13
20
20
20
13
14
25
9
6
10
20
12
62
47
25
9
6
10
20
【练习3-3】使用INSIGHT绘制中co和datetime的散点图以及wind和datetime的连线图。
发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1688905408a182212.html
评论列表(0条)