实验三 SAS描述统计分析|江阴雨辰互联

2023年7月9日发(作者：)

实验三 SAS描述统计分析

对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。其目的是为了揭示数据的集中趋势、分散程度和数据分布形态，展示极端数据，最后做出说明现象本质的初步结论。

用图形对数据进行描述性统计分析具有直观、鲜明、形象、便捷等特点，在表达统计数据时可以给人留下深刻的印象。统计图形的种类很多，利用SAS可以方便的绘制常用的统计图形。

3.1 实验目的

掌握使用SAS对数据作描述性统计分析的方法。掌握SAS/GRAPH所提供的常用图形功能，能用SAS的统计图形对数据进行描述性统计分析。

3.2 实验内容

一、用INSIGHT计算统计量、绘制统计图形

二、用“分析家”计算统计量、绘制统计图形

三、编程实现描述性统计（MEANS、UNIVARIATE、FREQ过程）、编程绘制统计图（GPLOT和GCHART过程）

3.3 实验指导

一、用INSIGHT计算统计量

【实验3-1】按性别分别计算中身高的均值、标准差、中位数和其它四分位数，简单分析学生身高的状况。

1. 在INSIGHT中打开数据集

在菜单中选择“Solution（解决方案）”→“Analysis（分析）”→“Interactive Data Analysis（交互式数据分析）”，打开“SAS/INSIGHT Open”对话框，在对话框中选择数据集：，单击“Open（打开）”按钮，即可在INSIGHT中打开数据窗口，如图3-1左所示。

2. 用Distribution菜单项计算统计量

(1) 选择菜单“Analyze（分析）”→“Distribution (Y)（分布）”，打开“Distribution (Y)”对话框。在数据集CLASS的变量列表中，选择height，然后单击“Y”按钮，height被选为分析变量，选择sex，然后单击“Group”按钮，sex被选为分组变量，如图3-1右所示。

图3-1

在INSIGHT中计算统计量

(2) 单击“Output（输出）”按钮，在打开的对话框中包含描述性统计的选项，见表3-1。

表3-1

描述性统计选项

选项

Moments

Quintiles

Basic Confidence Intervals

Tests for Location

说明

矩统计量

分位数

基本置信区间

位置检验

选项

Frequency Counts

Robust Measures of Scale

Tests for Normality

说明

频数统计

尺度的稳健估计

正态性检验

选择矩统计量和分位数选项，取消默认的选项：“Box Plot/Mosaic Plot”和“Histogram/Bar

Chart”，如图3-2所示。

图3-2

描述性统计选项

两次单击“OK”按钮，即可得到变量height按sex分组的各种矩统计量（Moments）和分位数（Quantiles），如图3-3所示。

3. 结果分析

从结果可以看出女生和男生分别有9个和10个观测，女生的平均身高60.5889低于男生的平均身高63.91，女生的标准差5.0183略大与男生的标准差4.9379，说明女生的身高较为分散一些。图3-3

分组显示的各种矩统计量和分位数

女生的中位数、四分之一分位数和四分之三分位数分别为62.5、56.5和64.3，说明身高大于或小于62.5的女生各占一半，有四分之一的女生身高不超过56.5，而另有四分之一的女生身高超过了64.3；男生的中位数、四分之一分位数和四分之三分位数分别为64.15、59.0和67.0，说明身高大于或小于64.15的男生各占一半，有四分之一的男生身高不超过59.0，而另有四分之一的男生身高超过了67.0。

二、用“分析家”计算统计量

【实验3-2】从某大学总数为500名学生的“概率统计学”课程的考试成绩中，随机地抽取60名学生的考试成绩如表3-2所示（数据集为：3-2，变量名为F1）：

表3-2

“概率统计学”考试成绩

100

求出上述数据的平均值、方差、极差、中位数、四分之一分位数及四分之三分位数，并分析成绩分布情况。

1. 在“分析家”中打开3-2数据集

(1)选择主菜单“Solutions（解决方案）”→“Analysis（分析）”→“Analyst（分析家）”，打开“分析家”窗口。

(2) 选择主菜单“File（文件）”→“As SAS Name Open…（按SAS名称打开）”，在打开的对话框中，选择3-2。

2. 用Summary Statistics菜单项计算描述性统计量

(1) 选择主菜单“Statistics（统计）”→“Descriptive（描述性统计）”→“Summary Statistics（汇总统计量）”，打开“Summary Statistics”对话框，选择变量列表中的F1，单击“Analysis”按钮，选定分析变量，如图3-4左所示。图3-4

选定分析变量与统计量

(2) 单击“Statistics”按钮，打开“Summary Statistics：Statistics”对话框。对话框中列出可以计算的所有统计量，见表3-3。

表3-3

可计算统计量

Mean

Standard deviation

Standard error

Variance

Minimum

Maximum

Range

Sum

Median

均值

标准差

标准误

方差

最小值

最大值

极差

和

中位数

Number of observations

Number of missing values

Skewness

Kurtosis

Student's t

Probability of t

Coefficient of variation

Corrected sum of squares

Uncorrected sum of squares

观测数

缺失数

偏度

峰度

t检验值

p值

变异系数

校正平方和

未校平方和

选择输出统计量平均值、方差、极差，如图3-4右所示。两次单击“OK”按钮后，得到平均值、方差、极差如图3-5所示。

图3-5

描述性统计量

3. 用Distributions菜单项计算分位点

在“分析家”窗口选择主菜单“Statistics（统计）”→“Descriptive（描述性统计）”→“Distributions（分布）”，打开“Distributions”对话框，选择变量列表中的F1，单击“Analysis”按钮，选定分析变量。

单击“OK”按钮，即可得到关于变量F1的矩统计量和基本统计测度，如图3-6所示。

图3-6

矩统计量和基本统计测度另外，还有位置检验、分位数以及极值观测（最大和最小的5个观测），如图3-7所示。

图3-7

位置检验、分位数以及极值观测

4. 结果分析

学生成绩的均值、方差和极差分别为77.72、194.07和70，方差和极差较大，说明成绩的分布很分散。中位数、四分之一分位数及四分之三分位数分别为81、72和86，说明成绩大于或小于81的学生各占一半，有四分之一的学生成绩不超过72；而有四分之一的学生成绩超过了86，从均值和中位数可以看出有一大半学生的成绩超过了平均数。

三、编程实现描述性统计

【实验3-3】编程实现描述性统计。

1. 用FREQ过程编制频数表

编制中age(年龄)的频数表，代码如下：

proc freq data = ;

tables age;

RUN;

图3-8

频数表

运行结果如图3-8所示。

2. 用NEANS过程计算均值、标准差、极差和分位数

按性别分别计算中体重的均值、标准差、极差、中位数、四分之一分位数和四分之三分位数，代码如下：

proc means data = mean std range median q1 q3;

var weight;

class sex;

run;

运行结果如图3-9所示。

图3-9

使用class语句分类计算均值、标准差、极差、中位数和分位数

或者

proc sort data =;

by sex;

run;

proc means data = mean std range median q1 q3; var weight;

by sex;

run;

运行结果如图3-10所示。

说明: 1) 通常使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。

2) 在means过程中使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。

图3-10

使用by语句计算均值、标准差、极差、中位数和分位数

3. 用UNIVARIATE过程计算众数和分位数

计算中age(年龄)的众数、2.5%和97.5%分位数。

proc univariate data =;

var age ;

output out=pct pctlpre=p pctlpts=2.5 97.5;

run;

proc print data=pct;

run;

运行结果如图3-11所示，age(年龄)的众数为12，2.5%分位数为11，97.5%分位数为16。

图3-11

众数和分位数

说明: UNIVARIATE过程中的output语句表示将UNIVARIATE产生的统计量输出到“out=”后定义的新数据集中，本例新数据集名称为pct，output语句中的选项pctlpre用于指定新数据集中变量的前缀，本例表示百分位数变量的前缀为p；选项pctlpts表示需要计算百分位数，本例需要计算2.5%和97.5%分位数。

四、用INSIGHT绘制统计图形

【实验3-4】研究中gpa分数的分布：画出gpa的直方图、盒形图；通过直方图、盒形图简述不同性别的gpa数据的特点。

在INSIGHT中打开数据集。 1. 绘制直方图

(1) 选择菜单“Analyze（分析）”→“Histogram/Bar

Chart (Y)（直方图/条形图）”，打开“Histogram/Bar Chart

(Y)”对话框。

(2) 在数据集gpa的变量列表中，选择gpa变量，然后单击“Y”按钮，gpa变量被选定，如图3-12所示。

(3) 单击“OK”按钮，即可得到直方图，如图3-13

左所示。

图3-12

“Histogram/Bar Chart(Y)”对 (4) 单击图形框左下角处的三角形，在打开的菜单中话框

选择“Values（值）”，即可在图中显示频数值，如图3-13右所示。

(5) 如果在“Histogram/Bar Chart (Y)”对话框中选定gpa变量作为分析变量，然后选择sex变量后再单击“Group（分组）”按钮，单击“OK”后可将gpa分数按男女学生分别画出直方图，如图3-14所示。

图3-13

在INSIGHT中绘制直方图

图3-14

不同性别gpa分数的直方图

2. 绘制盒形图

(1) 选择菜单“Analyze（分析）”→“Box Plot/Mosaic Plot (Y)（盒形图/马赛克图）”，打开“Box Plot/Mosaic Plot (Y)”对话框。在数据集gpa的变量列表中，选择gpa变量，然后单击“Y”按钮，gpa变量被选定，如图3-15左所示。

(2) 单击“Output（输出）”按钮，取消“Y Axis Vertical（垂直的Y轴）”如图3-15右所示。单击“OK”按钮返回对话框。

图3-15

“Box Plot/Mosaic Plot (Y)”对话框

(3) 单击“OK”按钮，即可得到盒形图，如图3-16左所示。

(4) 单击图形框左下角处的三角形，在打开的菜单中选择“Means（均值）”，可以在盒形图中显示均值的位置，如图3-16右所示。

图3-16

在INSIGHT中绘制盒形图

(5) 按(1)中方法打开“Box Plot/Mosaic Plot (Y)”对话框，选择gpa变量，单击“Y”按钮，再选择sex变量，然后单击“X”按钮，如图3-17左所示，可以将男女生gpa分数的两个盒形图画在同一个坐标系下，如图3-17右所示，便于查看男女生gpa分数的分布情况。

图3-17

画在一个坐标系下

(6) 单击图3-17右图中左下角的三角，在弹出的菜单中选中“Means”和“Values”，可在盒形图上标出男女生gpa分数的均值、中位数、四分之一分位数和四分之三分位数等。

图3-18

显示均值、中位数、四分之一分位数和四分之三分位数等

3. 结果分析

从图3-13和3-16可以看到gpa分数在均值两边的分布是不对称，有半数以上学生的gpa分数超过了平均值。这部分高分学生的分数比较集中，因为盒形图中均值线右边部分较短，而其他低分部分的学生成绩较为分散，gpa分数的总体分布为左偏。另外，有四个学生的gpa分数是极端值，它不具有代表性。

从男女生各自的gpa分数直方图（图3-14）和盒形图（图3-17右）可以看到，男女生gpa分数的分布情况类似，都略微左偏。两条中位数线位置没有明显区别，但女生中位数线左方部分更长一些，说明女生的gpa分数低分部分更分散一些。

五、用“分析家”绘制统计图形

【实验3-5】某高校对学生逃课的情况进行抽样调查的结果如表3-4所示：

表3-4

学生逃课情况表

年级

2004级

性别

男

女

逃课的情况

从不逃课

偶尔逃课

年级

2005级

性别

男

女

男

女

逃课的情况

从不逃课

偶尔逃课

偶尔逃课 2004级

2004级

女

男

女

偶尔逃课

经常逃课

2005级

女

男

女

偶尔逃课

经常逃课

(1) 利用统计图形从整体上对逃课情况进行分析。

(2) 利用统计图形对两个年级逃课状况进行比较分析。

(3) 利用统计图形对男女生逃课状况进行比较分析。

1. 数据预处理

由于“分析家”对汉字处理效果不是很好，用变量grade、sex 和case分别代表年级、性别、逃课情况，“2004”和“2005”分别表示“2004级”、“2005级”，“M”和“F”分别表示“男”和“女”，“N”、“S”和“A”分别表示“从不逃课”、“偶尔逃课”和“经常逃课”。

(1) 首先将表3-4处理成Excel表格（sy4_），如图3-19所示。

(2) 将sy4_导入为SAS数据集4_2。

或在“分析家”中直接打开sy4_后存为数据集4_2。

以下操作总假定已经在“分析家”中打开数据集

4_2。

2. 利用统计图形从整体上对逃课情况进行分析

图3-19

数据表sy4_

(1) 绘制三维饼图

选择主菜单“Graphs（图形）”→“Pie Chart（饼图）”，打开“Pie Chart”对话框，选择变量列表中的case，单击“Chart”按钮，选定分析变量，选中3-D选项，如图3-20左。

图3-20

总体情况三维饼图

再单击“Options”按钮，进入“Options”窗口。单击“Slice Values”选项卡，选中“Percent”单选按钮，如图3-20右所示，两次单击“OK”按钮，得到标有百分比的立体三维饼图，如图3-21所示。

(2) 绘制三维条形图

选择主菜单“Graphs（图形）”→“Bar Chart（条形图）”→“Vercital…（垂直）”，打开“Vercital

Bar Chart”对话框，选择变量列表中的case，单图3-21

总体情况三维饼图

击“Chart”按钮，选定分析变量。再选中3-D选项，如图3-22上所示。

单击“Options”按钮，进入“Options”窗口，单击“Statistics”选项卡，选中“Display

Statistics”复选框，如图3-22下所示。两次单击“OK”按钮，得到标有频数的立体三维条形图，如图3-23所示。

图3-22

设置三维条形图

(3) 结果分析从图3-21和图3-23中可以看出从不逃课的仅占8%，经常逃课的占26%，偶尔逃课的占66%，这说明绝大多数学生逃过课，众数为“偶尔逃课”，说明偶尔逃课能代表逃课的状况，有一小部分经常逃课，这是值得我们注意的。

图3-23

总体情况条形图

3. 利用统计图形对两个年级逃课状况进行比较分析

(1) 分别绘制两个年级的二维饼图

选择主菜单“Graphs（图形）”→“Pie Chart（饼图）”，打开“Pie Chart”对话框，选择变量列表中的case，单击“Chart”按钮，选定分析变量，选中2-D选项，再单击“Options”按钮，打开“Options”对话框。

单击“Slice Values”选项卡，选中“Percent”单选按钮，单击“OK”返回，再单击“Variables”按图3-24 Variable对话框

钮，打开分组变量设置对话框，将GRADE选为分组变量，如图3-24所示。

两次单击“OK”，可以分别得到标有百分比的两个年级的二维饼图，如图3-25所示。

图3-25

两个年级二维饼图

(2) 分别绘制两个年级的二维条形图

选择主菜单“Graphs（图形）”→“Bar Chart（条形图）”→“Vercital…（垂直）”，打开“Vercital Bar Chart”对话框，选择变量列表中的case，单击“Chart”按钮，选定分析变量，选中2-D选项，再选择grade变量，单击“Group By”按钮，选定分组变量，如图3-26左所示。

单击“Options”按钮，进入“Options”窗口，单击“Statistics”选项卡，选中“Display

Statistics”复选框，两次单击“OK”按钮，得到标有频数的两个年级的二维条形图，如图3-26右所示。

图3-26

两个年级三维条形图

(3) 结果分析

从图3-25和图3-26右看出两个年级学生逃课的状况的差异，主要在两个极端，即“从不逃课”和“经常逃课”上。2004级“经常逃课”的比2005级高出20%，而“从不逃课”的低12%，这说明2004级逃课的情况比2005级严重得多。

两个年级的逃课状况中，众数均为“偶尔逃课”，但2004级的异众比例为38%，2005级的异众比例为30%，这说明“偶尔逃课”并不能很好地代表2004级逃课的状况，相比之下“偶尔逃课”能够很好地代表2005级逃课的状况。

4. 利用统计图形对男女生逃课状况进行比较分析

(1) 分别绘制男女生的饼图

选择主菜单“Graphs（图形）”→“Pie Chart（饼图）”，打开“Pie Chart”对话框，选择变量列表中的case，单击“Chart”按钮，选定分析变量，选中3-D选项，再单击“Options”按钮，进入“Options”窗口，单击“Slice Values”选项卡，选中“Percent”单选按钮，单击“OK”返回，再单击“Variable”选项卡，进入分组变量的设置窗口，将Sex选为分组变量，如图3-27所示。两次单击“OK”分别得到标有百分比的男女生立体三维饼图，如图3-28所示。

图3-27 Variable对话框

图3-28

男女生三维饼图

(2) 分别绘制男女生的三维条形图

选择主菜单“Graphs（图形）”→“Bar Chart（条形图）”→“Vercital…（垂直）”，打开“Vercital Bar Chart”对话框，选择变量列表中的case，单击“Chart”按钮，选定分析变量，再选择sex变量，单击“Group By”按钮，选定分组变量。

选中3-D选项，再单击“Options”按钮，进入“Options”窗口，单击“Statistics”选项卡，选中“Display Statistics”按钮，两次单击“OK”按钮，得到标有频数的男女生的两个的三维条形图，如图3-29所示。

(3) 结果分析

观察图3-28和3-29。男女生均以“偶尔逃课”为众数，分别占逃课情况的58%和74%，但男生的异众比例为42%，女生的异众比例为26%，这说明用“偶尔逃课”代表男生逃课的状况并不好，代表性差。看条形图上的数据就明白，这是因为男生走“两个极端”的不少。而对女生而言，“偶尔逃课”能够很好地代表她们逃课的状况。

六、编程绘制统计图

1. 使用GCHART过程绘制条形图和饼图

图3-29

男女生三维条形图

【实验3-6】使用GCHART过程绘制实验3-5中有关图形。（图形略）

goptions ftext="宋体" htitle=1;

title '总体情况三维饼图';

proc gchart data = 4_2;

pie3d case/ type=PCT;

run;

title '总体情况三维条形图';

proc gchart data = 4_2;

vbar3d case/ outside=FREQ;

run;

title '两个年级二维饼图';

proc gchart data = 4_2;

pie case/group=grade type=PCT;

run;

title '两个年级二维条形图';

proc gchart data = 4_2;

vbar case/group=grade outside=FREQ;

run;

title '男女生三维饼图';

proc gchart data = 4_2;

pie3d case/group=sex type=PCT;

run;

title '男女生三维条形图';

proc gchart data = 4_2;

vbar3d case/group=sex outside=FREQ;

run;

title '';

2. 使用GPLOT过程绘制散点图和连线图

【实验3-7】使用GPLOT过程绘制中co和datetime的散点图以及wind和datetime的连线图。

goptions ftext="宋体" htitle=1;

proc gplot data =;

plot co*datetime;

title 'co和datetime的散点图';

symbol v=dot i=none cv=orange ;

proc gplot data =;

plot wind*datetime;

title 'wind和datetime的连线图';

symbol v=star i=join cv=red ci=blue w=2;

run;

title '';

图3-30

散点图和连线图

3.4 上机演练

【练习3-1】由2001年国家统计局公布的资料，我国内地主要省市的职工的年平均工资和人均GDP数据如表3-5所示：

表3-5

平均工资和人均GDP数据（单位：元）

东部

省市

北京

天津

河北

山西

辽宁

吉林

黑龙江

上海

江苏

浙江

工资

16350

12480

7781

6918

8811

7924

7835

18531

10299

13076

GDP

20387.62

18248.45

8270.65

5382.47

11876.07

7450.44

9658.26

29574.91

12791.88

14325.42

西部

省市

内蒙古

广西

重庆

四川

贵州

云南

西藏

陕西

甘肃

青海

工资

6974

7651

8020

8323

7468

9231

14976

7804

8560

10050

GDP

6504.58

4970.35

5662.62

5308.87

3070.04

4844.84

4507.46

5107.46

4195.36

5807.53 安徽

福建

江西

山东

河南

湖北

广东

海南

湖南

6989

10584

7041

8772

6930

7565

13823

7408

8128

5496.34

12268.42

5250.82

10395.76

6098.77

7734.37

12215.31

6928.71

6184.78

宁夏

新疆

8590

8717

5304.27

7706.38

(1) 将表3-5在Excel中整理并导入成SAS数据集。

(2) 用菜单操作方式分别计算我国内地东部、西部2001年职工的平均工资、中位数、标准差和变异系数；

(3) 编程分别计算我国内地东部、西部2001年职工的人均GDP数据和平均工资的中位数、标准差和变异系数。

【练习3-2】某城市自来水公司水费收缴员某次对某一居民楼内各用户两个月的用水量查表记录如表3-6 所示。试用“分析家”和编程绘制统计图形对该居民楼的用水情况做出分析。

表3-6

居民两个月的用水量（单位：立方米）

【练习3-3】使用INSIGHT绘制中co和datetime的散点图以及wind和datetime的连线图。

发布者：admin，转转请注明出处：http://www.yc00.com/xiaochengxu/1688905408a182212.html

实验三 SAS描述统计分析

发表回复

评论列表（0条）

联系我们

400-800-8888

实验三 SAS描述统计分析

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888