SAS过程简介

SAS过程简介

2023年7月4日发(作者:)

第49章 SAS过程简介

用编程法运行SAS,通常需要两步,第一步,叫SAS数据步,此步产生SAS数据集;第二步,叫SAS过程步,此步调用SAS软件包中真正的程序(称为SAS过程)处理提供的SAS数据集。本章将介绍以下主要内容:其一,SAS过程步的一般形式;其二,SAS/BASE模块中常用的一些过程及其主要功能;其三,SAS/STAT模块中常用的一些过程及其主要功能。

49.1 SAS过程步的一般形式

SAS过程步的一般形式为:

PROC 过程名 DATA=输入数据集 选项;

过程语句 / 选项;

过程语句 / 选项;

……

RUN;

其中PROC是过程步开始的标志,在PROC后至少要留一个空格,紧随其后的是一个英文单词(如PRINT、SORT、…),该单词叫SAS过程名。SAS软件中有很多模块(如SAS/BASE、SAS/STAT、SAS/GRAPH、…),每个模块中都有很多具体的SAS过程。在PROC后写上一个具体的过程名,就是要求SAS系统调用该过程对给定的SAS数据集进行处理。

写在“PROC 过程名”之后的内容,都叫作PROC语句的选择项,简称PROC语句的选项。所谓“选项”,就是根据用户的需要,可选可不选,用来规定过程运行的一些设置。若某些选项没选,SAS系统就取隐含的或默认的或缺省的内容。例如,当“DATA=输入数据集”未被选定时,SAS系统就使用在此之前最后生成的数据集为分析之用的数据集。如果有多个选项,彼此之间需用空格分开。

每个SAS语句都以分号结束,而每个过程步一般以RUN 语句结束。还有一种所谓“交互式过程”可以在遇到RUN语句时不结束过程运行,只有遇到QUIT语句或者下一个过程步、数据步时才结束。在一个SAS过程步中,根据需要,可以写多个SAS过程步语句。

49.2 SAS/BASE模块中常用的一些过程及其主要功能

49.2.1 CHART过程

CHART过程可以产生垂直和水平直方图、块形图、饼图和星形图。这些图形显示变量的值或与这些值相关的统计量。变量可以是数值的,也可以是字符的。

PROC CHART是一种有效的工具,它可以快速将数据视觉化,但如果需要生成包含颜色和不同字体的高品质图形,建议使用SAS/GRAPH软件。SAS/GRAPH软件中的GCHART过程产生与PROC CHART相同类型的图表。此外,PROC GCHART还可以生成环形图。

49.2.2 COMPARE过程

COMPARE过程比较两个SAS数据集的内容,它能比较不同数据集中的变量,也能比较同一个数据集中的不同变量。

PROC COMPARE比较两个数据集:基础数据集和比较数据集。这个过程确定匹配变量和匹配观测。匹配变量是具有相同名字的一些变量,或者使用VAR和WITH语句明显配对的一些变量。匹配变量必须是相同的类型。匹配观测是对用户规定的所有ID变量具有相同值的一些观测,若没有规定ID语句,则是出现在这些数据相同位置的观测。如果使用ID变量来匹配观测,两个数据集必须按所有ID变量分类。

49.2.3 CORR过程

CORR过程用于计算变量间的相关系数,包括Pearson的乘积矩相关和加权乘积矩相关,还能产生三个非参数的关联测度(Speaman的秩序相关,Kendall的tau-b,和Hoeffding的相关性度量D)。另外,该过程也可以计算偏相关(Pearson的偏相关,Speaman的偏秩序相关 和Kendall的偏tau-b)和Cronbach系数α及一些单变量的描述性统计量。

49.2.4 EXPORT过程

PROC EXPORT过程步用于读取SAS数据集,并把它写到外部文件中去并保存。外部文件类型包括:Excel、Access、DBF、文本文件(*.txt)等,同时此过程步还可以自定义存为外部文件时的格式。

PROC EXPORT以下述方式之一来输出数据:

·产生DATA步代码

·产生SAS/ACCESS代码

·转译器

用输出数据源特定的选项和语句来控制结果。PROC EXPORT产生特定的输出文件并保存输出信息到SAS日志。在日志中可以看到DATA步或由PROC EXPORT 产生的SAS/ACCESS代码。若使用转译器则不提交代码。

49.2.5 FORMAT过程

FORMAT过程用来对数值或字符变量定义用户自己的输入格式和输出格式。此外,它可以打印含有输入或输出格式的一部分目录,存贮SAS数据集中输入或输出格式的描述,还可以用SAS数据集产生输入或输出格式。

49.2.6 FREQ过程

FREQ过程可以生成单向到n向的频数表和交叉表。对于双向表(二维表),该过程可以计算检验统计量和关联度。对于n向表,该过程进行分层分析,计算每一层和交叉层的统计量。这些频数也能够输出到SAS数据集里。

49.2.7 FSLIST过程

FSLIST过程能够使用户浏览SAS对话中的非SAS数据集的外部文件。因为这些文件在交互式的Windows环境中显示,为检查这些文件的内容,该过程提供了高度方便的机制。另外,用户可以从FSLIST窗口中拷贝文本到利用SAS文本编辑器的任何一个窗口中。

49.2.8 IMPORT过程

IMPORT过程从外部数据资源读取数据并且将数据写入到SAS数据集中。外部数据资源包括Microsoft Access数据库、Excel 文件、SPSS文件、Stata文件、Lotus1-2-3扩展表和有界限的外部文件(在这些文件中,数据值被一些界限分隔开,比如说空格、标点或者标记等)。

当运行PROC IMPORT过程时,该过程读取输入文件并将数据写入SAS数据集中。SAS变量的定义是基于输入记录的。PROC IMPORT过程通过下列方法将数据读入到数据集中:

·产生DATA步代码

·产生SAS/ACCESS代码

·翻译引擎

用户可以利用语句和选项来控制结果的输出,这些语句或者选项对于输入数据资源来说是特定的。PROC IMPORT过程产生特定的SAS输出数据集并且往SAS日志窗口写入关于输入的信息。在日志窗口中,用户可以看到由PROC IMPORT过程产生的DATA步或者SAS/ACCESS代码。如果使用翻译引擎,那么就不会提交代码。

注意:为了输入数据,用户也可以使用Import指南,这是一个窗口工具,它能够指导用户通过使用该过程输入外部数据资源。用户也可用请求Import指南产生IMPORT过程语句,该语句可以被保存到文件中以备后用。选择File Import Data可以使用Import指南。

49.2.9 MEANS过程

MEANS过程为描述性统计量计算提供了数据总结工具,这些变量来自于所有的观测和分组的观测。例如,运行PROC MEANS可以

·计算基于矩阵的描述性统计量 ·估计分位数,包括中位数

·计算均数的置信区间

·进行t检验

在默认的情况下,PROC MEANS过程显示输出结果。用户也可以利用OUTPUT语句将统计量存储到一个SAS数据集中。

PROC MEANS过程与PROC SUMMARY过程是非常相似的。

49.2.10 OPTIONS过程

该过程用于列出所有SAS系统选项的当前值,输出结果在SAS的LOG窗口中显示。

SAS系统选项是用于控制SAS输出格式、文件处理、数据集运行、与操作环境的交互方式、以及其他任务,它不是针对某一步或某个SAS数据集。用户可以通过以下方式改变SAS某些选项的当前值:SAS命令、配置或autoexec文件、SAS Option语句、使用OPTLOAD 和OPTSAVE过程、通过SAS系统选项窗口、以及其他方法。

通过OPTIONS 过程产生的LOG输出窗口可以显示全部选项的设置和概要。

49.2.11 PLOT过程

PLOT过程用来画散布图。在数据处理中常常希望直观地了解数据的变化趋势,数据间的相关关系等,该过程能够很方便地实现这一目的。

假设已有一个SAS数据集,共有n个观测,m个变量。该过程能够对数据集中任两个变量画出散布图。用户可以自定义散布图的标记符号、刻度间隔和标记、图形的大小、重叠作图、等值线图、以及水平或垂直方向的扩展。

49.2.12 PRINT过程

PRINT过程用于输出SAS数据集中的全部或部分变量的数值,它可以产生一系列报告,从简单列表报告,到资料分组和数值变量总体或亚总体计算的高级定制报告。

简单列表报告是用户可以产生的最简单的一种报告,它通过proc print语句直接产生。

定制报告通过使用ODS的PRINT过程来产生,包括:HTML输出、定制报表外观、定制标题和列标题、数值输出中的美元符号和逗号、选择性的变量数量和顺序、报表资料分组、全部或部分变量值汇总。

49.2.13 PRINTTO过程

该过程用于定义SAS过程输出和SAS日志的输出地点。通常,SAS过程的输出根据执行的方式,送到缺省的过程输出文件。SAS日志根据执行的方式送到缺省的SAS日志文件。使用PROC PRINTTO,用户可规定文件标记,文件名,或者逻辑名作为打印输出或SAS日志的目的地,该过程把输出送到用户指定的文件中去。

PRINTTO过程的功能有:改变过程输出的目的地、改变SAS日志的目的地、有选择地限制SAS输出、把输出文件存放在永久性文件中、在同一作业中使用SAS输出作为输入数据。

49.2.14 RANK过程

该过程通过SAS数据集中的观测计算一个或几个数值变量的秩得分,这些秩得分被输出到新的SAS数据集中。RANK过程可以有选择地生成正态或其他秩得分。

RANK过程把数值从最小到最大排列,对最小值赋秩1,对第二小值赋秩2,一直到赋秩n,出现数值相同的观测值时,其秩可以赋平均秩。许多非参数统计方法使用秩而不用原始变量值。该过程对于连续数据分成n组也是有用的。选项GROUP=能够把一个总体分解为个数近似相等的一些组。

49.2.15 REPORT过程

REPORT过程将PRINT,MEANS和TABULATE过程的特点与DATA步报告写法的特点结合起来成为一个强有力的编写报表的工具。用户可以按以下各种方式来使用该过程:1、用一个具有提示功能的窗口环境来引导用户建立一个报表;2、用一个没有提示功能的窗口环境;3、 用一个非窗口环境。在这种情况下,用户提交带有PROC REPORT语句的一系列语句,正如用户在其他SAS过程的做法一样。用户可以存贮一个报表的定义并且用一个窗口环境或者非窗口环境对含有用于报表定义中这些变量的任一个SAS数据集生成同样的报告。

49.2.16 SORT过程

SORT过程在SAS数据集中按一个或几个变量的大小次序将观测重新分类排序,并把结果存放在新的SAS数据集里,或者用新的数据集代替原始数据集。

SORT过程常用于将数据集分类排序,以便其他SAS过程通过使用BY语句可以直接调用它。在对数据集进行合并或者更新前,也必须先进行分类排序。该过程根据BY语句中变量值的大小将数据集中的观测重新排序。当你想按两个或更多的变量进行排序时,SORT过程首先按第一个BY变量的次序排序,然后对第一个BY变量具有相同值的那些观测再按第二个BY变量的次序排序。对所规定的每个BY变量均依次进行排序。

49.2.17 SQL过程

SQL过程实现SAS中的结构查询语言SQL(Structured Query Language)。SQL是一个标准化的广泛使用的语言,它可以检索和更新关系表格和数据库中的数据。SQL过程可以实现:1、检索和操作存于表中、视图里的数据;2、在表的列中生成表格、视窗和索引;3、产生包含查询结果各行观测值的SAS宏变量;4、增加或修改在表格列里的数值,或者通过增加、修改、删除列来修饰表格。

49.2.18 STANDARD过程

STANDARD过程将SAS数据集中的部分或所有变量按给定的均值和标准差进行标准化变换,并生成一个包含标准化值的新的SAS数据集。

标准化是一种移动数据位置和标度属性的方法。有时你需要将一个变量中心化使其均值为0、标准差为1。有些统计方法是在数据标准化的基础上进行分析的。如果数据是正态分布,标准化也是学生化,因为标准化的结果具有学生t分布。

49.2.19 SUMMARY过程

SUMMARY过程是用于数据集中或分组中的所有观测进行描述统计量计算的数据汇总工具。SUMMARY过程与MEANS过程非常相似,MEANS过程中的描述适用于SUMMARY过程。

49.2.20 TABULATE过程

TABULATE过程用分类报表的形式输出满足用户要求的描述性统计量。每个表单元属于用交叉变量名组成的特殊的观测类。与每个单元有关的统计量是由该类所有观测计算得到的。由该过程计算的统计量很多与其它描述过程,如MEANS,FREQ和SUMMARY等计算的统计量相同。

TABULATE过程可以提供:简单但很有效的方法来创建用户定义的报表;非常灵活的分类方式;用于加标题、格式化变量和用过程产生统计量的各种机制。

49.2.21 TRANSPOSE过程

TRANSPOSE过程完成对SAS数据集的转置,即把观测变为变量,变量变为观测。该过程读入一个SAS数据集并创建一个新的数据集作为它的唯一输出集。原数据集中的行变成列,列变成行。在新的数据集中的变量对应于原数据集的观测,而新的数据集中的观测对应于原数据集的变量。该过程产生的新数据集包含下面三类变量:从输出数据集中拷贝过来的变量,这些变量与输入数据集中的变量具有相同的名字和值、由输出数据集中的观测转置后创建的变量;为了识别在输出数据集的每个观测值的来源而由该过程创建的变量。

49.2.22 UNIVARIATE过程

该过程除了可以完成类似MEANS过程的基本统计量计算外,它还可以计算以下统计量:描述变量极端值的情况;计算分位数;生成若干个描述变量分布的图;生成频数表;对数据 进行正态性检验。还可对单组设计或配对设计定量资料进行t检验或符号检验、符号秩和检验。

49.3 SAS/STAT模块中最常用的一些过程及其主要功能

49.3.1 ANOVA过程

ANOVA过程对多种类型试验设计的均衡数据进行方差分析。一个响应变量(通常称为因变量)在由分类变量(通常称为自变量)识别的试验条件下被测量。响应变量的变异可解释为归因于分类效应的误差加上随机误差。

ANOVA过程是SAS/STAT模块中进行方差分析的几个过程之一。ANOVA过程用于处理均衡数据(即对于分类变量的每种组合观测数是相等的),GLM过程能够处理均衡和不均衡的两种数据。因为PROC ANOVA过程考虑到均衡设计的特殊构造,对于均衡数据使用ANOVA比起使用GLM不仅较快,而且使用的存储量更少。

ANOVA过程主要处理均衡数据,除此之外,还可以处理拉丁方设计,若干不完全的均衡区组设计,完全的嵌套(或系统分组)设计以及单元频数互相成比例,且对基本总体也成比例的设计。因素彼此正交时出现异常。进一步的详述参见Searle。PROC ANOVA用于每组要素都具有相同值的区组对角线X´X矩阵。通过检测平均单元值来对程序进行部分试验。然而。这个试验是不完美的:一些不能被正确分析的设计可能会通过试验,能被正确分析的设计也许不能通过试验。如果你的设计不能通过试验,PROC ANOVA将给出警告来告诉你这个设计不均衡并且ANOVA分析无效;如果你的设计不是一个特殊的案例,那么应该用PROC GLM代替。PROC ANOVA没有完全有效的设计,因为需要整个X´X矩阵;如果你不确定你的设计中PROC ANOVA的有效性,则应使用PROC GLM。

需要注意的是:如果你使用PROC ANOVA来分析不均衡数据,你必须假定结果有效性的响应度。

ANOVA过程自动产生图形作为ODS输出的一部分。

49.3.2 CALIS过程

结构方程模型是一个在经济及行为科学领域中重要的统计方法。结构方程表示几个变量之间的关系,这些变量包括可直接观测的显变量及不可观察的隐变量。隐变量的介绍参见Loehlin (1987), Bollen (1989b), Everitt (1984), or Long (1983);显变量参见Fuller

(1987)。

在结构模型中,所有的变量都是随机变量而不像函数模型中变量取相同的水平。在CALIS过程里关于极大似然估计和广义最小二乘估计中,随机变量通常假设近似具有多维正态分布。否则的话,尤其是高峰度时,即使样本量很大,也容易导致粗劣的估计,很大的标准差和错误的假设检验。因而,正态分布的假设比起在模型中自变量非随机变量的假设更重要。用户在使用CALIS过程的最大似然估计和广义最小二乘估计之前,应删去异常点并对非正态变量进行适当变换。如果观测个数足够大,可以使用Browne的ADF估计方法。

CALIS过程在以下几方面可用于解决有约束条件和无约束条件问题的参数估计和假设检验:

z 多重和多元线性回归模型

z 线性测量误差模型

z 路径分析和因果关系模型

z 具有交互因果关系的联立方程模型

z 探索性的或证实性的任何阶次的因子分析

z 典型相关分析

z 其它线性或非线性隐变量模型 根据下述标准进行参数估计:

z 没有加权的最小二乘准则(ULS)

z 广义最小二乘准则(GLS)

z 多维正态数据的最大似然准则(ML)

z 加权最小二乘准则(WLS,ADF)

z 对角线加权最小二乘准则(DWLS)

广义最小二乘准则的默认权矩阵是简单样本协方差或相关矩阵。加权最小二乘准则的默认权矩阵是样本协方差或相关矩阵的不对称协方差阵的估计。在这种情况下,加权最小二乘准则等价于Browne不对称自由分布估计。对角加权最小二乘准则的默认权矩阵是输入样本协方差或相关矩阵的渐近方差的估计。可以使用输入数据集在GLS、WLS和DWLS 中指定权矩阵。

PROC CALIS中估计方法的实现没有用尽这个领域所有的供选方案。例如,PLS没有被实现。具体参见SAS说明书关于PROC CALIS中“估计标准”部分的内容。注意一个被称为PROC

PLS的SAS/STAT过程,它应用不完全最小二乘法,但其模式的分类不同于PROC CALIS的。带有潜变量的通径分析或结构方程模型可以考虑使用PROC CALIS。

模型说明有以下几种输入方式可以使用:

z 如果用户已有一组描述模型的结构方程式,利用LINEQS语句以等式形式描述这一组结构方程。

z 利用REM语句以简易的公式化列表形式规定简单的路径模型(McArdle 和McDonald

1984)。

z 利用FACTOR语句进行带约束的一阶因子分析或分量分析。

z 利用COSAN和MATRIX语句分析一组矩阵模型,这与McDonald和Fraser的COSAN程序类似。它允许你规定复杂的矩阵模型,包括非线性方程模型和高阶因子模型。

对于参数的线性和非线性等式及不等式约束可根据输入类型的不同由一些不同的语句指定。对于简单的常数及等式参数约束和起作用的边界约束,需要计算拉格朗日乘子检验指数。一般的等式及不等式约束可用程序语句加以公式化。

PROC CALIS在最优化过程中提供几种自动产生初始估计的方法:

z 二阶段最小二乘估计

z 仪器变量因子分析

z 近似因子分析

z 普通最小二乘估计

z McDonald法

在很多共同的应用中,这些初始值将防止出现计算问题,并节省计算时间。

由于在(非)线性约束的优化过程中经常出现数值问题,因而CALIS过程提供了几种优化算法:

z Levenberg-Marquardt算法

z 置信域算法

z Newton-Raphson算法

z 各种拟牛顿算法和对偶拟牛顿算法

z 各种共轭梯度算法

拟牛顿和共轭梯度算法可以被一些网上查到的方法修饰。最优化技术在参数上加上简单分界线和线性约束。只有对偶拟牛顿算法可以加上非线性等式和不等式限制。

过程创建OUTRAM=输出数据集,它完全地描述模型(除了程序语句)并且包含参数估计。这个数据集可被用于另一个PROC CALIS执行的输入。编辑数据集会出现小的模型改变,所 以可以在之后的分析中利用先前的参数估计作为初始值。OUTEST=数据集包含关于最佳参数估计(参数估计、梯度、Hessian等)的信息。INEST=数据集对参数给出了起始值、分界线和线性约束。OUTSTAT=数据集包含残差,用于探索性因子分析,旋转和非旋转因子载荷。

在使用RAM和LINEQS输入语句的同时,或者当这些模型用输入模型数据可被识别时,可以进行自动变量选择(从输入数据集中选出只在模型说明中用到的变量)。在这种情况下,外生显变量的协方差被认为是给定常数。

使用PREDET选项在过程开始前可以预测模型矩阵中呈现常数和变量的预设模式。

PROC CALIS提供在信息矩阵(近似Hessian矩阵)中线性相关的一种分析,它在检测未识别模型中是有用的。为了进一步的分析,用户可以同参数估计、梯度和近似标准误差一起在一个输出数据集中存贮信息矩阵和参数估计的近似协差阵(信息矩阵的逆)。

PROC CALIS未提供样本大小不同或数据中存在缺失值的多个样本的广义算法。然而,相同样本含量的多个样本的分析可通过包含作为分块对角子矩阵的单个矩阵的动差超矩阵来完成。

新的实验过程TCALIS可被使用。除了COSAN模型分类,PROC TCALIS在CALIS过程中支持几乎所有的模型分类方法。此外,PROC TCALIS有许多新的特点,PATH语句可通过使用路径语法来规定模型,MSTRUCT语句可以直接规定协方差结构,进行多组分析,增强均值和协方差结构分析,先验的功能检验,标准误估计的影响分析等等。

CALIS过程使用ODS制图法来绘制图形作为它的输出。高品质的残差直方图可通过PROC

CALIS得到。

49.3.3 CANCORR过程

CANCORR过程完成典型相关,偏典型相关和典型冗余相关分析。

典型相关分析是研究两组变量间相关关系的一种统计方法。在多重相关中,可以检查两组变量(X和反应变量Y)间的线性相关情况。在典型相关分析中,可以检查线性组合变量X和线性组合变量Y之间的关系。这些线性组合被称为典型变量。自变量和反应变量可被详细说明,因为统计模型在两组变量中是均衡的。在一组或两组包含单变量的情况下,简单和复杂相关是典型相关中的特例。

CANCORR过程可以检验一些假设,如在总体中,每个典型相关及所有较小的典型相关为0。进行检验时CANCORR过程使用F近似统计量,在小样本情况下,F近似给出比使用卡方近似较好的结果。进行检验时要求两组变量中至少有一组近似正态分布,以便得到的概率水平有效。

该过程可以计算标准化和没有标准化的典型系数,典型变量和原始变量的所有相关,同时也可进行典型冗余分析。PROC CANCORR提供多重回归分析选项来帮助解释典型相关分析。

PROC CANCORR可产生包含每个典型变量的观测值的数据集,并且可使用PRINT过程来列出这些值。每个典型变量对应其它组中它的副本的图通常很有用,可以使用PROC SGPLOT同输出数据集来绘制图。第二个输出数据集包含典型相关和其它过程的统计计算。

49.3.4 CANDISC过程

典型判别分析是与主成分分析和典型相关有关的降维方法。这种方法用于导出单因素多元方差分析的典型系数。单因素多元方差分析试验为了计算均值向量。典型判别分析找出了定量变量的线性组合,使组或类得到最大程度的分离。给出分类变量和一些定量变量,CANDISC过程导出典型变量,定量变量的线性组合概述了类间的变化,主成分以相同的方式概述了总变异。

CANDISC过程完成典型判别分析,计算平方Mahalanobis距离并做单变量与多变量的单因素方差分析。该过程产生包括典型相关系数和典型变量得分的输出数据集。典型系数输出数据集可被FACTOR过程旋转。遵循典型相关的标准以使典型变量的均值等于0并且组内方 差等于1。PROC CANDISC显示出标准和非标准典型系数。典型变量和原始变量的关系与典型变量的类均值也同样被呈现出来;这些相关,有时被认为是载荷,被称为典型结构。典型变量输出数据集可与ODS图形连用绘制典型变量来帮助看清组间差距。

给定两组或更多组带有几个定量变量的观测,典型判别分析得出与组有最大可能多重相关的变量的线性组合。最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型权重。线性组合定义的变量称为第一典型变量或典型成分。第二典型相关由与第一典型变量无关的线性组合得到,该组合应与组有最大可能多重相关。抽取典型变量的过程可以重复直到典型变量的个数等于原始变量的个数或类的个数减1。

第一典型相关至少等于组与任何一个原始变量间的多重相关。如果原始变量有较高的组内相关,第一典型相关可以很大,即使多重相关很小。换句话说,第一典型变量可以显示类间的重要区别,即使用原始变量不能达此目的。典型变量有时被称为判别函数,但是这种使用不明确,因为DISCRIM过程产生不同的分类函数也被称为判别函数。

对每一个典型相关,CANDISC检验总体中该相关及更小的典型相关为0的假设。采用F近似值比一般的卡方近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差阵应该是相同的。

典型判别分析相当于定量变量从类变量得到的哑变量集的典型相关分析。典型判别分析相当于执行以下步骤:

1) 变化变量使合并的类内协方差阵为单位阵

2) 计算变换后的变量的类均值

3) 对均值做主成分分析,以每一类中的观测的个数作为权重。特征值等于每一个主成分方向上类间偏差与类内偏差之比

4) 把主成分变量反变换到原始变量的空间,获得典型变量

典型变量一个有趣的特征是无论相关是从全部样本还是从合并类内相关计算出,它们都不相关。但是,典型系数并不正交,因此,典型变量并不代表原始变量空间中正交的方向。

49.3.5 CATMOD过程

CATMOD是属性数据建模过程。CATMOD分析可用列联表来表示的数据。该过程用线性模型拟合响应频数的函数,可用来进行线性模型化,Logistic回归和重复观测分析。CATMOD使用:

z 加权最小二乘估计来分析广泛的一般线性模型

z 最大似然估计来分析对数线性模型和广义Logits模型

CATMOD过程提供各种属性数据分析。许多是连续数据分析方法的一般化。输入数据的类型可以是两种类型。例如传统意义上的方差分析,适用于均数分析和将变量从均值划分到不同的来源。这里,方差分析用于响应函数的分析和将函数变量划分到不同的来源。如果因变量是被顺序标度的,那么响应函数可能为均值。但是它们也可以是边缘概率,累积Logits,或者从因变量合并基本信息的其它函数。

提示:PROC CATMOD用于WLS模型和广泛列联表模型的分析。标准模型的ML建模,特别是与连续预测一起更适合使用如PROC GENMOD 或 PROC LOGISTIC过程。

49.3.6 CLUSTER过程

CLUSTER过程分别采用十一种方法对SAS数据集中的观测进行分类。数据可以是数值型的坐标值,也可以是距离值。如果数据是坐标值,CLUSTER过程计算(可能是平方)欧式距离。如果想得到非欧式距离,使用DISTANCE的数据集作为输入数据集。

聚类方法有类平均法、重心法、最长距离法、密度估计法(包括Wong混合聚类方法和k最近邻方法)、最大似然法、可变类平均法、McQuitty相似分析法、中间距离法、最短距离法、两阶段密度估计法和Ward最小方差法。 所有的方法都以谱系聚类过程为基础,一开始将每个观测各作为一类,然后将距离最近的两类合并形成一个新的类来代替之前的两类。重复进行两个最近类的合并,每次减少一类,直至所有观测合并为一类。不同聚类方法的区别在于类间距离的计算方法不同。

因为对于大多数方法,计算时间随观测数目的平方或立方而改变,所以CLUSTER过程并不适用于非常大的数据集。FASTCLUS过程所需的时间与观测数量成比例,因此比CLUSTER更适用于更大的数据集。如果要对非常大的数据集进行系统分类,可以使用FASTCLUS进行初始聚类分析并生成较多类,然后使用CLUSTER对上面的类进行系统分类。

CLUSTER打印聚类的历史过程,给出用于对样本数据集估计分类个数的统计量。CLUSTER也生成一个输出数据集,TREE过程可用这个数据集画分类谱系树状图或在所要求的任何水平下输出聚类结果。例如,为得到6个类的结果,可以首先使用带有选项的OUTTREE=的CLUSTER语句;然后使用这个数据集作为TREE过程的输入数据集,并在TREE过程中,使用选项NCLUSTERS=6和OUT=来得到6个类的结果,并画一张树状图。

对于坐标数据,欧式距离由坐标值之间的差别计算。

差别的使用有以下重要影响:

z 如果差别有效,变量必须有间隔或者较大的测量范围。有序或分级数据不适合进行聚类分析。

z 对于同等的欧式距离,相同的距离应有相同的实际影响。需要将变量进行线性或非线性变换来满足条件。例如,如果一个变量的单位为美元一个为欧元,应将它们转换为相同的货币单位。如果比值比差别更有意义,则应取对数。

z 变化大的变量比变化小的变量对于聚类的结果有更大的影响。如果认为所有变量同等重要,可用PROC CLUSTER中的STD选项进行标准化,使得均值为0,方差为1。标准化并不是总能适用。除非选项TRIM=也被使用,否则在使用带有STD选项的PROC

CLUSTER过程前,异常值将被删除。STDIZE过程提供了变量标准化和输入缺失值的另一种方法。

在下述任何条件下ACECLUS过程用于对变量进行线性变换:

z 不知道变量如何被衡量

z 在不考虑一些变量是否比其它变量有更大的影响时想检测自然聚类

z 想使用设计好的聚类方法来发现紧密的聚类,但也想检测延展的类

49.3.7 CORRESP过程

CORRESP过程进行简单和多重对应分析。它是用于寻求列联表的行和列之间联系的低维图形表示法。每一行和每一列用单元频数确定的欧式空间中的一个点表示。PROC CORRESP也能够对欧式空间中附加的行和列计算坐标。

PROC CORRESP能够读以下两类输入数据:关于两个或多个分类变量的原始类目响应和双向列联表。对应分析图用ODS绘制。

背景:在法国和日本,对应分析是一种很流行的数据分析方法。在法国,对应分析是在Jean-Paul Benzécri的极大影响下发展起来的;在日本,是Chikio Hayashi发展起来的。对应分析这个名字是法文analyse des correspondances的翻译。从表面上看这个方法来源于许多没有联系的文献(例如,Richardson和Kuder 1933; Hirshfield 1935; Horst 1935;

Fisher 1940; Guttman 1941; Burt1950; Hayashi 1950)。它有许多不同的名字,在美国称为最优定标、相对平均、最佳得分和适当得分;在日本称为数量化方法;在荷兰称为齐性分析;在加拿大称为对偶定标;而在以色列称为标图分析。

在法国,Benzécri (1973)和Lebart,Morineau和Tabard (1977)很详细地描述过对应分析。在日本,Komazawa (1982), Nishisato(1982), 和Kobayashi (1981)也讨论过这个课题。在英国,对应分析由Lebart,Morineau和Warwick (1984), Greenacre (1984), Nishisato (1980), Tenenhaus 和Young (1985)介绍过;Gifi (1990),Greenacre和Hastie

(1987),以及许多其它文献也曾介绍过。Hoffman和Franke (1986)使用市场研究领域的例子给出简明的介绍。

49.3.8 DISCRIM过程

对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,DISCRIM过程确定一个判别标准把每个观测分入其中一组。从数据集中得出的判别准则在DISCRIM过程的同一个执行过程中可应用于第二个数据集。用以得出判别准则的数据集称为训练数据集或标定数据集。

当每组都服从多元正态分布时,可使用参数检验方法来开发判别函数。判别函数也称为分类标准,由广义平方距离来决定。这一分类准则基于单个组内协方差阵或合并协方差阵;它也考虑到类的先验概率。校准信息被储存到特定的SAS数据集中并被其它数据集应用。

当每组分布不被假设或假设分布不服从多元正态分布时,将采用非参数检验来估计组密度。这些方法包括核方法,k最近邻方法。DISCRIM过程采用均匀的、正态的、二权或三权的核方法来估计密度。

马氏距离或欧式距离能够用来确定接近程度。马氏距离基于单个组内协方差阵或合并协方差阵。采用k最近邻方法时,马氏距离基于合并协方差阵。采用核方法时,马氏距离基于单个组内协方差阵或合并协方差阵。用被估计出的组密度和它们的先验概率,可以估计属于每类成员的后验概率。

标准判别分析是关于主成分分析和典型相关的降维技术。给出分类变量和一些定量变量,DISCRIM导出典型变量(定量变量的线性组合),它可以用与主成分总结总变化相同的方式来总结两类间的变化。(见SAS说明书关于“CANDISC过程”中关于典型判别分析的信息)。判别标准来源于PROC DISCRIM。如果想用没有判别标准的典型判别分析应使用CANDISC过程。

DISCRIM过程可产生包括不同统计量如平均标准差和相关的输出数据集。如果使用参数方法,判别函数被储存到数据集中来对将来的观测进行分类。在完成典型判别分析后,输出数据集包括典型系数被FACTOR过程旋转。PROC DISCRIM过程也能创建输出数据集的第二个类型,包括每个观测的分类结果。完成典型判别分析后,输出数据集同样包括典型变量评分。第三类输出数据集包括每个观测的组密度。

PROC DISCRIM是通过估计未来观测分类的误差率来评价判别标准的。误差率估计包括出错数估计和后验概率错误率估计。当输入数据集是一个普通的SAS数据集时,将用交叉验证来估计错误率。

不要混淆判别分析和聚类分析。所有的判别分析都需要关于类的先验知识,通常是每类中样本的形式。在聚类分析中,数据不包括类的隶属的信息;其目的是构建分类。

49.3.9 FACTOR过程

FACTOR过程可以完成几种类型的公因子分析、主成分分析和因子旋转。输入数据集可以是多变量数据、相关阵、协差阵、因子模型得分数据。FACTOR过程对相关阵和协差阵进行分解,它计算的许多结果可以存储在输出数据集中。

FACTOR过程可以处理来自其它过程的输出结果。比如在GLM过程中来自多变量分析的典型相关系数可以用FACTOR过程进行旋转。

提取因子的方法有主成分分析,主因子分析,迭代因子分析,没有加权的最小二乘因子分析,最大似然(典型)因子分析,α因子分析,映像分量分析和Harris分量分析。先验共性方差估计的不同方法也可被用。

正交旋转方法有:方差最大,四次方最大,parsimax,均方最大和因子parsimax。斜交方法同样适用。另外,四次方最小等斜交旋转也可用。正交旋转方法有用户指定γ的正 交最大,用户指定幂次的parsimony和因子parsimony。斜交旋转法有用户指定的tau,用户指定幂次的parsimony,用户指定幂次的promax,用户指定幂次的Harris-Kaiser 情况II,用户规定目标模式的斜交Procrustes。

输出包括均值,方差,相关系数,抽样适当的Kaiser量度,特征值,屏幕图,特征向量,先验和最终的公因子方差,没有旋转的因子模型,残差和偏相关系数,旋转的主因子模型,主因子结构,参考结构,参考轴相关,即没有忽略也没有删除其它因子时每个因子解释的方差,旋转和没旋转的这些因子的散点图,每个因子同这些变量的多重相关的平方,标准误,置信区间,得分系数。

FACTOR现在使用ODS制图法画图来作为输出的一部分。

49.3.10 FASTCLUS过程

FASTCLUS过程是基于对一个或多个定量变量的距离计算进行不相交聚类而设计的。这些观测被归类,使得每个观测只能归于一类,但这些类不能像它们在CLUSTER过程做的那样形成树状图。如果想对不同分类个数分别进行分析,每个分析需运行PROC FASTCLUS一次。或者在大的数据集中进行分层聚类,使用FASTCLUS过程找到初始聚类,然后使用这些初始聚类作为PROC CLUSTER的输入。

FASTCLUS过程默认使用欧式距离,所以聚类中心基于最小二乘估计。这种聚类方法通常被称为k均值聚类,当算法全收敛时,聚类中心是观测分配到每组的均值。每次重复降低最小二乘准则直到收敛完成。

通常没有必要运行FASTCLUS过程来进行收敛。FASTCLUS过程通过对数据扫描两次或三次来寻找更好的聚类。PROC FASTCLUS的初始化方法担保如果存在相同聚类中观测间的所有距离小于不同聚类中观测间的所有距离,并且告诉FASTCLUS过程聚类的正确数值,它不用重复总是能找到聚类。甚至没能很好地分离类时,FASTCLUS过程常常寻找足够好的不需重复的初始点。因此,FASTCLUS过程默认重复一次。

FASTCLUS过程的初始方法使得它对异常点很敏感。FASTCLUS过程是检验异常点的有效方法,因为异常点通常出现在只有一个成员的类里。

FASTCLUS过程使用Lp(最小P次幂)聚类准则替代k均值聚类方法中的最小二乘(L2)因为需要更多的重复并且当指定LEAST=P时默认重复准则。选项LEAST=P指定使用P次幂。限制增加,所以使用选项LEAST=来延长完成时间。与最小二乘法相比,P值小于2时将减小聚类中心异常点的影响;P值大于2时将增强异常点的影响。

FASTCLUS过程用于观测数大于100的大的数据集。对于小数据集,此过程对于观测的次序比较敏感。

FASTCLUS过程用较大的方差替代变量上大的影响,所以在聚类分析前使变量标准化很必要。

以上是对FASTCLUS过程简短的总结。更多关于聚类的测验可以参见包含聚类关系的输出数据集。

49.3.11 FREQ过程

FREQ过程可以生成单向和n向的频数表和交叉表。对于双向表,该过程计算检验统计量和关联度。对于n向表,该过程进行分层分析,计算每一层和交叉各层的统计量。

单向频数表中,FREQ过程进行等比例或指定零比例计算。该过程给出置信区间和二项式比例检验,包括非低等和同等检验。

在列联表中,FREQ过程计算不同统计量来检验两个分类变量间的关系。对于一些配对变2量,可以检测变量间关联度的存在和大小。如果存在关联应进行χ检验。若想估计关联强度,当没有关联度时用FREQ过程计算关联度会趋近0,当有完美的关联度时会接近最大(最小)值。列联表统计包括: z χ检验和测量

z 关联度测量

z 2×2表危险度(二项式比例)和危险度差异

z 2×2表OR值和相对危险度

z 趋势检验

z 一致性检验和测量

z CMH统计量

FREQ过程计算不对称标准误,置信区间,关联度和一致性测量的检验。精确的P值和置信区间对许多统计检验和测量很有用。FREQ过程也可以通过计算交叉、单向、n向列联表分层变量的调整来完成分析。包括CMH统计量和一致性检验。

分析双向列联表关联度的方法的选择应考虑研究设计(指明行和列变量是自变量还是因变量),变量的测量尺度(名义的,顺序的,或间隔的),检测每一个测量的关联度的类型,和测量的有效解释所需的假设。应根据数据选择合适的方法。

2选择和解释检验统计量适用相似的评论。例如,MHχ统计量需要对两个变量进行顺序2

标度并检测线性关联度。Pearsonχ检验适用于所有变量并能检测关联度的任意类型,但检测线性关联度的效果不强,因为它的功效分散到了大量的自由度中(除了2×2表)。

关于选择合适的统计分析的信息见Agresti (2007) 或Stokes, Davis, 和 Koch

(2000)。

2一些SAS过程计算频数;只有FREQ过程进行单向到n向列联表的χ检验并计算列联表的关联度和一致性。另一些计算过程包括TABULATE和UNIVARIATE过程。使用SURVEYFREQ过程创建列联表和对样本调查数据进行关联度检验。若想对分类数据创建合适的模型,使用CATMOD,

GENMOD, GLIMMIX, LOGISTIC, PROBIT, 或SURVEYLOGISTIC过程。

FREQ过程使用ODS,SAS子系统提供从SAS过程显示和控制输出的能力。ODS可以使FREQ过程的输出结果转入SAS数据集。

FREQ过程使用ODS制图法绘制图形作为它的输出。

49.3.12 GENMOD过程

GENMOD过程用于由Nelder和Wedderburn(1972)定义的广义线性模型。这一类广义线性模型是传统的线性模型的延伸,它使总体均值通过一个非线性连接函数依赖于线性预测值,还允许响应概率分布为指数分布族的任何一员。有许多广泛应用的统计模型都属于广义线性模型,其中包括带正态误差的经典线性模型,二元数据的对数和概率单位模型,以及多项数据的对数线性模型。还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率分布的话,也可以表示为广义线性模型。McCullagh和Nelder (1989)对于使用广义线性模型的统计模型给出了详尽的说明,Aitkin等(1989) 和Dobson (1990)所写的书也都是很好的参考书,其中收集了许多有关广义线性模型的应用的例子。Firth (1991)给出了广义线性模型的概述。

当测量值被假设为多元正态分布时,来源于重复测量的相关数据的分析被广泛研究。然而,假设不总是合理的;例如,当响应是离散的并且是相关时,不同的方法论被用于数据分析中。广义估计方程提供了合理的有效的统计实践方法来分析数据。

Liang and Zeger (1986)引进GEE来处理相关数据,除了响应变量间的相关,数据可用于广义线性模型的建模。例如,在许多情况下相关的二元和计数数据可用这种方式建模。

GENMOD过程可用GEE方法来使模型适用于相关的响应变量。可以使用GEE来使模型适用于Liang和Zeger (1986)的大多数的相关结构。更多GEE的信息参见Hardin和Hilbe

(2003),Diggle,Liang,Zeger (1994),和Lipsitz 等(1994)。

广义线性模型的Bayesian分析可由GENMOD过程的BAYES语句获得。在Bayesian分析2 中,模型参数作为随机变量被处理,参数的影响基于参数的后验分布。使用Bayes学说作为用先验分布加权的数据的似然函数来得到后验分布。先验分布可以结合分析中参数值可能范围的知识或经验。如果没有参数值的先验知识,可以使用无信息的先验分布,并且Bayesian分析的结果与基于最大似然的经典分析相似。后验分布的封闭型通常不可行,Gibbs抽样的Markov chain Monte Carlo方法用于从后验分布中模拟样本。

在Bayesian分析中,为模型参数产生后验分布样本的Gibbs链。统计量(平均值,标准差,四分位数,HPD和置信区间,相关矩阵)和收敛诊断(自相关;Gelman-Rubin, Geweke,

Raftery-Lewis, Heidelberger 和Welch检验;样本大小;Monte Carlo标准误)对每个参数、相关矩阵和后验样本的协方差矩阵进行计算。使用ODS制图法来对每个参数绘制痕迹图,后验密度图,自相关函数图。

GENMOD过程使用ODS制图法绘制图形来作为它的输出。

49.3.13 GLM过程

GLM过程用最小二乘法拟合一般线性模型。在PROC GLM中用到的统计方法有:回归分析,方差分析,协方差分析,多元方差分析和偏相关。

PROC GLM分析一般线性模型的数据。PROC GLM处理关于一个或几个连续自变量和一个或几个因变量的模型。自变量可以是能将观测分离到个别组的分类变量,也可以是连续变量。因此,GLM过程能被用在许多不同的分析中,包括:

z 简单回归

z 多重回归

z 方差分析,特别是非均匀数据的方差分析

z 协方差分析

z 响应面模型

z 加权回归

z 多项式回归

z 偏相关

z 多元方差分析

z 重复测量方差分析

下面概括了PROC GLM的主要特征:

z 当有一个以上因变量时,GLM会自动将数据集内或BY组中具有相同类型缺失值的变量组合在一起,以保证利用所有可能的观测对每一因变量进行分析。

z GLM能交互地使用。当指定并运行了一个模型后,GLM不用重新计算模型参数或平方和,就能执行多种不同的语句。

z GLM允许你指定任意阶交互效应(交叉效应)和嵌套效应。GLM也提供下列效应项的估计,即多项式,连续变量与分类和连续变量嵌套于分类变量。

z 通过可估性的概念,无论有多少缺失的单元或者有多少混淆不清,GLM都提供线性模型效果的假设检验,GLM将打印出与每一假设检验有关的平方和,并且根据要求打印出在假设检验中用到的可估函数的形式。GLM能够产生所有可估函数的一般形式。

z 多元方差分析语句允许你规定用于多元方差分析的假设效应和误差效应。

z GLM能够产生包括多个诊断度量和所有原始变量的输出数据集。另外,GLM能够产生包括平方和、叉积和及用MANOVA语句完成的典型分析的结果。同时,GLM也能在LSMEANS语句中产生一个输出数据集来存贮一些值、标准差和最小二乘均值的协方差。

z REPEATED语句允许你指定在同一实验单位上相同响应重复出现的度量在模型中的 效应,并且提供单变量和多变量的假设检验。

z RANDOM语句允许你在模型中规定随机效应:打印出类型Ⅰ、类型Ⅱ、类型Ⅲ、类型Ⅳ的均方期望,并与在检验中使用的均方相对比。根据要求,可以完成把合适的均方或均方的线性组合作为误差项的F检验。

z ESTIMATE语句允许你指定一个L向量来估计参数β的一个线性函数Lβ。

z CONTRAST语句允许你指定一个对照向量或矩阵来检验假设Lβ=0。指定以后,这些对比也包含在用MANOVA和REPEATED语句所作的分析中。

PROC GLM与其它SAS过程的比较:如前所述,GLM能够用在多种不同的分析中,有许多其它SAS过程没有的特别之处。但是,对某些类型的分析,可采用其它的SAS过程,正如后面“PROC GLM用于多重回归”和“PROC GLM用于非均衡方差分析”中所讨论的,有些时候用其它过程比GLM过程更有效。下列过程与GLM相比,可以完成某些相同的分析。

ANOVA:完成均衡设计的方差分析,在这些模型下,ANOVA一般比GLM更有效。

NESTED:对嵌套随机模型进行方差分析和方差成分估计。在这些模型下,NESTED一般比GLM更有效。

NPAP1WAY:完成非参数单因子秩得分分析。这也可通过PROC RANK和PROC GLM实现。

REG:完成一般用途的回归。REG允许使用多个MODEL语句,且给出回归诊断,特别是诊断共线性。

RSREG:建立二次响应面回归模型,完成典型分析和岭分析。对来自一个响应面实验的数据,一般建议使用RSREG。

TTEST:比较两组观测的均值,也检验两组方差是否相等。对这种类型的数据,TTEST往往比GLM更有效。

VARCOMP:对一般线性模型估计方差分量。

49.3.14 GLMMOD过程

GLMMOD过程为一般线性模型构造设计矩阵;它实质上完成了GLM过程建模的前端工作。你可以使用GLMMOD过程连同SAS/STAT软件的其它回归过程或SAS/IML软件来得到你用GLM过程无法得到的特殊分析。

SAS/STAT软件中的一些用于回归的过程对一般线性效应建模提供分类变量及交互作用效应或多项式效应,而有些过程并不提供。对于这些过程,你必须用显变量来说明模型。例如,如果你想使用REG过程来拟合一个多项式模型,首先你必须生成交叉乘积项和幂次项作为新变量,这项工作通常在DATA步里完成。或者,你可以使用GLMMOD过程来创建一个数据集,其中包含一个模型的设计矩阵,它如同使用GLM过程的效应建模方法那样。

TRANSREG过程提供了对满秩和非满秩模型、多项式构建设计矩阵的另一种方法。

49.3.15 GLMPOWER过程

概率和样本大小分析优化了资源使用和研究设计,提高了有最高效率的最终结果的机会。GLMPOWER过程实现了线性模型概率和样本大小分析的预测,其目标有:

z 决定所需的样本大小来得到有足够概率的显著结果

z 通过研究中的概率来检测有意义的结果

z 进行假设分析来评估概率和所需样本含量对其它因素的敏感性

预测分析表明分析与对未来的计划有关。这与对过去研究的回顾性分析相反,它不支持这个过程。

统计分析涵盖了Type III检验和单变量线性模型指定效果的差别,有随意的协同变异。协同变异可以是连续的或绝对的。涉及随机效应的检验和对比不被支持。

PROC GLMPOWER的输入包括在研究计划中被考虑的成分:

z 设计(包括项目概况和它们的指定权重) z 统计模型

z 类效果的对比

z 显著性水平(α)

z 项目的推测反应均数(通常被称为“单位均值”)

z 变异性推测

z 概率

z 样本大小

为了判别作为结果参数的概率和样本大小,应用输入中的缺失值指明它。过程通过一个或多个输入为所有其它成分计算结果值。

通过使用模范数据集来指明设计和单位均值,构建人工值数据集来说明总体的抽样设计和推测的反应均值。使用与GLM, ANOVA和MIXED过程相似的MODEL和CONTRAST语句规定模型和对比。用POWER语句来指明保留参数,这与POWER过程的分析语句相似。

GLMPOWER过程除了列表,还可以绘图。默认设置可以方便地绘制大多数常见图并且可以使用不同的选项来用户化绘图。例如,可以控制轴变量,轴范围,点的数量,图特征(如颜色、线的类型、符号和面板)来分析参数和绘制图形。

GLMPOWER过程是SAS/STAT软件中的一个工具,用于进行概率和样本大小分析。PROC

POWER涵盖了不同的分析,如t检验,等效性检验,置信区间,二项式比例,多重回归,单因素方差分析,生存分析,logistic回归和Wilcoxon秩和检验。概率和样本大小应用提供了过程支持的用户界面和工具。

线性模型的更多讨论和例子见Castelloe and O’Brien (2001), O’Brien和Shieh

(1992), Muller等(1992), O’Brien and Muller (1993)。概率和样本大小的概念见O’Brien和Castelloe (2007), Castelloe (2000),Muller 和Benignus (1992), Lenth (2001)。

49.3.16 LIFEREG过程

LIFEREG过程是对失效时间数据拟合参数模型,这些数据可能是右删失、左删失或者区间删失。响应变量的模型是由协变量的线性效应和随机干扰项效应两部分组成。随机干扰的分布可以取自以下一些分布类型:包括极值分布、正态分布、逻辑斯蒂分布和通过对数变换得到的分布、指数分布、威布尔分布、对数正态分布、对数逻辑斯蒂分布和伽玛分布。

响应变量y可以表示为:

y=Xβ+σε

其中y是由响应值组成的向量,这些值通常是由失效时间取对数变换后的结果,X是协变量或自变量矩阵(通常包括一个截距项),β是未知的回归参数向量,σ是一个未知的尺度参数,ε是假定来自某个已知分布(如标准正态分布)。这个分布可能会依赖于其他的形状参数。当对响应变量的对数值进行建模时,这些模型等价于加速失效时间模型。在加速失效时间模型中协变量的作用是改变尺度参数,而不是改变失效时间基准分布的位置参数。

LIFEREG过程通过最大似然法,可以应用Newton-Raphson算法求出数值解,PROC LIFEREG过程估计参数的标准误可以通过计算信息矩阵的逆矩阵得到。

在加速失效时间模型中,一般假定自变量对失效时间分布的作用具有对失效时间变量的,其中Xc是协变量值的向量(不包括截距可乘性。通常假设模型的尺度函数为exp(Xc′βc)项),βc是未知参数的向量。因此,如果T0是相应于协变量取值均为0时,取自于基准分布的某个样本;那么依照加速失效时间模型,如果协变量的取值向量为Xc时,加速失效时间T为:T=exp(Xc′βc)T0。如果y=log(T),y0=log(T0),那么

y=Xc′βc+ y0

这就是y0作为误差项的线性模型。

如果从生存概率或者超过概率的角度看,上面的模型变成: Pr(T>t|xc)= Pr(Tp>exp(-Xc′βc)t)

等式右边是基准生存分布函 其中等式左边的概率是相对于给定协变量的值Xc来估计的,数在exp(-Xc′βc)t处的值。

通常,上面模型中允许出现截距参数和尺度参数。从原始的没有做变换的事件发生时间来看,截距项参数和尺度参数的作用分别是重新标定事件发生时间的尺度和事件发生事件的数量级。也就是说,如果

log(T0)=μ+σlog(Tε)

那么

σ T=exp(μ)T0

虽然可以使用NOLOG选项对原始响应变量拟合模型,但更普遍的是拟合响应变量的对数模型。因为要进行对数变换,除非规定NOLOG选项,否则对失效时间的观测值为0的情况无法计算。类似地,当失效时间的观测值很小时,会导致变换后的取值为绝对值很大的负值。NOLOG选项只能用于未变换响应变量和极值而不是威布尔分布的情况下。

由于正态分布的参数估计对很大的负值比较敏感,因此必须特别注意,拟合的模型不能过分地受它们的影响。同样地,即使在进行对数变换后仍然很大的值对拟合极值(Weibull)和正态分布时会产生很强的影响。这时应该检查一下残差和有较大残差的观测值或者协变量是极值时对模型参数估计产生的影响。考虑到估计值会产生很大的影响,逻辑蒂斯分布给出了比较粗略的参数估计。

参数估计的标准误可利用观测信息矩阵由大样本正态近似计算得到。在小样本的情况下,这些近似可能很差。可以参考Lawless(1982)作为额外的讨论和材料。有时也可以通过变换参数构建较好的置信区间。比如,大样本的理论对log(σ)比σ更准确。因此,对log(σ)构造置信区间,并把它们变换为σ的置信区间可能更准确。参数的估计量和估计量的协方差阵是可以在输出的SAS数据集中得到的,并且能够用它来构造其它的检验或者构造参数的置信区间。此外,可以采用最大似然法进行参数的检验。其他可能的检验方法包括打分检验和Wald检验和似然比检验,各种检验方法的优劣比较讨论,可以参考Cox和Oakes(1984)。一般认为,在小样本情况下,似然比检验一般比依赖信息矩阵的检验更可靠。

对数似然函数将采用失效时间的对数作为响应变量来计算。这个对数似然函数不同于用失效时间作为响应变量再加上∑log(ti),这里求和是对所有非删失的失效时间进行的。附加的这一项不依赖于未知参数也不影响参数估计或者标准差的估计。但是,很多公开使用的对数似然的值是使用失效时间作为基本响应变量来计算的。因此,不同于用LIFEREG过程计算得到的额外项的值。

经典的Tobit模型(Tobin1958)也属于这类模型,但是通常含有左删失数据。在Tobin最初的文章中研究了对消费者的调查,其响应变量是在耐用商品上的日常花费与全部可使用收入的比值。两个原因变量是家庭主要管理者的年龄和流动资产与全部可使用收入的比值。因为在这个数据集中有许多观测其响应变量的值为0,故Tobin所采用的模型是

y=max(X′β+ε,0)

这是一个具有左删失的回归模型。

49.3.17 LIFETEST过程

生存时间或生存数据的一个共同特点是:由于实验个体的退出或者实验的终止而出现右删失的观察值。对于这些观测来说,只知道生存时间超过了一个给定的值;准确的生存时间是未知的。这时也不能抛弃这些删失的观测值,因为,处于多方面的考虑,一般寿命长的个体更可能出现删失。因此分析方法必须正确地利用删失数据和未删失数据。

讨论生存分析方法的许多文献可以参考Collett(1994),Cox和Oakes(1984),Kalbfleisch和Prentice(1980),Klein和Moeschberger(1997),Lawless(1982)和 Lee(1992)。对原理比较感兴趣的可以参考Fleming和Harrington(1991)和Andresen等。

通常,生存数据分析的第一步是估计生存时间的分布。生存时间经常被称为失效时间,最终时间是未删失的生存时间。生存分布函数也称作生存函数,用于描述所关心总体的生存时间。SDF在t时刻的值是总体中的一个实验个体生存时间超过t的概率,即

S(t)=Pr(T>t)

其中,S(t)代表生存函数,而T是随机选择的实验个体的生存时间。LIFETEST过程可以利用乘积极限方法(也称为Kaplan-Meier方法)或者寿命表方法来做生存函数的非参数估计。

与SDF紧密相连的一些函数是累计分布函数(CDF),概率密度函数(PDF)和危险率函数。函数CDF被记作F(t),定义为1-S(t),表示生存时间不超过t的概率。函数PDF用f(t)表示,被定义为F(t)的导数,危险率函数用h(t)表示,被定义为f(t)/S(t)。如果选择寿命表方法,可以计算概率密度函数和危险率函数的估计量。还可以输出这些结果的图形以及包含这些估计结果的SAS数据,这些包含计算结果的SAS数据集可以用来产生这些估计量的各种图形。在PROC LIFETEST过程中还有更多关于实验作图的详细信息,可以参考SAS说明书中关于“ODS Graphics”部分。

在生存数据的分析中的一个重要任务是生存曲线的比较。人们比较关心是否有两个或者更多的样本产生于一个生存分布函数。PROC LIFETEST可以进行基于在H0假设和备择假设下总体危险率估计的权重比较基础上的k-样本的非参数检验。相应的各种权重函数,一些检验可以被详细知道,包括秩检验、Wilcoxon检验、Tarone-Ware 检验、Peto-Peto检验、校正的Peto-Peto检验和Fleming-Harrington Gρ族检验。PROC LIFETEST也提供了一些相应的趋势检验来检测有序的选择。分层检验可以被调整为预后因素,这些因素影响各种分布的发生概率。基于指数模型的似然比检验也被包括进来比较样本的生存曲线。

有其他一些预后因素被称为协变量也可以被认为是相关的失效时间。这些协变量也被用来构建统计量,在协变量和时间变量之间的联系来做检验。PROC LIFETEST可以计算两个这样的检验统计量:基于指数得分和Wilcoxon得分的缺失数据等级的统计量。这些检验通过集中任何定义的层次后调整各层变量。

49.3.18 LOGISTIC过程

二值响应变量(例如,成功或者失败)和有序响应变量(例如,正常,轻微、严重)和名义变量(例如,某一个小时内的大的电视网络)也在许多研究领域中出现。Logistic回归分析也常被用来调查这些离散变量和一系列解释变量之间的关系。讨论Logistic回归的书有:Collett(1991),Agresti(1990),Cox和Snell(1989)以及Hosmerhe和Lemeshow(2000),和Stokes,Davis和Koch(2000)。

在二值响应模型中,响应Y代表一个个体或一个实验单元,它的取值有两种可能,表示为1和2(例如,Y=1如果代表发病,那么Y=2代表不发病)。假定x是一个自变量向量,并且π=Pr(Y=1|x)是要建模的响应概率。线性logistic模型有下面的形式:

logit(π)≡log

其中α是截距参数,β是参数向量。要注意的是,Logistic过程在默认情况下,是对较低的响应水平概率进行建模。

Logistic回归模型与更一般的线性模型有一个共同的特征,即响应变量均值的函数g=g(μ)被认为与自变量之间的关系是线性的。由于均值μ隐含地依赖于响应的随机特征,并且自变量被认为是固定的,所以函数g提供了响应变量Y的变动(随机)成分与系统成分之间的联系。因此,Nelder和Wedderburn(1972)年把g(μ)函数称为连接函数。Logit函数作为连接函数与其他函数相比较的一个优点是无论数据是按照预期抽取的还是回顾性资料(McCullaph 和Nelder1989,第14章)。其它在实践中广泛应用的连接函数还有probit函数和双对数函数(Complementary log-log function)。LOGISTIC过程可以通过选择不同 的连接函数来扩大拟合的二值响应模型的范围。这一类模型的形式是:

g(π)=α+β’x

在有序响应模型中,响应Y代表一个个体或者一个实验单元,它的取值被限制在k+1(k≥1,k通常比较小)个有序值的范围内,为方便起见,记为1,……,k,k+1。例如,冠状动脉硬化的发病程度可以分为三个响应水平,分别是1=无病,2=心绞痛,3=心肌梗塞。LOGISTIC过程拟合一个普通的斜面累积模型,而不是单个个体概率的平行线回归模型。累积模型有如下的形式:

g(Pr(Y≤i|x))=αi+β’x,i=1,……,k

αk是k个截距参数,β是斜率参数向量。许多研究人员考虑过这个模型。Walker其中α1……,和Duncan(1967)以及Cox和Snell(1989)讨论了log-odds尺度,累积logit模型通常被称作优势比模型。

在名义变量logistic模型中,k+1个可能的响应变量没有自然的顺序,logit模型也可以被扩展为一个更广泛的logit模型。

LOGISTIC过程用最大似然法对二值或有序响应数据拟合一个线性logistic回归模型。也可以对二值响应数据进行条件logistic回归对二值和名义变量数据进行精确条件logistic回归。最大似然估计可以用Fisher-scoring方法或Newton-Raphson方法得到。用户可以制定参数估计的起始值,也可以用probit函数或者双对数函数或者总的logit函数代替logit作logistic回归模型的连接函数。

LOGISTIC过程可以指定分类变量(或者被称为分组变量)或者连续型变量作为自变量。用户也可以指定更复杂的模型项,比如说跟GLM过程一样的交互项或者嵌套项。在模型中任何被指定的项被看做是效应,不管是不是连续变量,一个分类变量,一个交互项或者是一个嵌套项。

LOGISTIC过程可以进行全等级的参数估计或者一个较少等级的参数估计。一个全等级的参数估计提供7种编码方法:效应、资料、有序的、多值名义的、正交的。表示的效应是跟在CATMOD过程中使用的同样的方法。较少等级的参数估计方法跟GLM过程中用的是一样的。

LOGISTIC过程提供了四种变量筛选方法:向前选择法、向后剔除法、逐步选择法和最优子集法。最优子集选择基于似然得分统计量。这种方法分别对包含一个、两个、三个变量等等,直至包含有说明变量的模型,输出指定个数的最佳模型。

LOGISTIC模型利用多种建模的策略比如向前选择法、向后剔除法或者逐步选择法来剔除或者考虑变量的影响。当没有交互项时,主效应就可以进入或者从模型中剔除,这是在基于P值或者Wald统计量的一个过程中实现的。当有交互项时,选择过程也取决于是否想保留模型等级。这些额外的选项可以使你清楚模型等级是否可以被保留、模型等级是怎样被应用的以及单独的变量和多变量是否可以在一个过程中被剔除。

优势比的估计将同参数的估计一同输出。用户也可以根据不同的需要改变优势比估计中的自变量。回归系数和优势比的置信区间估计基于轮廓似然函数(profile likelihood

function)或者参数估计的非对称正则性。

系统提供了各种方法用来修正过于分散性,其中包括适应于分组二值响应数据的Williams方法。拟合模型的充分性可以用各种拟合优度检验来评估,其中包括适应于二值响应数据的Hosmer-Lemeshow检验。

像SAS/STAT软件中的许多过程一样,LOGISTIC过程能够指定分组变量,LOGISTIC过程提供了关于模型参数的用户假设检验的比较论述。这个比较论述也提供了对每行的估计,这对于分类变量的各个水平的优势比的获得是十分有用的。

通过指定STRATA语句,可以对二值变量进行条件logistic回归。可以进行配对和病例 对照分析。事件和非事件的数目会随着分层的不同而发生变化。许多非条件logistic分析的许多特征在条件logistic回归分析中也是可以利用的。

LOGISTIC过程可以利用Hirji,Mehta,Patel(1987)和Mehta,Patel,以及Senchaudhuri(1992)方法,通过指定一个或更多的EXACT语句,进行精确条件logistic回归分析。用户可以进行单个参数的检验或者进行好几个参数的同时检验。这个过程进行两个精确检验:精确的条件得分检验和精确的条件概率检验。用户可以进行特定参数的精确估计和相应的优势比估计。点估计和区间估计都可以实现。

LOGISTIC过程的更多的特征还有:

z 控制响应水平的次序;

2z 输出拟合模型的广义R度量;

z 根据预测响应概率对二值响应观测重新分类;

z 对回归参数进行线性假设的检验;

z 创建一个数据集对每个拟合模型给出一个接收操作特性曲线;

z 创建一个数据集包含估计响应概率、残差和影响诊断;

z 用先前拟合的模型给一个数据集打分。

LOGISTIC过程现在可以实现实验画图。

49.3.19 MDS过程

多维标度是一种方法,它用测量到的对象的两两间的距离来估计这组对象在给定维数空间中的坐标。各种模型都可以使用,包括计算距离的不同方法以及与实际数据有关的各种距离函数。MDS过程拟合二到三因子度量和非度量的多维标度模型。PROC MDS过程有许多与ALSCAL过程(Young,Lewyckyj和Takane1986;Young1982)一样的特点也与MLSCALE过程有一些共同的特点(Ramsay1986)。PROC、ALSCAL和PROC MLSCALE过程在SUGI Supplemental

Library User’s Guide第五版中被描述了。

用于MDS过程的数据由对象或者刺激物之间的相似性或者不相似性的一个或者几个对称或者非对称方阵组成。这样的数据也被称为是邻近数据。在心理测验学的应用中,每一个矩阵典型地对应于一个对象,而对每个受试对象拟合不同参数的模型叫做个体差异模型。

该过程允许有缺失值。尤其是,如果除去某些非对角的长方形,其他数据都是缺失的情况下,这种分析叫做开拓。然而开拓模型有许多本质上的困难。PROC MDS过程并不进行额外的开拓,如果需要进行额外的开拓,就使用TRANSRTG过程代替。

MDS过程通过非线性最小二乘法来估计下列参数:

相对位置 每个对象的一维或者多维欧氏空间或者加权欧氏空间中的坐标。

维系数 对每个数据矩阵,通过乘共同的或者是分组的加权欧氏空间的每个坐标的系数可得到单个未加权的欧氏空间。这些系数是对象权数的平方根。维系数的图形可直接显示,显示了分组空间中的一个单位正方形如何转换成单个空间中的矩形。对象权数的图形不能这样简单地解释。加权Euclidean模型跟INDSCAL模型(Carroll和Chang1970)是相互联系的。

变换参数 这是与数据有关的距离再线性变换、仿射变换或幂变换中的截距、斜率或指数。对于非度量分析,通常使用不包含明确参数的单调变换。关于度量和非度量参数变换的讨论可以参考Kruskal和Wish(1978,76-78)。

根据选型LEVEL=的情况,PROC MDS可以拟合下面的回归模型的形式:

fit(datum)=fit(trans(distance))+error

或者是下面形式的测量模型:

fit(trans(datum))=fit(distance)+error

其中:fit 由选型FIT=规定的预定的对数变换。 trans 由选型LEVEL=规定的一种估计(“最优的”)线性变换、仿射变换、幂变换或者单调变换。

datum 是两个对象或刺激物之间的相似性或者不相似性的度量。

distance 是从两个对象估计的坐标及在一维或者多维空间中估计的维系数计算出来的距离。如果没有维系数(COEF=IDENTITY),这就是未加权的欧氏距离。如果使用了维系数(COEF=DIAGONAL),就是一个加权的欧氏距离,其中权数是维系数的平方;或者,你可以用每个维数乘其系数并计算出未加权的欧氏距离。

error 是一个假定有近似正态分布的误差项,且所有数据是独立同分布的。在这种假定下,最小二乘法在统计上是合理的。

49.3.20 MI过程

MI过程进行缺失数据的多重填补研究。缺失的数据在大量的统计分析中是一件重要的事情。许多SAS统计分析过程排除了分析过程中含有缺失值的观测。这些观测被称为不完整的观测。当只分析完整的案例时,分析是比较简单的,但是在不完整的案例中的信息却缺失了。这种方法忽视了完整病例和不完整病例之间的可能的系统误差,并且结果也可能不适合所有案例的总体,尤其是用小数目的完整案例做出来的结果。

一些SAS过程利用分析中的所有能得到的案例,也就是说,含有有用信息的案例。例如,在CORR过程中利用所有案例中某个变量的没有缺失的值来对这个变量进行估计,忽视其他变量的可能的缺失值。PROC CORR过程也利用所有病例中一组变量的没有缺失的值来估计相关性。这种方法跟只利用完整病例相比可能会充分利用可以得到的数据,但是得到的相关矩阵也可能不会太明确。

另一个处理缺失数据的策略是单一地填补,取代每一个缺失值。对于完整数据分析的标准统计过程在补充全的数据集中是可以应用的。例如,每个缺失值利用完整病例的变量平均值可以补充上。这种方法将缺失的数据看作是完整数据分析中已经知道的。然而,单纯填补并不能反映出不知道的缺失值的预测的不确定性,并且最终估计的参数方差也会有偏向(Rubin1987,p.13)。而不是填充每一个缺失值,多重填补(Rubin1976;1987)将每一个缺失值用代表该值的不确定性的一系列看起来合理的值来代替。多重填补数据集然后就通过利用完整数据集的标准过程来对数据集进行填补并且将分析得到的结果进行整合。不管利用哪种完整数据的分析方法,最后从不同数据集中整合结果的过程本质上是一样的。

多重填补并不是通过模仿数据来试图估计每一个缺失值。相反,这种方法是从它的分布中抽取一个缺失数据的随机样本。这个过程会得到有效的统计资料,这些结果比较合适地反映由于缺失值而造成的不确定性;例如,正确概率分布的置信区间。

多重填补资料包括三个明确的阶段:

1、缺失的数据经过m次补充得到了m个完整的数据集。

2、这m个完整的数据集利用标准统计分析过程进行分析。

3、从这m个完整的数据集中得到的结果被整合从而产生推理性的结论。

MI过程为不完整的多重变异数据创建了多重填补数据集。该过程利用整合关于m填补的合理有效性方法。选择的方法取决于缺失数据的类型。

对于单调缺失模式的数据集来说,要么是参数方法假定多元变量符合正态性,要么是非参数方法是合适的。参数方法是可以利用的,包括回归方法(Rubin1987,pp.166-167)和预测均值匹配方法(Heitjan和Little1991;Schenker和Taylor1996)。非参数方法是自然的得分方法(Rubin1987,pp.124,158;Lavori,Dawson和Shera1995)。

对于那种比较独有的缺失数据类型来说,Markov Chain Monte Carlo(MCMC)方法(Schafer1997)假定多元正态性被用来补充所有的缺失值或者足够的缺失值来补充拥有单 调缺失模式的数据集。

一旦m个完整的数据集是利用标准SAS过程进行分析的,MIANALYZE过程可以被用来产生有效的统计结果,这些统计资料是从m次分析中得到的参数结果。

通常,只有三到五个填补在多重填补中就足够了。比较小的m个填补估计的相对有效性对于有比较少的缺失信息的案例来说是高的。可以参考有关“Multiple Imputation

Efficiency”获得更多的了解。

多重填补信息假定分析多重填补数据的模式跟多重填补数据中缺失数据的模式是一样的。但是,实际上,这两个模式可能并不一样。

在SAS 9中,实验性的CLASS语句已经被加上来指定分组变量,这个分组变量可以在补充数据中作为协变量或者在单调缺失模式中作为补充变量。CLASS语句一定要与MONOTONE语句联系在一起使用。

实验性的画图功能在MI语句中利用ODS是可以实现的。

49.3.21 MIANALYZE过程

MIANALYZE过程将填补分析的结果结合在一起并产生有效地统计推理。多种多样的填补为含有缺失数据的数据集分析提供了有用的策略。不是为每一个缺失的数据补上一个值,Rubin(1976;1987)的多重填补策略用一些似乎可能的值代替每一个缺失的值,这些值代表了想填补的值的不确定性。用户可以利用两个SAS过程来实现这个策略:PROC MI,这个过程产生了要填补的数据集,PROC MIANALYZE,这个过程将数据集中运行出来的分析结果整合在一起。对于一些感兴趣的参数来说,用户可以利用TEST语句来做关于参数的线性假设检验。对于其他参数来说,计算估计值并且将协方差矩阵跟标准SAS统计分析过程结合起来是不太容易的。例子包括两个变量和变量均值比之间的相关系数。

在SAS 9中,VAR语句被MODELEFFECTS语句代替从而调整各种效应都能用来被分析。STDERR语句也已经被加上了,当参数估计和相关标准误都被作为变量储存在同一个数据集中时指定标准误。而且,一个实验性的CLASS语句也已经被加上了,用来指定MODELEFFECTS语句中的分类变量。

49.3.22 MIXED过程

MIXED过程对数据拟合许多不同的混合线性模型,并利用所拟合的模型对数据进行统计推断。一个混合线性模型是GLM过程中使用的一般线性模型的推广,允许数据间存在相关或者异方差。因此,混合线性模型提供了建模的灵活性,它不仅可以对数据的均值进行分析(如一般线性模型那样),还可以对它们的方差和协方差进行建模。

下面给出了PROC MIXED过程分析中所用到的主要假定:

z 数据服从正态分布(Gaussian)。

z 数据的均值(期望值)为给定参数集的线性和。

z 数据的方差和协方差用另一个不同的参数集给出,并具有PROC MIXED中所提供的某种结构。

由于Gaussian分布的数据可完全由均值和方差(协方差)确定,因此一个混合线性模型中的两个参数集就完全确定了数据的概率分布。均值模型中的参数被称为固定效应参数而方差协方差模型中的参数被称为协方差参数。

固定效应参数同一般线性模型一样,与已知的因变量有关。这些变量可以是定性的(就像传统的方差分析)或者是定量的(就像一般的线性回归)。然而,方差却使混合线性模型同一般的线性模型区别开来。

协方差参数在应用中经常用到,下面是两种最典型的应用情况:

z 数据在其中测量的实验单元可以聚成类,同一类中的数据相关;

z 在同一个实验单元中重复测量,这些重复测量间相关或具有不同的方差。 第一种情况可推广到一组类可以嵌套到另一个中的情形。例如:如果学生是作为实验单元,它们可以分类到班。而班依次又可以分类到学校中。这种等级中的每个水平可以引入附加的互异性和相关性。第二种情况出现在纵向研究中,数据在研究中随时间多次测量。换句话说,重复测量本质上可以为空间数据或多元数据。

PROC MIXED提供了各种协方差结构来处理前面的两种情况。这些结构间最为共同的部分来源于随机效应参数的使用,随机效应参数是加入到模型中影响数据差异的一些未知的随机变量。随机效应参数的方差,一般称之为方差分量,称为这种特殊结构的协方差参数。传统的混合线性模型同时包含固定效应和随机效应的参数,而实际上,正是由于这两种类型效应的混合才把模型称之为混合模型。PROC MIXED不仅拟合这些传统的方差分量模型,而且也包括大量其他协方差结构的模型。

PROC MIXED使用约束最大似然(REML),也被称之为剩余最大似然的方法来拟合你为数据所选择的结构。在这里Gaussian假定被使用了。其他估计方法也可以使用,包括最大似然法和最小方差二乘无偏估计(MIVQEO)。这些估计方法的详细情况在随后的部分加以讨论。

一旦数据的模型已经建立,你就可以使用该模型通过固定效应和协方差参数进行统计推断。PROC MIXED计算几种不同的统计量,用来产生假设检验和置信区间。这些统计量的有效性依赖于你选择的均值和方差-协方差模型,因此仔细选择模型是很重要的。PROC MIXED产生的一些输出结果可以帮助你对模型进行评价并与其它模型进行比较。

PROC MIXED提供了许多普通的统计分析中非常有用的混合线性模型。沿用GLM过程的风格,PROC MIXED拟合特定的混合线性模型,并产生合适的统计量。

PROC MIXED的一些基本特色是:

z 协方差结构,包括方差分量,复合对称,无结构,AR(1),Toeplitz,空间幂,一般线性和因子分析;

z GLM型的语法,使用MODEL,RANDOM,REPEATED等模型说明语句和CONTRAST,ESTIMATE和LSMEANS等语句用于统计推断;

z 所有制定的固定和随机效应线性组合的标准误差及相应的t检验和F检验;

z 分别产生分块和不均匀性的个体和组效应;

z 使用Newton-Raphson算法的REML和ML估计方法;

z 处理非平衡数据的能力;

z 能够创建对应于任一输出集的SAS数据集。

PROC MIXED使用一个输出传送系统(ODS),一个用来显示和控制与ODS兼容的SAS过程产生的输出的子系统。ODS使你可以把PROC MIXED产生的任何打印输出转换为一个SAS数据集。

实验性的画图在MIXED过程中是可以实现的。

本部分引入了全章使用的数学记号来描述混合线性模型。用户应该已经熟悉基本的矩阵代数知识。混合线性模型在SAS说明书有关章节有比较详细的描述。

一个统计模型是关于数据如何产生的数学描述。一般线性模型,同GLM过程中使用的模型一样,是最普通的统计模型之一。

Y=Xβ+ε

在该表达式中,Y代表一个观测数据向量,β是由具有已知设计矩阵X的固定效应参数构成的未知向量,而ε是未知的随机误差向量,用来对Xβ的统计噪声建模。一般线性模型主要是使用固定效应参数β来对Y的均值建模。剩余误差ε假定为独立同分布与均值为0,方2差为σ的Gaussian分布。

混合线性模型将一般线性模型推广为如下形式:

y=Xβ+Zγ+ε 这里,γ是由具有已知设计矩阵Z的随机效应参数构成的未知向量,而ε是未知随机误差向量,其元素不再需要是独立的同分布了。

为了进一步阐述方差建模的想法,假定γ和ε是高斯随机变量,其期望值为0,方差分别为G和R,二者之间是不相关的。Y的方差是:

V=ZGZ′+R

2 注意到当R=σ、Z=0时,混合模型退化为一般线性模型。

你可以制定Z、G、R的结构(或形式),对数据的方差进行建模。模型矩阵Z以关于固定效应参数的模型矩阵X同样的方式产生。对G和R必须选择一些协方差结构。可能的协方差结构包括方差分量、复合对称(共同的协方差加对角矩阵)、无结构(一般协方差)、自回归、空间结构、一般线性和因子分析。

定义了模型矩阵X和Z,以及协方差结构矩阵G和R,就可以完成大量的混合模型分析了。

PROC GLM拟合一般线性模型,而PROC MIXED拟合范围更广的混合线性模型。在这个意义上,可以说PROC MIXED是GLM过程的推广。这两个过程具有相似的CLASS、MODEL、CONTRAST、ESTIMATE和LSMEANS语句。但是,它们的RANDOM和REPEATED语句却不相同(见后面的相关部分)。这两个过程均使用非满秩模型参数化,尽管分类水平的排序在二者之间可以不同。PROC MIXED只计算固定效应的类型Ⅰ到类型Ⅲ的检验,而PROC GLM提供了类型Ⅰ到Ⅳ的检验。

PROC MIXED中的RANDOM语句渗入了构成混合模型中γ向量的随机效应。可是,在PROC

GLM中,RANDOM语句中规定的效应就拟合的模型而言仍被视作固定效应来处理,它们的作用只是计算相应的期望均方。这些期望均方导出了传统的ANOVA方差分量的估计。PROC MIXED计算方差参数REML和ML估计,它们一般优于ANOVA估计(Searle 1988;Harville

1988;Searle,Casella和McCulloch 1992)。可自由选择,PROC MIXED也计算MIVQUEO估计,它类似于ANOVA估计。

PROC MIXED中的REPEATED语句用来规定个体的重复测量的协方差结构,而PROC GLM中的REPEATED语句却是用来规定完成传统的一元或者多元检验的各种变换。在重复测量的情况下,PROC MIXED中采用的混合模型方法比一元或者多元方法更灵活,应用更广泛。特别是,混合模型方法提供了很广的一类协方差结构以及处理缺失值的一种较好的机制(Wolfinger 和Chang 1995)。

PROC MIXED包含了VARCOMR过程。PROC MIXDE提供了较多的协方差结构,而PROC VARCOMP却只估计简单的随机效应。PROC MIXED执行PROC VARCOMP中没有的几种分析,包括固定和随机效应线性组合的估计和检验。

ARIMA和AUTOREG过程提供了比PROC MIXED更多的时间序列结构,尽管它们不拟合方差分量模型。CALIS过程拟合一般的协方差矩阵,但它却不允许出现像MIXED过程处理的固定效应。LATTICE和NESTED过程拟合在PROC MIXED中同样能处理的特殊类型的混合线性模型,但由于PROC MIXED采用更一般的算法,因而运行可能比较慢。TSCSREG过程分析时间序列横断面数据,并拟合在PROC MIXED中不能完成的一些结构。

49.3.23 MULTTEST过程

MULTTEST过程论述多重检验问题。当你对同一个数据集进行多次检验时,这个问题就出现了。由于获取数据是花费较大的,为了发现数据的新特征和进行多重备择的统计分析方法,进行多重检验,通常也是必要的。然而,多重检验的一个负作用是极大地增加了称为假阳性错误的概率。

例如,假设你在5%水平上进行10次假设检验,且假定来自这些检验的P值的分布一致且独立的。那么,在零假设下,对一特定检验的显著性概率为0.05,但是十次检验中至少一次检验概率为0.401。如果你进行20次假设检验,最终的概率上升为0.642。这样高的几 率表明了多重检验的潜在的危险。

PROC MULTTEST过程通过调整来自一族假设检验的P值来逼近该多重检验问题。被调整零假设的p值被定义为给定假设检验被拒绝的最小的显著性水平。当调整的P值小于α时,就被拒绝了;在大多数情况下,这个过程控制了在α或者低于α水平下的整体误差。PROC

MULTTEST提供了下面调整的P值。

z Bonferroni

z Sidak

z 逐级下降法

z Hichberg

z Fisher组合

z 发现假阳性率

z 自助法

z 置换法

Binferroni和Sidak修正法对原始P值规定一个适当变换。它们计算起来很快,但是可能是很保守的。逐级下降法改变了一些保守性,就像Hichberg的逐步上升法。自助法和然置换法分别用替换和不替换对数据进行重新抽样,来逼近所有检验中最小的P值的分布。后用该分布对单个原始P值进行修改。自助法和置换法计算细致复杂,但比较有吸引力。并不像其他方法那样,相关性和分布特征并没有渗入到调整中(Westfall 和Young989,1993;Westfall1999等)。

PROC MULTTEST处理多变量的单因子ANOVA模型产生的数据。这些数据或许是以连续或对于离散数据,许是离散的为响应变量的分层数据。对于连续数据,可对其均值进行t检验;可以进行如下统计检验:

z Cochran-Armitage(CA)线性趋势检验

z Freeman-Tukey(FT)二重反正弦检验

z Peto(PETO) motality-prevalence(log-rank)检验

z Fishen的精确检验

CA和PETO检验当使用置换分布时有一个精确的形式,使用可选的连续性修正时有一个渐近的形式。同样,除了FISHER检验外,可以使用分层变量构造Mantel-Haenszel类型检验。所有上面提到的检验都可以是单侧或者双侧的。

正如在GLM过程中,你可以指定多个线性对比,用于比较各处理组的均值及比例。输出包含有总结统计量和普通的及多重修正的P值,可以生成包含原始P值,修正后的P值,其他的中间计算,置换分布和重抽样信息的数据集。

49.3.24 NESTED过程

NESTED过程对含有嵌套结构的实验得到的数据进行随机效应的方差分析。含有两个因子的完全嵌套设计的随机效应模型是:

yijr=μ+αi+βij+εijr

yijr

是因变量的第一个因子的第i个水平,第二个因子的第j水平上的第r次重复测量值;

μ 是抽样总体的总体均值;

αi,βij,εijr

是互不相关的随机效应,均值为0,方差分别为σα,σβ,σε;

这个模型对有多阶段嵌套抽样设计是合适的。在某例子中,研究者随机地挑出四种植物,每种植物上随机挑选三片叶子,在每个叶子上又随机地选取两个样品。

要注意的是,PROC NESTED适合对只有分层效应的模型,而不适合处理含有连续变异的模型。对于含有相关变异的随机效应模型来说,可以使用GLM或者MIXED过程。

222 NESTED过程与其他过程的比较:NESTED过程对这种嵌套数据用效率高的计算方法进行方差分析和协方差分析,估计不同的方差分量,如果设计是均衡的也检验它们的显著性。尽管GLM、MIXED过程提供类似的分析,但是,PROC NESTED过程对于这种特殊类型的设计的使用上更容易且算法上效率更高。当这个设计中包含有很多因子,水平或者观测时,这一点就非常明显地体现出来了。

例如,在GLM过程中规定四因子完全嵌套设计时,可以使用以下形式:

class a b c d;

model y=a b(a) c(a b) d(a b c);

然而,用NESTED过程规定同样的设计,只需用下面的简单的形式:

class a b c d;

var y;

另外,其他的过程需要利用TEST语句做相应的检验,而嵌套过程能够自动地产生相应的检验。然而,PROC NESTED过程做出了关于输入数据集有一个其他过程没有的假定:PROC

NESTED过程使用的数据集必须事先定义这些效应的分类变量或CLASS变量排序。如果用PROC

NESTED处理的数据没有用CLASS进行分类,那么结果可能是无效的。

49.3.25 NLIN过程

NLIN过程产生非线性模型中参数的最小二乘估计或者加权最小二乘估计。非线性回归模型比线性回归模型更难于规定和估计。不是简单地列出回归变量,用户必须写出回归的表达式,给出参数名字,猜测参数的初值。可能有些模型很难拟合,而且也不能保证这个过程能够成功地拟合模型。

,模 对每个要分析的非线性模型来说,用户必须首先指定模型(用一个单独的因变量)型的名字和要估计的参数的初值。

用PROC NLIN,用户还可以通过在这些估计上强加的约束把估计过程限制在一个固定的参数范围内产生新的数据集,这个数据集包括预测值,残差,参数估计和每次迭代的SSE,参数估计的协方差矩阵和其他的统计量,非线性模型的估计是一个迭代的过程。在过程开始之前,首先得检验参数的初始值,如果初始值已经指定了,NLIN过程对每种初值组合计算残差平方和,从中找出最好的参数组合开始迭代。参数值被用作迭代的最初过程。

NLIN过程提供以下五种迭代方法:

z 最速下降法或梯度法

z 牛顿法

z 修正的Gauss-Newton法

z 麦夸特法

这些方法利用关于参数的SSE的偏差或者大约的偏差来指导找出具有最小SSE的参数。 NLIN过程也可以用于分段模型或者稳健回归。也可以用来计算某些确定模型的最大似然估计。

49.3.26 NPAR1WAY过程

NPAR1WAY过程是一个单因素的非参数方差分析过程。PROC NAPR1WAY也可以对原始数据进行标准的方差分析以及对经验分布函数进行检验。

PROC NPAR1WAY对位置和基于因变量评分的尺度差异进行检验:Wilcoxon得分,中位数得分,Van der Waerden得分,Savage,Siegel-Tukey,Ansari-Bradley,Klotz和Mood得分。另外,PROC NPAR1WAY利用原始数据作为评分来进行检验。当数据被分成两个样本时,检验就是基于简单的线性秩统计量。当数据被分成多于两个样本时,检验就是基于单因素方差分析。不对称的和精确的P值在这些检验中是可以得到的。

PROC NPAR1WAY也可以提供经验分布函数统计量,它被用来检验这个变量的分布在不同 Mises检验,以及组之间是不是相同的。这些包括Kolmogorov-Smirnov 检验,Cramer-von

当数据被分成只有两个样本时,以及Kuiper检验。在两样本Kolmogorova-Smirnov检验中,精确的P值是可以得到的。

49.3.27 PHREG过程

由于生存数据几乎总是不完整的,而且熟悉的参数假设可能不太合适,因而其分析需要特殊的技术。调查员跟踪受试者直到他们到达预先指定的终点(例如,死亡)。但是,受试者有时会中途退出实验研究,或者研究在达到终点前结束。在这些情况下,生存时间(也被称为失效时间)是删失的;受试者生存至一定时间,超过这个时间时他们的状态是未知的。非删失生存时间也被称为事件时间。生存分析的方法必须能够同时处理删失和非删失数据。

有许多种模型可用于生存数据。比较受欢迎的两个为加速失效时间模型以及COX比例危险模型。每个模型都有自己关于基准生存时间分布的假定。两个紧密相关函数经常被用来描述生存时间分布的是生存函数和危险率函数。加速失效时间模型假定自变量的效果具有参数形式,并通常假定基准生存函数也具有参数形式。Cox比例危险模型也假定自变量的效果具有参数形式,但允许基准生存函数不具有某种特定的形式。

PHREG过程基于Cox比例危险模型对生存数据进行回归分析。Cox的半参数模型在生存数据的分析中经常被用来说明变量对生存时间的效果。总体中每一个成员的生存时间有着自己的危险率函数λi(t),其表达式为:

λi(t)= λ(t;Zi)=λ0(t)exp(Z′iβ)

其中λ0(t)是一个任意的不确定的基准危险率函数。Zi是第i个个体的自变量的向量值。β是未知的与自变量相关的回归参数向量,假定对所有个体具有相同的值。生存函数的表达式为:

S(t;Zi)=[S0(t)]exp(Z′iβ)

其中S0(t)=exp(-∫λ(u)du)是基准生存函数。为了估计β,Cox(1972,1975)引进了偏00t似然函数,其消除了未知基准危险函数λ0(t),可用来分析删失生存时间。

COX的偏似然也可允许依赖于时间的自变量。一个依赖于时间的变量是指对给定个体,其值会随着时间发生改变。在生存分析中,依赖于时间的变量有着许多应用。可以用它来为处理方式会发生改变的受试者的效果建模。或者你可以引入依赖于时间的变量,例如血压或者血液的化学成分含量等,它们的值在研究过程中会随着时间发生改变。你可以依赖于时间的变量来检验比例危险率模型的合理性。

变量选择在多重回归中是一 当候选者对从许多变量中挑选出重要的预测因素感兴趣时,种典型的做法。PHREG过程提供了四种变量选择方法:向前法、后退法、逐步筛选法、最优子集法。最优子集法是基于似然得分统计量的。该方法选出分别含有一个变量、两个、三个等直至所有变量的指定数目的最优模型。

PHREG过程还可以实现:

z 向模型中引入一个偏移变量;

z 计算输入数据的权重;

z 对回归参数进行线性假设检验;

z 实现配对的病例-对照研究的条件logistic回归分析;

z 创建一个含有生存函数估计、残差及回归诊断的SAS数据集;

z 创建一个含有生存分布估计和给定自变量在所有时间取值的生存函数估计值的SAS数据集。

PROC PHREG过程也可以被用来拟合多项logit选择模型来离散选择的数据。

49.3.28 PLAN过程

PLAN过程为因子实验构造设计和随机设计,尤其是嵌套的交叉的实验和随机区组设计。PROC PLAN过程也可以为数字做一般的变换和组合。PLAN过程可以构建下列类型的实验设计:

z 全因子,有或者没有随机效应;

z 某些平衡或者部分平衡不完全区组设计;

z 一般的循环不完全区组设计;

z 拉丁方设计。

对于其他种类的实验设计,尤其是分式析因设计,反应面设计或者是正交设计来说,参考SAS/QC软件中的FACTEX和QPTEX过程和ADX界面。

然后,对第二个因子来说, PROC PLAN首先由第一个因子选择几个水平来生成设计方案。再对第一个因子的水平中选择几个。一般来说,对于一个给定的因子,PLAN过程产生对该因子之前的所有因子水平的每个组合,都生成它的水平的一种选择。选择可以用三种不同的方式:

z

顺序选择,对此方法,按照标准顺序产生因子水平;

z 循环选择,对此方法,通过循环地排列以前选择的水平来得到因子水平;

z 变更选择,对于该方法,水平是整体的一个变换,1,…,n;

z 组合选择,对此方法,m个水平被选择作为整体的一个组合,1,……,n,每次取m个水平用随机化选择方法可以产生随机化设计方案。同样,利用合适的周期选择可以产生很广泛的一类设计方案。在设计方案时,没有限制层次,对某个层次,不同的因子可以被嵌套,并且可产生任意数字的随机化设计方案。用户也可以说明一因子的表同最低的(也就是,嵌套的最里层)因子同时选择。在这个表中的因子水平可以看作构造处理被应用于该设计的单元。由于这种原因,这个表中的因子被称为处理。用这个表,可以在一次运行PLAN过程中产生并随机化设计方案。

49.3.29 POWER过程

改善获得最大效效能和样本大小分析能够让你最优化地使用资源并且使实验设计最优,能的明确结果的可能性。POWER过程能够进行前瞻性的效能和样本大小的分析,从而达到一些目标,比如下面这些:

z 确定为了得到一个有足够效能的显著性结果所需要的样本大小

z 为了观测到有意义的效应,给研究效能赋予一些特征

z 采用假设分析来评价效能的敏感性或者由于其他因素所需要的样本含量

这里前瞻性意味着分析是关于未来的研究计划的。这一点是与对过去的研究的回顾性分析形成对比的,在这个过程中是不能实现的。

涉及到许多种统计分析方法:

z 比较平均数的t检验

z 比较平均数的等效性检验

z 平均数的置信区间

z 二项分布的检验

z 多重回归

z 相关性和偏相关性检验

z 单因素方差分析

z 两个生存曲线比较的秩和检验

。PROC

一些更复杂的线性模型,可以参考SAS说明书中的“The GLMPOWER Procedure”POWER的输入部分包括在研究计划中被考虑的元素。

z 设计 z 统计模型和检验

z 显著性水平(alpha)

z 推测的效应和变异性

z 效能

z 样本大小

为了确认它是结果参数。这个过程对其 用户在输入过程中出现缺失值而指定一个元素,他的元素计算了为输入数据考虑的一个或者更多的设计方案的值。效能和样本含量是最常见的结果值,但是对一些分析来说,结果有可能是其他一些东西。例如,用户可以为一个两样本t检验的一个组计算样本含量。

除了列表的结果,PROC POWER也可以产生画图的结果。用户可以很容易地用一些缺省设置获得最常见类型的图形并且利用许多选项实现更用户化的绘图。例如,用户可以控制轴的变量的选择,轴的范围,画图的点的数目,画图的特征(例如颜色,线的设计,标记和格子)从而来实现参数分析和图的外观设置。

POWER过程是SAS/STAT软件中分析效能和样本含量的许多可以利用的方法中的一个。PROC GLMPOWER过程可以进行更多复杂的线性模型。效能和样本大小应用提供了一个用户界面并且进行了这些过程中支持的许多分析。

想了解关于效能和样本大小分析的主要概念的讨论和例子,可以参考Castelloe(2000),Castelloe和O’Brien(2001),Muller和Benignus(1992),O’Brien和Muller(1993)和Lenth(2001)。

49.3.30 PRINCOMP过程

PRINCOMP过程进行主成分分析。作为输入的数据集可以使用原始的数据、相关阵、协方差阵、平方和或者交叉积阵。该过程能够创建包括特征值,特征向量和标准化或未标准化的主分量得分的输出数据集。

主分量分析(主成分分析)是考察多个定量(数值)变量间相关性的一种多元统计分析方法。使用因子分析或者主成分分析取决于用户的研究目的。如果用户对总结数据和找出变量间的线性相关性感兴趣,就可以使用PRINCOMP过程。主成分的散点图在探索数据分析中尤其有用。主成分分析可以用来减少回归或者聚类分析的变量个数等等。实验性地画图在PRINCOMP过程中是可以实现的。

主成分分析于1901年由Pearson首先引入,以后被Hotelling(1933)发展了。主成分分析的应用被Rao(1964),Cooley和Lohnes(1971)以及Gnanadesikan(1977)进行讨论。主成分的一些好的统计学特性被Kshirsagar(1972),Morrison(1976),Mardia,Kent和Bibby(1979)发现了。给定一个已知P值的数据集,用户可以计算出P个主成分。每个主成分都是原始变量的线性组合,它的相关性的特征根的系数或者协方差矩阵的系数是相等的。特征向量一般跟单位长度相关。主成分按照特征根进行降序排列,这与方差分量是相等的。主成分分析有许多有用的特性(Rao1964;Kshirsagar1972)。因为这些特征向量是正交的,于是主成分表示为原始变量空间中的一些垂直方向。主成分的得分是不相关的。注意到这一个特性与前一个特性非常不同。第一个主成分在可观测变量的任何单位长度线性组合中的方差最大。第j个主成分和前面j-1个主成分正交且在任何单位长度的线性组合中方差最大。最后一个主成分在原始变量的任意线性组合中方差最小。开头j个主成分的得分在原始变量的任意单位长度线性组合集中含有最大可能的综合方差。

开头j个主成分对下列模型提供了最小二乘解:

Y=XB+E

其中Y是中心化可观测变量的n×p的观测数据阵;X是前面j个主成分得分组成的n×j的得分矩阵;B是j×p的参数阵;E是n×p的残差阵。为了极小化trac(E′E),即使 得E的所有元素的平方和达到最小。换句话说,开头j个主成分在所有可能的j个变量组合中能够对原始变量进行最佳的线性预测。但是,开头j个主成分中任何一个非单一的线性变换并不能得到相同好的结果。如果用户想使E′E的行列式或欧氏范数最小化,而不是让E′E的迹最小化,将得到相同的结果。

从几何上来看,开头j个主成分形成的j维子空间,当采用从每个数据点到子空间的垂直距离的平方和作为度量时,这个j维子空间对数据点给出最好的拟合。这不同于最小二乘回归的几何表示,回归是最小化所有数据点到预测点的初值偏差平方和。例如,假设有两个变量,于是,第一主成分最小化从数据点到第一主成分轴的垂直距离的平方和。它不同于回归的最小二乘法,回归最小化所有数据点到拟合直线的垂直偏差的平方和。

主成分分析也能够用来检验多项式相关性和用于检查多变量的异常点,而且主成分分析与因子分析、对应分析和有偏回归方法都有联系。

49.3.31 PROBIT 过程

以及对生物学的定量试验相应数据或其它离PROBIT过程计算回归参数的最大似然估计,散事件数据的自然(阈值)响应比率的最大似然估计。包括概率单位(probit)、logit、有序logistic和极端值(gompit)回归模型。

(两态或多态的)响应变量而提出的方概率单位分析是由于需要在回归范围内分析定性法。许多响应变量实质上是二值的(是/否),而其他是有序资料而不是连续测量资料(强度)。例如,Collett (1991)和Agresti (1990)已经证明在因变量是离散变量时普通最小二乘(OLS)回归不再适用,这时概率单位和logit分析比OLS更加适用。

PROBIT过程使用修正的Newton-Raphson算法计算概率单位方程的参数向量β和C的最大似然估计。当响应变量Y是二值(0,1)时,概率单位方程为:

p=Pr(y=0)=C+(1–C)F(x′β)

β 是参数估计向量

F 是累计分布函数(正态、logistic或极端值模型)

x 是自变量向量

p 是响应的概率

C 是自然(阈值)响应比率

注意默认情况下,PROBIT过程是基于较低响应水平的概率建模。分布函数F的选择(对于概率单位模型为正态,对于logit模型为logistic,对于gompit模型为Gompertz)决定分析的类型。对于大多数问题,模型指定为正态的与logistic之间的差异相对较小,这两个分布都是关于0对称。然而,Gompertz分布是不对称的,该分布函数左边趋于0比右边趋于1更迅速。当分布是非对称时,可以使用Gompertz分布。

对于有序响应模型,一个受试者或实验单位的响应变量Y可以被限定为一个较小的数,比如k+1(k≥1),或者赋有序的数值,方便起见可以是1,…, k, k+1。例如,心脏病根据强度不同可以分为3个响应类型,1=无疾病,2=心绞痛,以及3=心肌梗塞。PROBIT过程拟合一种有斜率的累积概率模型,它是一种平行线回归模型,基于响应类型的累积概率而不是响应类型各自的概率。累计概率模型的形式是:

Pr(y≤1∣x)= F(x′β)

Pr(y≤i∣x)= F(αi+x′β), 2≤i≤k

α2,….,αk是k+1个截距参数。默认下,协方差向量x包含总体截距项。

你可以估计自然(阈值)响应比率C。如果你从对照组获得C的初始估计值,它可以被指定。任选地,自然参数C可以设置为常数值,而不必被估计。缺省时C为0。

PROBIT过程分析的数据集中每个观测可能包含受试对象的响应变量和自变量,或者是提这种情况下,PROBIT过程对事件供一些受试对象中某些特定自变量中观察事件发生的多少。 概率进行建模。

PROBIT过程结果输出中一部分图表目前用ODS图形输出系统来产生。

49.3.32 REG 过程

REG过程是SAS系统中众多回归过程中的一种,它是通用的回归过程,而其他回归过程还可供更多的专业应用。

其他能实现至少一种回归分析的SAS/STAT过程是:CATMOD,GENMOD,GLM,LOGISTIC,MIXED,NLIN,ORTHOREG,PROBIT,RSREG,和 TRANSREG过程。SAS/ETS程序可专门应用于时间序列或同步系统。REG过程可完成以下方面:

z 多项选择的MODEL语句

z 九种选择回归模型的方法

z 允许采用交互方式修改模型及用于拟合这个模型的数据

z 允许对参数要求线性等式的约束

z 检验线性假设和多变量假设

z 共线性诊断

z 可以输出预测值、残差、学生化残差、置信区间、影响统计量

z 相关阵或离差阵输入

z 可以把需要的统计量存于输出的数据集

z ODS图形输出系统目前可用

它们通过MODEL语句中的选项SELECTION=来规REG过程提供了九种选择回归模型的方法,定。下面介绍这些方法及其关键词:

MODEL语句中指定全回归模型适用于各种数NONE 没有做模型筛选,缺省时的默认选项。据。

FORWARD 向前选择法。这种方法初始模型中没有变量,此后依次纳入变量。

BACKWARD 向后剔除法。这种方法初始模型中包含所有变量,此后依次剔除变量。

STEPWISE 逐步回归法。这种方法类似于向前选择法,区别在于引入模型的变量也有可能被删除。

2MAXR 最大R增量法。向前选择寻找含一个变量的最优模型,含两个变量的最优模型等。2变量的替换保证具有最大R。

22MINR 最小R增量法。类似于MAXR法,但替换是选择产生最小R增量的那一个变量。

22RSQUARE R选择法。在变量多少允许范围内找到具有最大R的若干模型。

2ADJRSQ 类似RSQUARE,只是模型的选择准则是修正的R统计量。

CP 类似于ADJRSQ,只是模型的选择准则是Mallow提出的Cp统计量。

49.3.33 ROBUSTREG过程

为了达到这稳健回归的主要目的是发现异常点和存在其影响的情况下提供稳定的结果。种稳定性,稳健回归限制了异常点的影响。此前,稳健回归技术已经处理过三个层面的问题。

z Y轴(响应变量方向)上异常点的问题

z X间距上多变量异常点的问题(例如协变量间距,即矩点)

z Y轴和X间距上都存在异常点的问题

许多应付这些问题方法应运而生。然而,统计学应用中异常点检测和稳健回归,目前最广泛采用的事Huber M估计,高崩溃值估计,以及这两种方法的结合。 SAS 9.2稳健回归过程提供了4种方法:M估计、LTS估计、S估计和MM估计。

1、M估计是Huber(1973)引入的,它就计算上和原理上来说是最简单的方法。尽管就矩点来说并不很稳健,但是当假定异常点主要在响应变量方向上时这种方法应用仍然极其广泛。 2、最小修剪二乘法(LTS) 是Rousseeuw (1984)引入的高崩溃值估计方法,崩溃值是测量能抵抗并保持结果稳健的异常值“污染”比例,使用Rousseeuw和Van Driessen(2000) 的FAST-LTS算法时,该方法的性能得到了改进。

3、S估计是Rousseeuw 和Yohai (1984)引入的高崩溃值估计方法。相同崩溃值条件下,它比LTS估计具有更高的统计效率。

4、MM估计是Yohai (1987)引入的,它是高崩溃值估计和M估计的结合,它有高崩溃值特性,而且比S估计有更高的统计学效率。

49.3.34 RSREG过程

RSREG过程用于最小二乘法拟合二次响应曲面的回归模型。响应曲面模型是一种普通线性模型,它主要研究所拟合的响应函数的特性,更重要地,是确定最佳响应范围。

除了拟合二次响应函数之外,RSREG过程还可以用来做以下工作:

z 检测拟合不足

z 检验每个因子变量是否具有统计学意义

z 对估计的响应曲面典型相关结构进行分析

z 寻找最佳响应的岭嵴

z 预测新的响应值

RSREG过程用ODS图表系统显示响应曲面、残差、拟合诊断、以及最佳响应的岭嵴。

49.3.35 STEPDISC过程

STEPDISC过程可以选择对区分分类有用的定量给定一个分类变量和若干个定量变量后,变量来完成逐步判别分析。假设形成每一类的变量服从具有共同协方差阵的多元正态分布。STEPDISC过程可使用向前选择法、向后剔除法或逐步选择法(Klecka 1980)。STEPDISC过程可以作为进一步做CANDISC或DISCRIM分析有用的预处理。

STEPDISC过程从模型中选入或剔出变量主要有以下两条准则:

z 协方差分析中F检验的显著水平,这里已选入的变量作协变量,而被考虑的变量是因变量

z 从分类变量预测正被考虑的变量的平方偏相关,控制已选入模型的变量的影响

向前选择开始时模型中没有变量。每一步,根据Wilks′ lambda 和相似比准则下,对模型判别能力贡献最大的变量进入模型。当不再有未被选入的变量达到选入临界值时,向前选入过程停止。

所有变量除去那些线性依赖于VAR语句中的变量都在模型中。每一步,向后剔除开始时,在Wilks′ lambda准则下对模型的判别能力贡献最小的变量被剔出。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。

逐步选择开始时如同向前选择一样,模型中没有变量。每一步模型都被检查。如果在Wilks′ lambda准则下对模型的判别能力贡献最小的模型中变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中所有变量都达到留在模型中的标准而又没有其他变量能达到进入模型的标准,逐步选择过程停止。逐步选择法是默认状态下的变量选择方法。

需要注意的是,在选择变量进入模型时,每步只有一个变量可被选入。选择过程不考虑未选入的变量之间的关系。因此,在这过程中,一些重要变量可能被排除。在应用中Wilks′

lambda未必是对模型判别能力最好的量度,然而,如果仔细利用STEPDISC过程,结合关于数据的知识和谨慎的交叉验证,在选择判别模型中,STEPDISC过程可以是有价值的帮助。

对于任何逐步选择过程,需要注意的是当进行了许多次显著性检验时,每一次的显著性水平如果是5%,那么拒绝至少一次真的零假设的总概率远大于5%。如果想把对模型判别能力没有贡献的变量全部排除在外,需要指定较小的显著性水平。在大多数应用中,所有考虑的 变量多多少少都有一些判别效力。利用样本估计选择最佳判别模型,样本量给定情况下,参数估计最需要的可靠性方面而不是数量上。

Costanza和Afifi (1979)用Monte Carlo方法比较了两个可选择的停止准则,这两个停止准则可与向前选择方法用于两个组的多元正态分类问题中。研究中考虑了从10到30之间的五个变量。比较以正确分类的条件概率和估计的非条件概率为基础。他们得出结论,利用适中的显著水平在10%到25%之间比采用更大或更小显著水平好。

尽管显著性水平和平方偏相关准则选入的变量数可能不同,但它们选择变量的顺序是一致的。使用显著性水平时增大样本量倾向于选入更多的变量,而使用平方偏相关时增大样本量对选入变量数量没有多大影响。

49.3.36 TRANSREG过程

TRANSREG 过程用平滑、样条、Box-Cox和其他非线性变换变量的方法拟合线性模型。你可以根据散布图拟合一条曲线或多条曲线,每条曲线代表一个分类变量水平。你还可以界定函数为平行或单调或具有相同截距。TRANSREG 过程能用于编码实验设计和其他分析的分类变量预处理。

TRANSREG过程拟合许多线性模型,包括:

z 一般回归和ANOVA模型

z 度量和非度量的联结点分析(Green andWind 1975; de Leeuw, Young, and Takane

1976)

z Box-Cox (1964)因变量变换的线性模型

z 平滑回归 (Reinsch 1967),样条 (de Boor 1978; van Rijckevorsel 1982),单调样条(Winsberg and Ramsay 1980),或惩罚B-样条(Eilers and Marx 1996)拟合函数

z 度量和非度量的向量以及理想点选择回归(Carroll 1972)

z 有变量变换的简单、多重或多元回归(Young, de Leeuw, and Takane 1976;

Winsberg and Ramsay 1980;Breiman and Friedman 1985)

z 变量变换(Israels 1984)残差分析 (Stewart and Love 1968)

z 变量变换的典型相关分析(van der Burg and de Leeuw 1983)

z 变量变换的响应曲面回归(Meyers 1976; Khuri and Cornell 1987)

数据可以包含名义、有序、区间和比率量测尺度的变量。这几类变量的任意组合对于因变量和自变量都是允许的。TRANSREG 过程可用于:

z 名义变量可以进行类别得分变换,使得误差平方和最小,或者扩展为哑变量

z 有序变量可以通过有序类别得分进行单调变换,使得次序微弱地保持(相近的类别可以合并),而且误差平方和为最小。结可以最优地解开或者保留不变。有序变量也可以变换为等级(秩)

z 区间和比率量测尺度变量可以进行线性和非线性变换,后者包括样条(de Boor

1978; van Rijckevorsel 1982),单调样条(Winsberg and Ramsay 1980),惩罚B-样条(Eilers and Marx 1996),平滑(Reinsch 1967),或Box-Cox (Box and Cox

1964)。另外,可以进行对数、指数、幂、logit、反正弦变换。

TRANSREG 过程中的多重回归算法要求样条变换,其产生的变换通常类似于由Breiman

和 Friedman (1985)提出的ACE光滑回归方法。不过ACE没有明显地最优化损失函数,而TRANSREG 过程总是明显地最优化一个平方误差损失函数。

TRANSREG 过程迭代直TRANSREG 过程通过提供迭代的最优变量变换得到一般线性模型。到收敛,交替以下两个步骤:基于当前数据得分找到模型参数的最小二乘估计,以及基于当前的模型参数找到得分参数的最小二乘估计。这就是交替最小二乘方法 (Young 1981)。 49.3.37 TREE过程

TREE过程使用CLUSTER或VARCLUS过程产生的含有类似树枝结构的分层聚类结果的数据集来画树状图,也称聚类图或物候图。TREE过程使用这个数据集产生一个树根在顶部的Johnson (1967)模式的树状结构。任选地,这张图也可以按水平取向,树根在左边。在这个输出数据集中任何数值变量都能够用来规定这些类的高度。TREE过程也能够生成一个输出数据集,它包含一个变量,其值用以识别在这个树里指定水平上不相交的类。

树状结构图的文献中包含了植物学和家族学的一些混合术语。聚类的每个对象叫做树叶。包含全体对象的类叫做树根。至少含有两个对象但不是全体对象的类叫做树枝。如果类B和类C合并为类A,称类A是类B和类C的节点。一般地说,树根、树枝和树叶都是节点。若类B和类C合并为类A,称类A是类B和类C的父辈,而类B和类C是类A的子辈。根是没有父辈的节点,叶是没有子辈的节点。如果每一类至多有两个子辈,这个树称为二元树。CLUSTER 过程总是生成二元树;VARCLUS 过程可以生成有多个子辈的树。

49.3.38 TTEST过程

对于单组样本、配对样本、成组样本或AB/BA 交叉设计样本,TTEST过程可以进行t检验并计算置信区间。可以对正态分布或对数正态分布的数据进行均数、均数差或率的均值比较,并作双侧、双单侧、高值侧和低值侧假设检验。

或某种场合FREQ和WEIGHT语句可以在程序中使用。数据输入可以是每个观测值的形式,时输入合计统计量。输出结果包括合计统计量、均数置信区间、标准差、变异系数、假设检验,以及若干图表显示,包括直方图、密度图、箱式图、置信限图、Q-Q 图、剖面图或一致性图。

TTEST过程结果输出中一部分图表目前用ODS图形输出系统来产生。

49.3.39 VARCLUS 过程

VARCLUS过程把一组数值变量分为不相交或是谱系的类。同每一类有联系的是该类中这些变量的线性组合,它可能是第一主分量(默认时)或是重心分量(指定CENTROID选项)。第一主分量是这些变量的加权平均,它尽可能多的解释方差。如果用户希望类分量为标准化变量的(没有加权)平均,或者没有标准化的变量的平均(用COV选项)时,使用重心分量(使用CENTROID选项)。该程序使能用综合所有聚类后的聚类主成分解释的方差最大化。

即使聚类主成分是第一主分量时,它仍是倾斜的。在一般的主成分分析时,所有成分都是从相同变量计算而来,第一主成分和第二主成分乃至其他所有主成分都是正交关系。在VARCLUS过程中,所有主成分和其它主成分相比,都是从不同组变量计算而来,某个聚类的主成分可能与另一个聚类的主成分相关联。因此,VARCLUS算法是一种斜分量分析。

相关阵或协方差阵都能用于分析。如果使用相关阵,所有变量作为同等重要被处理;如果使用协方差阵,具有较大方差的变量在分析中占有较大的重要性。

另一VARCLUS过程生成两个数据集,一个可以和SCORE过程用来计算每一类的分量得分;个输出集能够通过TREE过程用来画谱系聚类的树状图。

VARCLUS过程能够用来作为变量压缩的方法。含有很多变量的变量集常常用信息损失很少的类分量集替代。一般给定个数的类分量不能说明像相同个数的主分量那么多的方差,但类分量常常比主分量更容易解释,即使主分量已被旋转。

例如,一种教育情况的检查可能包括50项。VARCLUS过程可用来将这些项分为几类,比如说5类。每一类将用作部分检查,而且这部分检查的得分将由类分量给出。如果这个类分量是协方差阵的重心分量,那么每组检查是这部分检查中各项的得分和。

VARCLUS 算法可以是分次或迭代的。缺省时,VARCLUS过程开始把所有变量看成一个类,然后重复以下步骤:

1、首先挑选一个将被分裂的类。根据规定的选项,选中的类应该是:或者用它的类分 量解释的方差的百分比最小(选项PROPORTION=),或者同第二个主分量有关的特征根为最大(选项MAXEIGEN=)。

2、把选中的类分裂成两个类。首先计算出开头两个主分量,在进行斜交旋转(在特征向量上执行QUARTIMAX旋转),并把每个变量分配到旋转分量对应的类里,分配原则是使变量与这个主分量的相关系数为最大。

3、变量重新归类。通过迭代,变量被重新分配到这些类里,使得由这些类分量所解释的方差为最大。重新分配可能要求保持谱系结构。

这准则或是每个类分量所解释的方差当每一类满足用户规定的准则时,过程停止迭代。的百分比,或是每一类的第二个特征根。如果用户没有规定准则(缺省时),则当每类只有一个特征根大于1时,VARCLUS过程停止。

49.3.40 VARCOMP过程

随机效应是假定效应水平从无穷总体VARCOMP 过程处理含有随机效应的一般线性模型。的可能水平中选取的分类效应。VARCOMP 过程估计每个随机效应对因变量方差的贡献。

VARCOMP 过程中MODEL语句用于规定因变量和效应:主效应、交互效应和嵌套效应。效应必须由分类变量构成;连续变量不允许放在MODEL语句等号的右边。

用户可以规定几个效应为固定的(非随机的)。只需在MODEL语句等号右边首先写上这几个效应,并用选项FIXED=指出固定效应的个数。在模型中截距项总被拟合并假定它是固定的。除指定为固定的效应外,所有其他效应都假定是随机的,而且它们对模型的贡献可认为是从一个正态的而且独立的分布中得到的观测。

(陶丽新 王琪 毛玮 鲍晓蕾)

发布者:admin,转转请注明出处:http://www.yc00.com/web/1688436017a137521.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信