R语言统计分析作业

R语言统计分析作业


2024年6月7日发(作者:)

T<- ("G:/学习文件夹/R语言/R语言作业/5/住房状况

调查.csv",header=TRUE,sep=",")

1、对变量计划户型制作一张频数分布表,并绘制相应的图形,写出相应的

结论(请写出R代码)

table(T$计划户型)

2、请对变量计划面积选择正确的图形进行描述,写出相应的结论(请写出

R代码);

hist(T$计划面积, col = "lightgreen")

3、对变量计划面积,计算样本数、平均值、中位数、修剪均值、样本标准

差、偏态系数、峰态系数、最大值、最小值、上下四分位数,并对计划面积的

分布特征进行综合分析(请写出R代码);

t<-(T$计划面积)

summary(t)

library("psych")

describe(t)

根据第二题的直方图显示,计划面积的数据分布是非对称分布,

其中位数为100,平均数为101.6,上四分位数为80.0,下四分位数

为120.0,分位数之差是40.0

4、请选用合适的图形来展示变量计划户型和变量从业状况之间的关系,并

进行独立性检验;(请写出R代码);

t<- (T)

b<-(t$从业状况,t$计划户型)

a<-table(b)

barplot(a,main="从业状况与计划户型的关系",ylab="频数

",col=c(rainbow(6)),beside=TRUE)

summary(assocstats(a))

H

0

:计划户型与从业状况独立,即两个变量不关联;H

1

:计划户

型与从业状况不独立,即两个变量关联;

Pearson卡方检验结果表明,n=719,X-squared = 129.270, df = 50,

p-value = 6.0761e-09,小于0.05, 拒绝原假设,Cramer′s V = 0.19,有

证据表明计划户型与从业状况不独立。

5、请选用合适的图形来展示变量户口状况和变量现住面积之间的关系;如

果想分析变量户口状况是否对变量现住面积产生显著性影响,应该采取哪种统

计分析方法?户口状况是否对变量现住面积产生显著性影响?为什么?(请写

出R代码)

c<-(T$户口状况,T$现住面积)

boxplot(T$现住面积~T$户口状况,data=c,ylab="现住面积",xlab="

户口状况",varwidth=TRUE,col="red2")

如果想分析变量户口状况是否对变量现住面积产生显著性影响:

(1)首先,现住面积是大样本数据,检验方差齐性时可以使用

Levene检验,分析本市户口人民的现住面积与外地户口人民的现住

面积之间的总体方差是否有显著性差异。根据R输出结果, F = 5.4041,

p-value =0.02016,p-value小于0.05,拒绝原假设;有证据表明本市

户口人民的现住面积与外地户口人民的现住面积之间的总体方差存

在显著差异。

leveneTest(T$现住面积~T$户口状况,data=T)

(2)本研究使用了独立样本t检验方法,分析本地户口人民的

现住面积和外地户口人民的现住面积之间是否存在显著差异。

(T$现住面积~T$户口状况,data=T)

cohensD(现住面积~户口状况,data=T,method="unequal")

由于t=3.3136,d=0.2785663,df =182.43,p值=0.001111,p

值小于0.05,所以拒绝原假设。有证据表明本地户口人民的现住面积

和外地户口人民的现住面积之间存在显著差异。但本案例的效应不大。

6、如果想分析变量文化程度是否对变量家庭收入产生显著性影响,应该采

取哪种统计分析方法?文化程度是否对变量家庭收入产生显著性影响?为什么?

(请写出R代码)

attach(T)

(家庭收入[文化程度=="初中及以下"])

(家庭收入[文化程度=="大学(专、本科)"])

(家庭收入[文化程度=="高中(中专)"])

(家庭收入[文化程度=="研究生及以上"])

原假设:文化程度为“初中及以下”时的家庭收入来自于正态总

体;备择假设:文化程度为“初中及以下”时的家庭收入不来自于正

态总体。

原假设:文化程度为“大学(专、本科)”时的家庭收入自于正

态总体;备择假设:文化程度为“大学(专、本科)”时的家庭收入

不来自于正态总体。

原假设:文化程度为“高中(中专)”时的家庭收入来自于正态

总体;备择假设:文化程度为“高中(中专)”时的家庭收入不来自

于正态总体。

原假设:文化程度为“研究生及以上”时的家庭收入来自于正态

总体;备择假设:文化程度为“研究生及以上”时的家庭收入不来自

于正态总体。

根据输出结果,n1=805,n2=896,n3=1258,n4=34, 各组的p值

均小于0.05, 拒绝原假设,有证据表明各组数据不服从正态分布。

(家庭收入,文化程度)

对不同教育水平的家庭收入进行Shapiro-Wilk检验, 根据R输出

结果,所有的p-value都小于0.05,拒绝原假设,证据表明不同教育水

平的家庭收入不服从正态分布。该样本虽为大样本,但为高度偏态分

布(|sk|>0.5)。

本案例不满足单因素方差分析的正态性条件。

leveneTest(家庭收入~文化程度,data=T)

总体方差齐性可以使用levene检验,根据levene检验,F值为

22.908,p值为1.168e-14,拒绝原假设,有证据证明不同教育水平的

家庭收入的总体方差不相等。

因此本案例不符合单因素方差分析的应用条件,故采用非参数中

的Kruskal-Wallis检验。

原假设:不同文化程度的人民其家庭收入的中位数相等;

备择假设:不同文化程度人民的家庭收入的中位数不全相等;

检验统计量Chi-Square为452.43,p值非常小,小于0.05,拒绝

原假设,有证据证明不同文化程度人民的家庭收入的中位数不全相等。

7、请选用合适的图形来展示变量家庭收入和变量计划面积之间的关系,写

出相应的结论(请写出R代码);

plot(T$家庭收入,T$计划面积)

8、如果建立计划面积关于家庭收入, 常住人口, 现住面积的多元线性

回归模型。(请写出R代码)

(1)写出估计的多元线性回归方程,并解释回归系数的实际意义;

(2)计算判定系数,并解释其意义;计算估计标准误差,并解释其意

义。

(3)对回归模型进行整体检验(a=0.05)。

(4)检验各回归系数是否显著(a=0.05)。

(5)多元线性回归分析的基本假定是什么?本案例是否满足?。

(6)根据你的判断,模型中是否存在多重共线性?

d<-lm(计划面积~家庭收入+常住人口+现住面积,data=T)

summary(d)

(1)根据输出结果:回归方程为y=84.0016537+0.0003418x

1

-4.8387206x

2

+0.4527730x

3

x

1

的回归系数为0.0003418,其含义是:当x

2

、x

3

保持不变时,

x

1

(家庭收入)每增加1元,因变量y(计划面积)平均增加0.0003418

平米。

x

2

的回归系数为-4.8387206,其含义是:当x

1

、x

3

保持不变时,

x

2

(常住人口)每增加1人,因变量y(计划面积)平均减少4.8387206

平米。

x

3

的回归系数为0.4527730,其含义是:当x

1

、x

2

保持不变时,

x(现住面积)每增加1平米,因变量y(计划面积)平均增加0.4527730

3

平米。

(2)根据输出结果:修正的判定系数为0.2289。修正的R

2

=22.89%,说明模型与数据拟合的不够好,在计划面积的变动中,有

22.89%是由家庭收入、常住人口和现住面积的多元线性回归方程所解

释的。本回归方程拟合的不好,需要增加自变量。

标准回归误差是25.95,表示用估计的回归方程预测y时,预测

误差的相对大小为25.95。

(3)整体性检验:H

0

:β

1

2

3

=0;

β

3

至少有一个不等于0。

根据输出结果,通过F检验得出F值为83.21,P值非常小,拒

绝原假设。

(4)显著性检验:使用t检验的方法,H

0

:β

i

= 0; H

1

:β

i

≠ 0。

H

0

:β

1

、β

2

对于自变量x

1

(家庭收入):t值为6.663,P值小于0.05,拒绝

原假设。β

1

显著。

对于自变量x

2

(常住人口):t值为-5.435,P值小于0.05,拒绝

原假设。β

2

显著。

对于自变量x

3

(现住面积):t值为11.116,P值小于0.05,拒绝

原假设。β

3

显著。

(5)基本假定:

1、误差项ε是一个服从正态分布的随机变量,且相互独立,即

~N(0,

2

)

2、独立性

3、线性

4、同方差性

g<-lm(计划面积~家庭收入+常住人口+现住面积,data=T)

par(mfrow=c(2,2))

plot(g)

h<- residuals(g)

(h)

qqPlot(g)

正态性检验:p<0.01,能拒绝原假设,有证据表明残差不服从正

态分布。

durbinWatsonTest(g)

独立性检验:P值不显著(p=0.334)说明无自相关性,误差项之

间独立。

线性检验:在“残差与拟合图”(residuals vs fitted)中可以看到

残差与预测值似乎有某种线性关系。

同方差性:根据“位置尺度图”(scale-location graph)中,水平

线周围的点貌似有线性的趋向,遂使用改进的方法检验同方差。

nvcTest(g)

原假设:误差方差不变; 备择假设:误方差随拟合值水平的改

变而改变。

P值<0.05,拒绝原假设,说明存在异方差性。

(6)多重共线性

vif(g)

家庭收入、常住人口、现住面积3项的vif值都小于4,所以不

存在多重共线性。


发布者:admin,转转请注明出处:http://www.yc00.com/web/1717722889a2742551.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信