2024年4月18日发(作者:)
上一篇文章已经介绍过了数据分析思路素养,如果对定性数据和定量数据的鉴别还是一
知半解,推荐先区分清两者再往下阅读,毕竟数据类型是一切研究的基础。
那么在基本的数据类型确认之后,接下来再讨论下数据研究的一些关系情况。
数据间的几类关系情况
大致可以分成以下三类:差异关系、相关关系、其他关系。
差异关系
通常是研究不同类别的差异性。提到了不同类别,那就涉及到定性数据,差异关系
可以包括定性和定量数据的差异性,定性和定性数据的差异性。自然地也就对应到几类
研究方法中。
相关关系
是指变量的数值之间存在着非严格的依存关系,比如越如何越如何之类的关系。包
括相关关系,还有影响关系等。X对于Y的影响关系情况如何等,此时影响关系又拆分
出几种分析算法。
其它关系
比如数据的浓缩,聚类,权重计算等。
在进行数据研究时,首先需要想到的是“我想做什么?”,来回就只有三种关系,那么
这种关系有着明显的区分性,对应确认关系情况,加上数据类型的判断,对应就会找出
合理的数据研究方法。
具体分类
差异关系
差异研究分析涉及三类方法,分别是方差分析、T检验和卡方检验。
编号 方法
1 方差分析
名词术语
P值,F值,事后检验,方差齐检验
说明
定性数据和定量数据关系研究
2
3
T检验
卡方分析
方差齐,T值,P值,单样本T检验,
定性数据和定量数据关系研究
独立样本T检验,配对样本T检验
P值,显著性,卡方值,分类数据 定性数据和定性数据关系研究
(1)方差分析是用于两个及两个以上样本均数差别的显著性检验。涉及以下名词术语,分
别是F值,事后检验,方差齐检验等。
P值:显著性值或Sig值,描述某事情发生的概率。
如果P值小于0.01即说明某件事情的发生至少有99%的把握,如果P值小于0.05(并且大
于0.01)则说明某件事情的发生至少有95%的把握。
例如研究人员想研究不同性别人群的购买意愿是否有明显的差异,如果对应的P值小于
0.05,则说明呈现出0.05水平的显著性差异,即说明不同性别人群的购买意愿有着明显的
差异,而且对此类差异至少有95%的把握,绝大多数研究均希望P值小于0.05,即说明有影
响,有关系,或者有差异等。
特别提示
常见标准:0.01和0.05,分别代表某事情发生至少有99%或95%的把握。
语言表述:0.01或0.05水平显著。
符号标示:0.01使用2个*号表示,0.05使用1个*号表示。
F值:用于表示是否存在差异,但最终均会计算成P值(F值和P值有一一对应关系),因此
研究人员分析P值,不用单独对F值进行分析。
事后检验:事后检验基于方差分析基础上进行;如果方差分析显示P值小于0.05,即说明
有差异。
例如学历共分为三组(本科以下,本科,硕士及以上共三组),具体是本科以下与本科有差异,
还是本科以下与硕士及以上有差异,或者两两组别之间均有差异,此时就需要使用事后检验
具体分析两个组别之间的差异情况。事后检验是在方差分析(多个组别对比差异)呈现出差异
后,进一步具体分析两两组别之间差异的一种检验方法。
方差齐性检验:用于分析不同定类数据组别对定量数据时的波动情况是否一致。
例如研究人员想知道三组学生的智商波动情况是否一致(通常情况希望波动一致,即方差
齐)。方差齐是方差分析的前提,如果不满足则不能使用方差分析。首先判断p值是否呈
现出显著性(p <0.05),如果呈现出显著性,则说明不同组别数据波动不一致,即说明方差不
齐;反之p值没有呈现出显著性(p>0.05)则说明方差齐。如果方差分析显示有差异时,研
究者需要具体对比各个组别的差异情况,即通过对比各个组别的平均得分进行进一步分析说
明。
(2)T检验(独立样本T检验),用于分析定性数据与定量数据之间的关系情况。
T检验仅可对比两组数据的差异,如果为三组或更多,则使用方差分析。如果刚好仅两组,建
议样本较少(低于100时)使用T检验,反之使用方差分析。
类似方差分析,T检验也会涉及到方差齐,以及T值和P值等术语。T值与P值也有对应关
系,研究人员对P值进行分析即可。
T检验还可以具体细分为单样本T检验,独立样本T检验和配对样本T检验,独立样本T检
验在问卷研究中使用频率最高。
(3)卡方分析是研究定性数据与定性数据关系的分析方法,比如性别和是否戴隐性眼镜之
间的关系。
卡方分析通常会涉及到卡方值和P值两个名词,卡方值与P值有对应关系。首先判断p值是
否呈现出显著性,P值小于0.05说明有差异存在,即说明性别与是否戴隐性眼镜之间有联
系。呈现出差异之后,具体差异可通过选择百分比进行对比判断。比如男性戴隐形眼镜的百
分比为30%,而女性戴隐形眼镜的百分比为50%,则说明女性样本戴隐形眼镜的比例要明显
高于男性样本。
上述知识介绍在SPSSAU帮助手册中均有详细说明,具体参考SPSSAU官方网站帮助手册。
相关关系
变量的相关关系包括相关关系和影响关系等。两者既有区别也有联系。
编号 方法 名词术语
1
2
相关分析 相关系数,Pearson相关系数,Spearman相关系数
线性回归(模型检验指标) R平方,调整R平方,F值,VIF,D-W,多重共线性,自相
关性
3
4
线性回归(显著性指标)
Logistic回归分析
P值,显著性,非标准化回归系数和标准化回归系数
二元Logistic回归分析,多元无序Logistic回归分析,多
元有序Logistic回归分析
5 二元Logistic回归分析
(模型检验指标)
Hosmer and Lemeshow检验,Cox & Snell R 平方,Nagelkerke
R 平方
P值,回归系数B值,对数比(Exp(B)) 6 二元Logistic回归分析
(显著性指标)
发布者:admin,转转请注明出处:http://www.yc00.com/web/1713396901a2240904.html
评论列表(0条)