生物统计学复习资料

生物统计学复习资料


2024年2月16日发(作者:)

生物统计学复习资料

一、名词解释

准确性(accuracy):在试验中某一指标的观测值与真实值的接近程度,也称准确度。(反映观测值偏离目标值的程度)

精确性(precision):在相同试验条件下,对同一指标重复测量时所得观测值之间的接近程度,也称精确度。(反映观测值之间的变异程度)

准确性和精确性合称正确性。

随机误差(random error):由无法控制的偶然因素导致的误差。(随机误差影响精确性,扩大样本容量或增加试验重复次数有助于减少但无法消除随机误差)

系统误差(systematic error):由测量工具不精准、试验方法不完善、操作人员水平差异等因素导致的误差。(既影响准确性又影响精确性,可消除)

总体(population):研究对象的全体成员(有限总体、无限总体)

个体(individual):构成总体的各个成员

样本(sample):从总体中抽取的部分个体所组成的集合。

样本容量(sample size):样本包含的个体数量。

随机抽样(random sampling):采用随机方式从总体中获取样本的过程。

放回式抽样(sampling with replacement):从总体抽取一个个体,记录特征后放回总体,再抽取下一个个体。

非放回式抽样(sampling without replacement):从总体抽取一个个体,不放回总体就继续抽取下一个个体。

连续型数据(continuous data):与某种标准相比较获得的非整数数据。(可以提高精确度,采用变量方法分析)

离散型数据(discrete data):由记录不同类别个体数目而得到的整数数据。(不能提高精确度,采用属性方法分析)

极差(range,R):数据资料中最大值与最小值的差值。

组距(class interval, i):对频数资料分组时,每个组区间的高限和低限之差,即组区间极差。

样本特征数(sample characteristics):描述频率分布特征的数值

总体特征数(population characteristics):描述概率分布特征的数值

样本统计数(statistic):由样本数据计算而来的描述样本特征的数值。

总体参数(statistic):用于描述总体特征的恒定数值。

统计分布(经验分布):通过样本资料得出的频率分布。

理论分布(总体分布):由总体数据得出的概率分布。

抽样分布(sampling distribution):样本统计数的概率分布。

众数(mode, Mo):具有最大频数(率)的组值或中值。

中位数(median, Md):观察值排序后,位于排列中点的观察值或排列中点观察值的平均值(观察值累积频率恰好达到50%时的数值)。

变异系数(coefficient of variability, CV):样本标准差与样本平均数的百分比。

确定性现象(必然现象):在某些条件下一定会发生的现象。可分为必然事件和不可能事件两类。

非确定性现象(随机现象):在相同条件下重复进行试验,可能发生也可能不发生的现象,结果未必相同。

试验(trial或experiment):一组综合条件的实现。

随机试验(random trail): 从已有试验的结果不能预知下一次试验结果,此类试验称随机试验。

1

事件(event):同一组综合条件实现时每一种最基本结果的集合,即基本事件的集合。

基本事件(elementary event):试验的每一最基本的结果,基本事件是不能再分的事件。

必然事件(certain event):在每次试验中,一定出现的结果。

不可能事件(impossible event):在任一次试验中,一定不出现的结果。

概率(probability):随机事件在试验结果中出现的可能性大小的度量值。

统计概率(后验概率):从大量试验结果得出的某一随机事件发生的概率。

古典概率(先验概率):对于由 n 个等可能的基本事件所构成的样本,若事件A仅包含其中m个基本事件,则无需试验即可得知事件A发生的概率为m/n,这种可以理论推知的概率称为先验概率。

互不相容事件(mutually exclusive event) :如A与B两事件的交是不可能事件,则A与B称为互不相容事件。(不能同时发生的事件)

独立事件(independent event):若A与B两事件的发生彼此间互不影响,则A与B称为独立事件。

随机变量(random variable):在随机试验中被测定的变量。

离散型随机变量(discrete random variable):试验结果取值范围仅为有限个数值的随机变量。

连续型随机变量 (continuous random variable):试验结果取值为某范围内任一数值的随机变量。

分布函数(distribution function):随机变量小于等于某一可能值的概率。

分布曲线(distribution curve):根据概率密度函数绘制的连续型曲线。

二项分布(Binomial distribution):由2个发生概率恒定的对立事件构成的总体,在独立重复试验时,试验结果遵循的一种理论分布。

泊松分布(Possion distribution):某事件发生概率特别小而样本含量特别大时的二项分布。

正态分布(normal distribution):连续型变量的一种理论分布,其概率密度呈现两头小、中间大、两侧完全对称的特征。

标准正态分布(standard normal distribution):平均数为0、方差为1的正态分布。

中心极限定理(central limit theorem):一个由若干个相互独立的随机变量Xi求和构成的随机变量X,当Xi的数量足够多且每个Xi的值足够小时,X将服从或近似服从正态分布。

标准误(Standard error):样本平均数抽样总体的标准差

自由度(degree of freedom):独立观察值的个数。

假设检验(statistical test of hypothesis):对未知或不完全知道的总体提出2个对立的假设(零假设和备择假设),利用小概率原理和样本数据推断出可以接受的假设,也称显著性检验(significance test)。

参数估计(estimation of population parameter):利用样本统计数估计总体参数的统计推断方法。

估计量(estimator):估计总体参数的统计量。

零假设(null hypothesis):认为样本统计数与总体参数或另一样本统计数没有显著差异的假设。

备择假设(alternative hypothesis):认为样本统计数与总体参数或另一样本统计数有显著差异的假设。

显著性水平(significance level):在假设检验中,用于否定零假设的小概率标准。

显著性概率(significance probability):小于显著性水平的零假设发生概率。

接受域(acceptance region):零假设发生概率大于显著性水平的区域。

拒绝域(acceptance region):零假设发生概率小于显著性水平的区域。

临界值(critical value):接受域的端点。

I型错误(type I error):拒绝了一个正确的零假设,也称α错误。

II型错误(type II error):接受了一个错误的零假设,也称β错误。

2

点估计(point estimate):直接用样本统计数作为总体参数的估计值。

区间估计(interval estimate):在一定概率保证(置信度1-α)下,对总体参数的可能范围作出的估计。

无偏估计量(unbiaed estimator):数学期望等于总体参数的统计量。

有效估计量(unbiaed estimator):在样本含量相同情况下,具有最小方差的统计量。

相容估计量(consistent estimator):随着样本含量的无限增加,取值等于总体参数的概率趋于1的统计量。

最优估计(optimum estimate):能同时作为总体参数无偏估计量、有效估计量和相容估计量的估计值。

置信度,置信水平(confidence level):总体参数值包含在某个样本统计数取值范围内的概率。

置信区间(confidence interval):在某一置信水平下,能够包含总体参数值的样本统计数的取值范围。

置信下限(lower confidence limit):置信区间的低值端点。

置信上限(upper confidence limit):置信区间的高值端点。

方差分析(analysis of variance, ANOVA):通过研究不同来源的方差对总方差的贡献,判断各样本属于同一总体的可能性,进而明确试验因素对变量是否有影响的一种显著性检验方法。

试验指标(experimental index):为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目。

试验因素 (experimental factor):在试验中所研究的影响试验指标的因素。(单因素试验、多因素试验)。

因素水平(level of factor):试验因素所处的某些特定状态或数量等级

试验处理 (treatment):事先设计好的在试验单位上实施的具体项目

试验单位 (experimental unit):在试验中能接受不同试验处理的载体

试验重复(repetition):在两个或两个以上的试验单位上实施同一个处理的现象

方差分析(analysis of variance):通过分析不同来源的方差对总方差的贡献,判断各样本平均数属于同一总体的可能性,进而对试验因素影响观测值的效应作出显著性检验的方法。

多重比较(multiple comparison):多个平均数间的两两相互比较。

线性统计模型(linear statistical model):假设观测值的变异仅由若干个加性随机变量构成的数学模型。

处理效应(treatment effect):试验因素对试验结果产生的影响。

固定效应(fixed effect):固定因素对试验结果产生的影响。(因素水平经过特意选择确定的试验因素称为固定因素。)

随机效应(random effect):随机因素对试验结果产生的影响。(因素水平随机抽自总体的试验因素称为随机因素。)

简单效应(simple effect):在某因素的水平固定条件下,因另一因素的水平差异而引起的试验指标改变量。

主效应(main effect):在某因素的水平变化条件下,因另一因素的水平差异而引起的试验指标平均改变量。

交互作用(interaction):一个试验因素的效应受到另一个试验因素影响的现象。

互作效应(interaction effect):由于两个或两个以上试验因素的交互作用而产生的效应。

回归(regression):若变量X的每一个可能值,随机变量Y都有一个分布与之对应,则称随机变量Y对X存在回归关系。(X称为自变量,Y称为依变量)(在回归关系中,x一般是预先确定的固定值,没有误差或误差很小;而y则不仅随x的变化而变化,并且有随机误差。)

3

相关(correlation):对于随机变量X和Y,若任一变量的每一个可能的值,另一个变量都有一个确定的分布与之对应,则称这两个变量间存在相关关系。(在相关关系中,x和y是平行变化关系,皆具有随机误差。)

条件平均数(conditional mean):在线性回归关系范围内,与自变量的一个特定值相对应的依变量分布的平均值。

回归系数(regression coefficient):自变量每变化一个单位,依变量随之发生变化的平均单位数。

相关系数(correlation coefficient):描述两个随机变量线性关系密切程度的统计数。

最小二乘法(method of least square):根据离回归平方和最小原则求得一元回归方程回归截距a和回归系数b的方法。

区组(block):性质近似的实验材料或大致相同的环境条件构成一个试验单元,再把试验处理安排在各单元内,这样的单元称为区组。

完全区组(complete block):安排有全部试验处理的区组。

随机化完全区组(randomized complete block):随机化排布着全部试验处理的区组。

二、基本计算

从频数分布表计算MLf2iof1f2连续型变量的众数

样本方差

s2

yi1niy2n1(y)22yns2n1fyii1niy2n12(fy)fy2nn1

在事件B已经发生的条件下事件A发生的条件概率 【非常重要】

P(AB)P(A B)=———P(B)P(AB)=P(B)P(A│B)P(AB)=P(A)P(B│A)

贝叶斯定理:设B只能与A1,A2,…,Ak之一同时发生,在事件B已发生的条件下,Ai发生的概率 【非常重要】

数学期望

方差

设σ=E[(X-μ)]= Var(X)

则 Var(X+c)=Var(X)

Var(cX)=cVar(X)

Var(cX+A)=cVar(X)

222 2E(c)=c

E(cX)=cE(X)

E(X+c)=E(X)+c

E(cX+A)=cE(X)+A

二项分布是一种离散型随机变量的概率分布,由n和φ两个参数决定,n称为离散参数,只能取正整数;φ是连续参数,取值为0与1之间的任何数值。

二项分布通式

0nCn(1)n(1)n1

4

二项分布的特征数

n2n(1)(1)2n

泊松分布是二项分布的特殊形式,左偏

泊松分布特征数:平均数和方差相等,都等于常数μ,即μ=σ2=μ=nφ

μ≥20时可用正态分布近似地处理泊松分布的问题

P(x)e!

对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换:u(x)/

μ=0,σ=1 的正态分布为标准正态分布(几个关键的临界值要牢记)

若总体平均数为μ、标准差为σ,从该总体抽取的含量为n的样本,当n充分大时,样本平均数的分布渐近服从正态分布(非常重要)

x~2N(,)n

t分布比正态分布离散,样本容量n﹥30时可采用正态分布近似

y总体未知时,y服从于自由度为n1的t分布:tsn如果从正态总体N(,2)进行抽样,样本平均数x的分布为N(,)ny-μyσy当n30,y的分布满足正态分布,计算概率按下式标准化:u2y-n

从N(μ,σ2)中随机抽取含量为n的样本,样本s2分布遵循卡方分布

卡方分布只适用正态分布总体,左偏

当df>30时,x2分布趋于正态分布2xdfdfs22(n1)s22上式称具n1自由度的卡方2x2服从于N(2df1,1)

y1

2x22df1u2x22df11

将y1y2标准化,Uy1y2(u1u2)服从于N(0,1)y2服从于N(u1u2,12n122n2)21n122n2tdf1df2y1y2(u1u2)2(n11)s12(n21)s211()n1n22n1n2标准差i未知但相等时,两个平均数的和与差符合t分布,可用s1、s2代替1、2进行t检验

5

从N(u1,12)总体中抽取含量为n1的样本,可计算出s12;22从N(u2,2)总体中抽取含量为n2的样本,可计算出s2;s12Fdf1,df2122s222F分布描述方差比值的分布,只适用正态分布总体,左偏Fdf1,df2,1-1Fdf2,df1,

数据转换方式:①平方根转换用于泊松分布数据,观察值中有0时或多数观察值小于10时,需把原数据+1后转换成平方根值;②对数转换用于指数分布数据,观察值中有0时或多数观察值小于10时,需把原数据+1后再转换成对数值;③反正弦转换用于二项分布数据(百分率数据)。数据转换的目的在于满足方差分析的前提条件——可加性、正态性和同质性。

抽样分布规律需牢记,会活用,尤其要领会抽样分布(样本统计数的统计数)与理论分布(总体参数)、统计分布(样本统计数)之间的联系。

总总体分布体统计规律单个样本样本分布统计量样本标准化公式正态,方差已知正态分布样本平均数uyn正态,方差未知t分布样本平均数ytsn2(n1)s2xdf2卡方分布(df<30)正态分布正态分布(df>30)样本方差样本方差u2x22df12

6

总体统计规律两个样本样本总体分布样本分布统计量样本平均数和与差样本平均数和与差(n1=n2)U标准化公式y1y2(u1u2)正态,方差已知正态分布12n122n2正态,方差未知t分布tdf1df2y1y2(u1u2)2s12s2ns12正态分布F分布两个样本方差比Fdf1,df2122s2223

三、重点、难点内容

假设测验和参数估计均是抽样分布规律的应用。

务必弄清单样本假设测验和双样本假设测验的程序、方法和条件,特别要注意:①备择假设应当是单尾还是双尾。②样本含量与自由度之间的关系。书本93页和107页总结的内容必须掌握(二项分布内容除外)。③α错误和β错误的关系。④总体方差未知的双样本t检验,要注意做方差齐性检验。

区间估计中,置信区间上限和下限的计算注意和假设测验的内容联系起来。

单因素方差分析是必考内容,①务必清楚平方和、自由度的分解和计算方法,②务必掌握多重比较的方法(LSD、SSR),③务必清楚固定效应模型和随机效应模型方差分析结果的不同解释。要注意方差分析的三个前提条件:效应的可加性、分布的正态性、方差的同质性(方差齐性)(下表中的均方期望了解即可)。要理解方差分析的实质是将各处理的样本观测值视为出自同一个未知总体,然后分别根据样本平均数的变异(处理间方差)和各样本观测值的变异(处理内方差),对总体方差作出不同来源的估计,再检验方差同质性假设是否成立(F检验);方差同质性不成立时,意味着样本平均数之间的差异并非完全来自随机误差,即存在处理效应。

7

单因素的方差分析表变差来源处理间平方和自由度均方F均方期望SSASSeSSTan12ija-1an-aan-1MSAMSeMSA/MSen2α+2n

2α+2误差或处理内总和2SST(yijy..)2i1j1an22SSAn(yy..)2y..y..2)aanSSTyC,C(yij)2an1i1ij1aann是各个处理下的样本容量2

nyii1ii1=每个处理下的样本观察值之和;

i1j11j1aan2nyy2nyy..ny....y..yi.ijan2ii11j12....1y..

yy222y..y..an()y2y.i.固定效应模型在F检验显著时,需进行多重比较(注意自由度)

iijanananin1ij11i11aSSA(nyi)2C;SSeSSTSSAn1LSD法:

Duncan法:

处理间平方和是各处理平均数与总平均数i2ny2ij22yn..yijany()..yan..之间的离均差平方和的n倍,其含义在于ani1j1ni1ij11ni1样本平均数的方差是总体方差的1/n。a

aan222aanLSDt(dfe)•Syy........(8Syy121211i1ij

an

2yCij

i1j1回归与相关用于分析两个变量之间的协同变化关系,属于必考内容,①务必掌握一元回归方程和相关系数的计算;②务必掌握回归方程和相关系数的显著性检验(两个回归方程之间比较时,需先做方差齐性检验,以确定误差均方是否需要合并以及t检验的标准误计算方法;p186的例题);③务必掌握回归分析和相关分析的区别与联系。

Sy8MSnRkr14•Sy........(y.C

ynanani1ij2anan22iij

ˆ)最小(yy22其变异来源y:N(X,);:N(0,)(yyˆ)0ˆabXxx时,yy(即条件平均数的分布)

回归方程:Y2iiii一元线性回归模型:yX回归方程三大特性:

8

xy(x)(y)/nS(x,y离均差乘积和)bS(x离均差平方和)x(x)/niiiiXYii2i2iXXi两个回归方程比较22(1)H0:122,HA:122aybxF2b、a的数学期望与方差:E(b),var(b)SSe2/(n22)SSe1/(n12)MSe1、MSe2差异不显著合并1xSSe1SSe2;E(a),var(a)2()MSe(n12)(n22)SxxnSxx

(2)H0:12,HA:12ˆiiyixiyiabxieiyiy2ei1n2iˆi)SYYbSXY(yiy2i12nSSE(剩余平方和)tb1b22Sb12Sb2

(SSE)E(MS)2可证:E(SSE)(n2);EEb1和b2差异不显著合并bSx1x1b1Sx2x2b2Sx1x1Sx2x2a1a2Sa1Sa2n1x1n2x2n1n2n1y1n2y2n1n222n2MSE21xb,a的方差:S;SaMSE()SXXnSXX2b2(3)H0:12,H1:12tbb的显著性检验:t,dfn2Sba的显著性检验:ta,dfn2Sa差异不显著合并为aybxy,x由合并的b和a得出合并方程。

相关系数:r2SXYSXYr显著性检验:H0:0;HA:0。2;决定系数:rSXXSYYSXXSYYrrSSESYYbSXYSYYSSSYYSSESXXSXX2XY2XYtSr(1r)(n2)2,dfn22SXYSSSeSSYYr21ESXXSYYSYYSYY随机变量x和y,Y为因变量的回归系数bSXYS,X为因变量的回归系数bXYSXXSYY2SXYSXYSXY2bbr(决定系数是x和y互为因果的回归系数乘积)SXXSYYSXXSYY

9

四、能力提升内容

双因素试验的方差分析(掌握平方和和自由度的分解,具体计算不考)

固定模型方差分析表变异来源SS dfA因素B因素AB

误差总变异

MS F 均方期望SSA

a-1 MSA

MSA/MseSSB

b-1MSB

MSB/MSe2+bn2α2+an2βSSAB

ab-1MSAB

MSAB/Mse2+n2αβSSe(a-1) (b-1)Mse2SST

abn-1

22随机模型方差分析表变异来源SS dfMS F 均方期望A因素SSA

a-1 MSA

MSA/MSAB

2+nσ2αβ+bnσ2αB因素SSB

b-1MSB

MSB/MSAB

2+ nσ2αβ+anσ2

βAB SSAB(a-1) (b-1) MSABMSAB/Mse2+nσ2αβ误差SSeab(n-1) Mse2总变异

SST

abn-1

混合模型方差分析表(A固定,B随机)48变异来源SS dfA因素SSA

a-1B因素SSB

b-1AB

MS F 均方期望MSA

MSA/MSAB

2+n

2αβ+bn2αMSB

MSB/MSe2+ an

2

βSSAB(a-1) (b-1) MSABMSAB/MSe2+n

2αβMse误差SSeab(n-1)总变异SST

abn-1

2

10

53

试验设计三大原则:重复、随机化、局部控制。

掌握样本容量的估计方法:

22成组资料:n2tS/(y1y2)2,先以u代替t,n15时,再以df2(n1)的t代入计算,直至n稳定配对资料:nt•S/d,先以u代替t,n15时,再以dfn1的t代入计算,直至n稳定

22d2试验设计的方差分析(掌握平方和和自由度的分解,具体计算不考;了解各种试验设计方法的优缺点。)

样本排列布局区组1区组2区组3区组4a1a3a1a5a2a4a4a2a4a1a5a3a3a5a3a4a5a2a2a1样本排列布局区组1区组2区组3区组4单因素随机化完全区组设计ANOVA变异来源Source区组(重复)处理误差总变异自由度dfr-1

a-1(r-1)(a-1)ra-1平方和均方SSMSSS区组MS区组SS处理MS处理SSeMSeSSTFMS区组/MSeMS处理/MSe双因素随机化完全区组设计ANOVA自由度dfr-1

ab-1Aa-1Bb-1A×B(a-1)(b-1)(r-1)(ab-1)误差rab-1总变异变异来源Source区组(重复)处理平方和均方FSSMSSS区组MS区组MS区组/MSeSS处理SSAMSAMSA/MSeSSBMSBMSB/MSeSSABMSABMSAB/MSeSSeMSeSST

随机化放置一套完整的AaBb水平组合样本样本排布格局拉丁方设计ANOVA变异来源Source

处理

误差

总变异

自由度

df

p-1

p-1

p-1

(p-2)(p-1)

p2-1

平方和

SS

SS处理

SS行

SS列

SSe

SST

均方

MS

MS处理

MS行

MS列

MSe

F

MS处理/MSe

MS行/MSe

MS列/MSe

ADCBEDABECBCEADEBDCACEADB11


发布者:admin,转转请注明出处:http://www.yc00.com/news/1708052078a1537615.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信