2024年4月30日发(作者:)
第6讲
概率默统计类
6.1随机抽样
考点1:抽样方法
知识点睛
一.随机抽样
随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:
1.简单随机抽样:从元素个数为
N
的总体中不放回地抽取容量为
n
的样本,如果每一次抽取时总体中
的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.简单随机抽
样是最简单、最基本的抽样方法.
⑴抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一
张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样
本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的
方法.
⑵简单随机抽样必须具备下列特点:
①简单随机抽样要求被抽取的样本的总体个数
N
是有限的.
②简单随机样本数
n
小于等于样本总体的个数
N
.
③简单随机样本是从总体中逐个抽取的.
④简单随机抽样是一种不放回的抽样.
n
⑤简单随机抽样的每个个体被抽取的可能性均为.
N
<教师备案>样本获取分为两种,一种是全面统计,一种是样本统计.
全面统计的例子非常多,比如美国大选,每个州的选民都是通过投票选出每个州的负责
人.也就是每个人都表达了自己的意见.再比如我们调查学生是海淀还是非海淀,我们也
是给每个学生打了电话,访谈出结果,每个同学也都表达了自己的意见.再比如一些小事,
像一群人中午的时候讨论去哪吃饭,每个人都可以说自己喜欢的地方.
全面统计的好处在于无遗漏,数据准确无偏差,但是缺点也很明显,那就是非常的繁琐、
麻烦.对于大数据的处理很无力,所以我们需要有样本统计.
样本统计的意义就是从一个大数据中抽取数据样本分析,通过对样本的分析来估计原数据
的性质.于是首要的问题就是如何抽样.一个合理的抽样方法的基本要求是“平等”,也就
是每个个体被抽取的可能性是相同的.比如我们发现,老师选出的学生代表很可能不能真
正代表全体同学的意见,因为老师选取的一定是自己比较熟悉的学生,这类学生平时一定
非常活跃.而对于一些比较内向,“存在感”比较低的同学来说,老师可能就不会关注,被
选中的可能性就会降低.由此可以推知,人为的抽样一般是不靠谱的.再比如,现在很多
的新闻都有网上的调查,有的媒体通过网上调查的数据来分析广大人民对新闻的反馈.这
样的调查也是不靠谱的,因为网上调查反映出来的大多是经常上网的人的意见,而对于平
时不上网的人就没有调查,所以这样的抽样也是不合理的.
最常见的合理抽样方式是“抓阄”,这可以保证每个个体都能“等可能”的被选中.当然抓阄
的方式有很多,比如很多时候我们不需要每个人都去抓一次,我们可以把每个人编一个号,
然后由一个人来抽号就可以了.比如我们常见的彩票大致就是这个原理.不过需要注意的
是彩票里面的等可能是对彩票是等可能的,对人不一样,因为一个人可以买很多彩票.
1
<教师备案>老师在讲完简单随机抽样后可以让学生做例1的【铺垫】⑴,本小题主要是让学生理解什
么是总体,什么是个体,什么是样本容量,因为简单随机抽样比较简单,而且在后边要讲
的系统抽样和分层抽样中都要用到,所以这里就不再详细讲解了.
2. 系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,
得到所需要的样本的抽样方法.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,
又被称为等距抽样.
⑴抽出办法:从元素个数为
N
的总体中抽取容量为
n
的样本,如果总体容量能被样本容量整除,设
N
k
,先对总体进行编号,号码从
1
到
N
,再从数字
1
到
k
中随机抽取一个数
s
作为
n
起始数,然后顺次抽取第
sk,s2k,,s(n1)k
个数,这样就得到容量为
n
的样
本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统
抽样方法进行抽样.
N
N
⑵系统抽样时,当总体个数
N
恰好是样本容量
n
的整数倍时,取
k
;若不是整数时,先从总
n
n
体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量
n
整除.因为每个个体被剔除
n
的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等为.
N
<教师备案>随着数量的增大,抓阄的方式效率会比较低.当然,随着现在计算机的发展,数据量很大
的时候也是可以通过“选号”的方式进行随机抽样.课本上提到的系统抽样其实现在已经不
怎么使用了.不过作为传统意义下的抽样方法,我们还是有必要介绍一下.
系统抽样的核心是“选出代表”,每个代表会直接代表一个群体的意见.系统抽样的方式分
为两种,一种是横向抽样,也就是我们教科书上的抽样方式,这种例子非常多,比如军训
的时候,可能我们出现过“一到三”报数,这样就把我们分成了“一”“二”“三”三个组,然后就
可以随机选一个数“一”,然后所有的“一”就被选中了.同样的道理,我们对
1000
人,选取
一个
100
人的样本,那么我们就需要把总数分成
100
组,每组
10
个人,然后让第一组的人抓
阄(为的是随机抽样),比如“
4
”抓到,那么每一组的“
4
”就被选中了.
另一种系统抽样的方式是“纵向抽样”,它出现的原理是这样的:原始的系统抽样方法会造
成直观上的不公平.比如我们
1000
人里面选
100
人去叙利亚旅游,大家肯定都不愿意去,
第一组的人抓阄之后,由于第一组的
4
号被选中,那么每一组的
4
号就都被选中了,其他组
的
4
号会认为被第一组的
4
号连累,因为他们是“被”选中的.虽然从可能性上说,这没有道
理,不过直观上确实有点“躺枪”的意思.于是人们改变了方式,也就是纵向系统抽样.比
如现在我们还是
1000
人里面选
100
人去叙利亚,我们把所有人分成
10
组,每组
100
人,然
后每组自行推举一个代表上台抓阄,被选中的人所在的组,整组都被选中.这样我们每个
组都有人去抓阄,也就实现了直观上的公平.但是在可能性的角度,横向和纵向抽样都是“等
可能”的,没有本质区别.
<教师备案>老师在讲完系统抽样后就可以让学生做例1的铺垫⑵,例1⑵以及尖子班拓展⑵,这几个
题都是系统抽样,老师可以选择几个让学生做做,不一定都让学生做,老师自己选择.
3. 分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各
个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总
体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较
强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.
<教师备案>简单随机抽样(抓阄)和系统抽样都是绝对意义上的公平,但是分层抽样就是相对意义上
的公平,因为我们人为的干扰了抽样的过程.不过现实意义之下我们统计数据必须进行分
层,否则统计数据会闹出笑话.常见的一个就是我家房子
10
平米,后来搬过来一个邻居,
房子面积是
100
平米,那么我家的生活状况有没有改变.实际上没有,但是统计数字可能告
诉你,你们的平均面积增加了.现实生活中,很多的统计需要分层,比如统计收入水平的
时候需要分不同的城市,统计生育问题的时候要分城市和农村,统计化妆品消费水平的时
候要分性别等等.所以分层抽样就是为了保证每个层面上的公平性,我们按照每个层次占
2
发布者:admin,转转请注明出处:http://www.yc00.com/web/1714487580a2456071.html
评论列表(0条)