三、分层随机抽样
(一)方法
分层随机抽样简称分层抽样(stratifiedsampling或hierarchicalsampling)。具体做法是按照总体已有的某些特征,将总体分成几个不同的部分(每一部分叫一个层),再分别在每一部分中随机抽样。它充分利用了总体的已有信息,因而是一种非常实用的抽样方法。
对于一个总体究竟应该如何分层,分几层,要视具体情况而定。总的一个原则是,各层内的变异要小,而层与层之间的变异越大越好,否则将失去了分层的意义。例如,从某综合大学抽样调查学生逻辑推理能力,根据以往的研究结果,文科与理科学生的逻辑推理能力有显著差异,因而进行分层抽样时就按文、理科分为两层,或分成文、理、交叉学科三个层次。有些复杂问题,常常还需要按两个或两个以上的分层标准进行分层。例如,以儿童为对象,进行心理实验研究时,要考虑到遗传、环境、年龄、性别等对儿童有影响的各种因子,在选取样本时,应该按照这些因子进行多个分层标准的分层抽样。美国心理学家韦克斯勒(Wechsler)1966年编制的幼儿智力量表(WPPSI),抽样时曾考虑到6个分层标准:①年龄(4岁~6岁半,每半岁为一组);②性别;③种族(白人与非白人);④地区(东北部、中北部、西部、南部);⑤家长职业(8种职业);⑥城市与农村。这样,先按年龄分成6个年龄组,每组又按性别分为男女各半,然后再考虑种族、地区、家长职业、城乡等继续分层。日本1967年修订WPPSI时,认为日本国情与美国不同,因此只按年龄、性别、地区三个标准进行分层。可见分层标准并不是一成不变的,即使是同一个研究课题,在不同的条件下,用什么标准进行分层以及对于每一个分层标准应当分为几层均需视具体情况而决定。
既然各个层之间的差异较大,那么各层的人数分配也不应一律等同。设总体为N,所需样本容量为n,则如何合理地将n分配在各层,是分层抽样的一个重要问题。具体施行过程中有两种方式:
1。按各层人数比例分配
这是在各层内的标准差不知道的情况下常用的分配方式,基本思想是人数多的层多分配,人数少的层少分配。设各层的人数分别为N1,N2,N3…Nk,每层应分配的人数为n1,n2,n3,…,nk。则
N=N1+N2+N3+…+Nk
n=n1+n2+n3+…+nk
如果按人数比例分配,则
任意一层应分配的人数应当为:
2。最佳分配
这种分配不但根据各层人数比例,还考虑到了各层标准差。如果各层内的标准差已知,就应该考虑到标准差大的层要多分配,标准差小的层要少分配。这样,不但根据各层人数比例,还考虑到了各层标准差的分配,叫最佳分配。这时,任意一层应分配的人数ni为:
式中σi为任一层内的标准差,若σi没有现成资料可以从该层抽一个小样本算出样本标准差si估计之,即:
(二)标准误
为了简化公式,先引入统计量Wi
令
1。平均数的标准误
无限总体:
公式14-8实际上与公式14-1意义相同,在公式14-1中以样本s估计总体σ,而在公式14-8中是以各层的si联合估计全总体σ。