《抽样调查教案6系统抽样.docx》由会员分享,可在线阅读,更多相关《抽样调查教案6系统抽样.docx(16页珍藏版)》请在课桌文档上搜索。
1、抽样调查教案6系统抽样6.1引言6.1.1 定义定义6.1/6.2系统抽样(systematicsampling)又称之等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序与规律依次抽取其余的样本点,最终构成样本。这种抽样被称之系统抽样是由于这种抽样的第一个样本点尽管随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身:比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或者若干个样品进行检查;农业上为估计农作物产量或者病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或
2、者调查,等等。本章只作简单方法介绍。更多内容参见文献2、文献3。6.1.2 系统抽样的通常方法定义6.3直线等距抽样假设总体单元数为N,样本容量为,N为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔左=%,(当N不是的整数倍时,可令人等于最接近的整数)。然后在第一阶段1上个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:nkf升2匕,直至抽取了n个单元。抽取的样本编号为:r+(j-l)k2,.,n)o12.rkZ+1Z+2.A+rIk2Z+12Z+2.2k+r3kk+r2k+r(n)k+rk为抽取间隔)比如某学院有200个学生,要抽取10个学生作为样本。首先计
3、算上=%=20,然后在120中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4圆形等距抽样(Lahiri)这种方法要紧适用于G=%不为整数时。由于当女不为整数,取其最接近的整数时,实际样本容量可能与相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。1IO例:设总体N=IO,其标志值分别为X,L,,几,总体均值为P=GX匕。若要求样本容量为=3,使用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距2=%=103=3.33.,取k=3,在13中取一个随机起点,然后每隔3个
4、单元抽取1个单元可得下列的可能样本:z=li=2i=3XVy2L24V丫5n1IKon三个可能的系统抽样样本均值分别为:%=(X+L+%+YO)/4,%=化+X+%)3,%=(4+E+%)3所有e(v)=;(%+%+%)=Y,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将N个总体单元排成首尾相接的一个圆。抽样间距k取最接近%的整数,从1N中随机抽取一个随机起点作为起始单元,然后每隔上个抽取一个,直到抽取个为止。假如序号大于N时,将其减去N得到的在1N中的号码入选。正是由于排列为圆形而非直线且随机起点在1N中
5、而非在1灯(或者伙+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。若是圆形等距抽样,则在110中抽取一个随机起点,假设为7,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是匕、匕入样。考虑到实际问题中,通常比较大(大于等与50),多一个少一个并无关宏旨,因此能够不必考虑M不是整数的影响,故通常我们都假定N是的整数倍。3不等概率抽样法不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是城S系统抽样,即入样的概率匹与单元规模大小成比例的系统抽样。令Mo=知,表示所有单元规模大小总与,则肛=3(包含概率,见不放回不等概率抽样)。在实际中,不等概率的实施常使
6、用代码法。如下所示:先将单元规模(不失通常性,设其为整数)值累加,欲从总体中抽取容量为的样本,取最接近也的整数A为抽样间距,从1,中随机抽取一个整数n作为起点,则代码厂,什K,什(-1火所对应的单元入样。例7.1设总体由10个行政村构成,N=10,每个行政村人数为M,见表7.1。利用让S系统抽样抽取n=3个行政村样本。表7.1用苏S系统抽样抽取行政村行政村编号人数Mj累计人数抽中号码1103103100*24325353966314246877723*584961673103472051239816814071346*91461553103171870合计1870&=历。/=623,从1623
7、中抽取一整数,比如是r=100,则=100,厂+攵=723,r+2A=1346所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模M,&时,每个单元不可能重复,是一种不重复抽样;当左M,24,第i个单元为必定被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必定调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。6.1.3 总体单元排序1按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系2按有关标志排序调查身高时,按入校体检的身高顺序排列3介于以上两者之间6.1.4 系统抽样的优缺点优点:系统抽样是实际中常
8、用的一种抽样方法,1其简单易行,只要确定起点与间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识熟悉,并有有关的标志能够利用时,能够运用己知的信息先对总体单元进行排列,再使用系统抽样,就能提高系统抽样的效率。但缺点也很明显:1方差复杂,难以估计2假如单元排列存在周期性,而抽样者缺乏对此熟悉,则很容易抽取出的样本代表性很差。比如,要调查70路每天的客流量,使用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。6.1.5系统抽样与整群抽样与分层抽样的关系系统抽样能够看作特
9、殊的整群抽样与分层抽样表6-1系统抽样的总体单元123.j.n行平均1XMj-I袂+1(n-l)+lyl2L匕+2(7-l)+2M-l*+2%3L匕+3%j-lt+3(rt-l)+3%ryrLV2(j-)+Y2(n-l)i+rk匕%.YjkYfIkyk列平均匕Y.2匕匕见下表6-1,假如将每一行单元视为一个群,则总体由Z个群构成,每个群规模大小都为。系统抽样从。,匕,L中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样能够看成从女个群中随机抽取1个群的整群抽样。同样将每一列视为一层,则总体由个层构成,每个层大小都为讥系统抽样能够看作从每个层中抽
10、取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不一致与分层抽样。表6-2系统抽样总体单元重新编号12j.n群平均1丫12儿匕.2丫21%匕y2flY2.r匕yr2-YrjrnYr*.*kYH匕2Ykj匕”匕.层平均匕Y.2.YjYftY6.2等概率系统抽样估计量为讨论方便,今后总是设N=成。6.2.1符号说明第行第j列单元指标Yrj,参照表6-2换个排序方式有Yrj=Y(Hk+r总体单元数M样本单元数总体方差52=白(丫町总体(群)均值匕=t%,r=l,2,#(每行均值);=1样本(群)均值勇=力为=4=%,厂=12,女1nJ=I系统样本均值ysy=,Z%=匕,J=I1*1k
11、总体层均值=r2%,/=1,2,,或者a=,为,J=l,2,(每kr=lkr=j列均值)6.2.2估计量假设起始点为则相应的系统样本的平均值为191yr=-y11=d(6.1)n;=1n;=1(群内普查)取系统样本平均值作为总体均值yN6的估计量,即:/Yr=ly=1nr=l;=11nysy=yr=-yrj=-Yrj=Yr(62)(由于群内普查)nj=n;=1定理6.1当N=nk,有Z个可能样本)=T=F,因此是无偏估计。kIv(J=-r)2=(yr-F)2(6.9)(方差定义)Kr=I定理6.2用系统样本(群)内方差Siy表示S,=瓦!刁与(力-歹)为系统样本(群)内方差(类似整群抽样中的定
12、义)由于系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差SM,它反映了所有Z个可能系统样本内的方差大小。因此能够想象,与整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。VG)=12-如(6.10)Vsy/NN-证明:仍-15=力(为-行=(yrj-yyr-Y)2r=ly=lr=1j=(-)2+nbr-Y)2(交叉项为0)r=l;=lF=I=U,Y(-f)2r=j=lKT两边同除以N=根据方
13、差定义与S:定义,得到V(yvj=2-fcl)SvnV,NN假如直接用简单随机抽样,则V(y5J=52,作差:NnVG)-M%)=F(s,s2),因此S2,即系统样本内方差大于总体方差时,系统抽样优于简单随机抽样当S2+(”-I)AJ。#由定理6.3看出,系统样本(群)内正有关性越大,即样本(群)内单元越相似,则估计量方差越大,系统抽样精度越差,这与定理6.2结论一致。定理6.4系统抽样可看成特殊的分层抽样,其方差能够用层内方差SL与Pwsl表示1k01定义:总体层内方差S七沼T卒总体(层)内有关系数:同一系统样本内对层均值离差的有关系数,系统样本内各单元两两之间分别与各自层的平均数相比较而计
14、算的有关系数。P=E(J-YY(y.-.)()E(y,-y.jGl)(I)52一几八儿)关于固定的群,两个不一致单元离差乘积共有心曾!个组合,因此总体这样的离差乘积有y=中个,因此上式分子为(%f)(%f)i=ljJ2i=l j=lknkn-2WSt因此仆T)(J)SL奠(%-万)(%f)J丫(%)=乎针+(1底证明:由表6.2能够看出,系统抽样能够看作一种特殊的分层抽样,共层,每层均为2个单元(规模相等),从每层固定同一位置各取1个单元作为样本。根据(6.9)J=(-F)2,两边同乘以后I,有k=日心J=挖()、本Kf)Ir=lr三lLy=l=(-)2+2(-)(-)r=lJ=Ir=lj0,
15、系统抽样的精度低于分层抽样系统抽样的精度与各层随机抽%=取一个单位的分层随机抽样相当当p.0;因而需考虑适当的改进抽样方式,使得尽可能满足Pwst0(同一层内两不一致单元离差乘积,累积),因此系统抽样精度要低于分层抽样。SL=Il.5,S2=129.523有:v(ysy)E(ysy4)、生回刃2=9.452Kr=lC2旗)=*n(N-n=2.5161.N)v(加)=二LS2=28.333n例利用上例,将第二层与第四层观察值调换,见表表层IIIIIIIV等距样本编号层均值3.7511.521.87532.25层内方差1234567811617381161836314203431220344112
16、431582430682528772727群均值1817.7517.7517.2517.516.7516.756814.34375能够看出,等距样本内数据对各层均值离差有正有负。造成PM0,因此系统抽样精度要高于分层随机抽样。如今,没有影响v(%)、v(jm)o但等距抽样均值的方差V(%)=E(%一7)2=:力(男一7)2=()-202。Kr=可见系统抽样的效率很大程度上取决于总体的特征。例63/6.4P200见PPT 6 3不一致特征总体的系统抽样6.3.1 随机次序排列第总体系统抽样的方差决定于单元的排列顺序,它是不稳固的,由于不一致的排列顺序会使系统样本内的方差发生变动,得到不一致的抽样
17、方差可能大于相应简单随机抽样的方差,也可能小于相应当简单随机抽样的方差。比如,若总体共有N个基本单元,则总体共有N!种排列方式,其中任何一种固定的排列方式对应的系统抽样其抽样方差可能大于也可能小于简单随机抽样。但从平均意义上讲,系统抽样方差与简单随机抽样方差相等。即ev(%)=v(%)=甯S?,详见文献:杜子芳抽样技术及其应用,P390o因此,能够用简单随机抽样的方差作为系统抽样的方差估计:v(%)=G=曰S2,比如总体按照无关标志排列,能够看作随机排列的,因此系统样本内方差与总体方差相差不大,系统抽样的方差也就接近简单抽样的方差。关于很多客观总体,并不存在或者很难找到与目标变量有关的辅助变量
18、作为排列根据,因此只能借助原先的自然顺序或者按无关变量进行排列,这时就是所谓的随机次序排列。例:某乡村公路两旁种植了20000棵小树,一年后检查小树的成活率。使用系统抽样的方法,先在l100棵树之间随机地抽取一棵树作为起点,然后每隔100棵抽选1棵,一共抽取了200棵树作为样本,发现其中成活174棵,估计成活率的95%的置信区间。解:v=174/200,方差用简单估计量的方差估计H1=0.056266,.1.96XMAJ,82.6%91.74%。6.3.2 线性趋势的总体1线性趋势总体若总体单元按指标从小到大顺序排列或者按某个与其有线性关系的辅助变量的大小顺序排列,如今指标值匕与单元序号,也是
19、线性有关。通常地,关于线性趋势总体,系统抽样优于简单随机抽样,但比分层抽样差。为了说明问题,我们不妨假设其指标变量为简单线性函数。Xj=cl+bi(i=12,N)。做变化得到工=&W,i=l,2,NbN1N1工=N(N+1),邛=LN(N+1)(2N+1),因此:I2I6y=l(7V+l),S2=N(N+1)12,从而:V()=-52=(A:-1)(2V+1)/12;由于每层含有2个单元,每个单元相差1,有个层,因此方差相同,即有:Sj=Z(Z+1)/12,每层抽1个单元,等同于按比例分配样本的分层抽样,旗北泊=(J)/;最后忆(%)=:次-D2=伊-1)/12,比较三者关系有,Rr=lVE)
20、(%)N,则有样本单元都越过单元N,假设越过单元N的样本有个,相应权重如下:12r+(w-l)A-(7V+l)+2首样本单元的权重为吗=;+2斜k),2-l)2=(2,-,2-l)2(616)2)另外一个方法就是利用样本单元之间的连续差的信息来估计方差,即每个单元与下一个单元构成一组,这样个样本单元就有-1个组,第,相邻组的方差为g(y川-必)2,然后将这-1组平均,这样得到3线性总体(假定V=tlO根据前述基本假定:Yi=a+bi+eit弓是相互独立的随机干扰。即可认为总体:a+b,a+2b,a+N%换成整群抽样的写法:a + bQ + ( + l)b.*Q + (r-l) + l/?.Q
21、+ (Z-l)2 + lba + 2hq + ( + 2)Z?.q + (k-1)i + 2/?a + nba + 2nb*a + mb* *a + knb进行首尾校正:y=tjiy.)得到$(12r-k-(12r-k-CY=-+7TVTP7r-2+_777%2n-)k)黑2n-)k)2r-k-2(-I)Z2rk/1(1-)-=抽样方差的估计为:V2 =n 2(h-1)2 k1y(z-2 + 2)6(-2)(6. 14)4样本量为n的系统样本分成ITl个子样本独立抽取in样本量为n的系统样本分成m个子样本独立抽取,每个子样本仍使用系统样本法,样本量为=乌,抽样间距=与=机女。每个样本的随机起点独立抽取。记第二个子样本的均值为,则总体均值估计量为:a1m1J/2P,E,方差为i-?ma=J以上种种误差估计式,各自使用不一致的总体。通常情况下,对随机排列总体,以上各式效果都不错。但简单随机抽样的方差估计K最简单,故为最佳选择。对线性趋势总体,-2、匕的效果较好,%相对更适合较小的样本量。对周期波动的总体,以上效果都不是特别好。假如不熟悉背景,建议使用为、打,相对各类特征总体效果均不错。二、不等概率抽样方差的估计略