一般提法是: 设有一样本频率p?^x,n为样本容量,x为n次观测中某事件发生的次数。设样本n频率所在二项总体的频率为p,p0为已知的二项总体频率。我们的任务是通过差值p-p0来推断p与p0是否相同,此时 原假设 H0:p?p0 备择假设 H1:p?p0 显然应该进行双侧检验; 当np0和nq0大于30时,选
U?p?p0^?p
作为检验H0的统计量,其中?p?p0(1?p0)为样本频率的标准误。
n当np0和nq0均大于5,而又小于30时,选择统计量(H0成立下)
p?p0?UC?^0.5n?p
来检验H0,其中?p?
p0q0 n3.2 两个样本频率的假设检验 这类问题的一般提法是:
x1^x 设有两个样本频率p1?,p2?2,这里ni为第i个样本的容量,xi为ni次观测或
n1n2^试验中某事件出现的次数(i=1,2),又pi是第i个样本频率pi所在二项总体的频率(i=1,2),现在的任务是通过p1?p2来推断p1和p2是否相同。此时,两个样本的总体方差相等,即?p1??p2
原假设 H0:p1?p2, 备择假设 H1:p1?p2
16
22^^^ 属于双侧检验。
当n1p1,n1q1,n2p2,n2q2均小于30时,需要进行连续性矫正,取
(p1?p2)?(p1?p2)?UC?^^0.50.5?n1n2?
p1?p2^^作为检验统计量(当n1,n2均小于30时,可用TC代替UC作t检验),其中
?p1?p2^^?p1q1p2q2 ?n1n2是两个总体频率p1,p2已知时,两个样本频率差数的标准误。
当两个总体的频率p1,p2未知,而?p1??p2的条件下,可用两个样本频率的加权平均值p作为p1和p2的估计,这时
??x1?x2, q?1?p p?n1?n2?22? 因而两个样本频率差数的标准误为:
?p1?p2???pq(??11?) n1n2在H0成立的条件下
?11??p1?p2?0.5???n1n2???
UC????p1?p2??作为检验H0的统计量,UC近似服从N(0,1)分布。
当n1p1,n1q1,n2p2,n2q2均大于30时,可不进行连续性矫正,这时检验H0的统计量为
UC?p1?p2???
p1?p2??两者均属于U检验。
???例1:调查低洼地小麦378株?n1?,其中有锈病的342株?x1?,锈病率90.50%?p1?;调
??
17
查高坡地小麦396株(n2),其中有锈病的313株(x2),锈病率79%(p2)。试检验两块麦地的锈病率有无显著差异? 解:假设;H0:p1?p2
备择:H1:p1?p2
对水平??0.01,作双侧检验,查标准正态分布表得u??u0.005?2.58,又
2?n1p1,n1q1,n2p2,n2q2均大于30,不作连续性矫正,经计算;
??x1?x2342?313p???0.846, q?1?p?0.154
n1?n2378?396??p1?p2????11?pq???nn???0.026
2??1??统计量的观测值
UC?p1?p2????p1?p2??0.905?0.790?4.423
0.026由于U?u??2.58, 故拒绝H0,即两块麦田的锈病率有极显著差异。
2
4. 参数估计
参数估计是统计推断的主要内容之一,在许多实际工作中,我们往往知道总体的分布类型,但不知道其参数值(如均值,方差等),参数估计就是根据样本观测值来估计总体的未知参数。
参数估计通常分为两类:一是点估计,就是以某个适当的统计量的观测值作为未知参数的估计值;二是区间估计,就是用两个统计量的观测值所确定的区间来估计未知参数的大致范围。
4.1 点估计 用来估计总体参数的样本统计量是很多的,例如可用样本均值X,也可用样本的某些加权平均值
???Xii?1ni (?i为Xi的权值),来估计总体均值?。同样,可用样本方差
18
??1n1n2S?(Xi?X),也可用?2??(Xi?X)2来估计总体方差?2。 ?n?1i?1ni?12
4.1.1 点估计量的求法 求点估计量的方法,常用的有矩估计法和最大似然估计法两种。 (1)矩估计法
矩估计法就是估计量的最古老的方法,其具体做法是:以样本矩去估计总体响应的矩,以样本矩的函数去估计总体矩的函数。
设总体X的分布函数为F(x;?1,?2,...,?r),其中?1,?2,...?,r为未知参数,而
(X1,X2,...X,n)为抽自总体X的样本。由大数定律可知,对任给定??0,总有,
?1nk?klim?X?E(X)????1 (k?1,2,...,r) ?in???ni?1?故当n较大时,有近似式
1n??E(X)?n?Xii?1?1n22??E(X)??Xi ?ni?1???1nrr?E(X)??Xi?ni?1?注意到,总体X的各阶原点矩E(X),E(X),...,E(X)与X的分布有关,是参数?1,?2,...,?r的函数。如X服从正态分布N(?,?),则E(X)??,而E(X)????,因此上式实际上是关于?1,?2,...,?r的r元联立方程组,设其解为?1,?2,...,?r,显然,这些解是样本
^^^2r2222X1,X2,...,Xn的函数。
若用?1,?2,...,?r作为?1,?2,...,?r的估计量,这种估计量称为矩估计量,这种求估计量的方法叫矩估计法。矩估计法的优点在于并不需要知道总体的分布形式,适用范围广,然而,当总体的分布类型已知时,如果我们仍用矩估计法,那将浪费很多已知的信息,显然是不可取的。
例1:设总体X服从参数为?的指数分布,其分布密度为
19
^^^??e??x,f(x;?)???0,x?0 x?0其中??0,样本为X1,X2,...,Xn,试求?的矩估计量。 解:因为E(X)?1?,由矩估计法,令
1n??Xi ?ni?11解得?的矩估计量
???n?Xi?1n?inX?
例2: 设总体X服从正态分布N(?,?),X1,X2,...,Xn为抽自总体X的样本,试求未知参数?和?的矩估计量。
解:对于正态总体N(?,?2),E(X)??,而
22E(X2)?D(X)??E(X)???2??2
2由矩估计法有
1n????Xi??ni?1 ?n1??2??2??Xi2?ni?1?解上述方程组得到?和?的矩估计量为
?1n???Xi?X
ni?1?2?11n?1?2???Xi???Xi???(Xi?X)2
ni?1ni?1?ni?1?2?nn2
(2)最大似然估计法
最大似然估计法的优点是充分利用了分布类型已知的条件,所得估计量一般都具有较优
20