解放军文职招聘考试第六章参数值的估计

来源：长理培训发布时间：2017-05-30 11:06:40

第六章参数值的估计
第一节参数估计的一般问题
一、估计量与估计值
    参数估计就是用样本统计量去估计总体参数，如用估计，用S2估计，用p估计等。总体参数可以笼统地用一个符号表示。参数估计中，用来估计总体参数的统计量的名称，称为估计量，用表示，如样本均值、样本比例等就是估计量。用来估计总体参数时计算出来的估计量的具体数值，叫做估计值。
二、点估计与区间估计——参数估计的两种方法
1、点估计
    用样本估计量的值直接作为总体参数的估计量值。
2、区间估计
它是在点估计基础上，给出总体参数估计的一个区间，由此可以衡量点估计值可靠性的度量。这个区间通常是由样本统计量加减抽样误差而得到。以样本均值的区间估计来说明区间估计原理：
根据样本均值的抽样分布可知，重复抽样或无限总体抽样情况下，样本均值的数学期望值等于总体均值，样本均值的标准误差等于，由此可知，样本均值落在总体均值两侧各为一个标准误差范围内的概率为0.6827，两个标准误差范围0.9545，三个标准误差范围0.9973，并可计算出样本均值落在的两侧任何一个标准误差范围内的概率（根据已知的，计算）。但实际估计时，是未知的，因而不再是估计样本均值落在某一范围内的概率，而只能根据已设定的概率计算这个范围的大小。例如：约有95%的样本均值会落在距的两个标准误差范围内，即约有95%的样本均值所构造的两个标准误差的区间会包括。
在区间估计中，由样本统计量所构造的总体参数的估计区间，称为置信区间，区间的最小值为置信下限，最大值为置信上限。例如，抽取了1000个样本，根据每个样本构造一个置信区间，其中有95％的区间包含了真实的总体参数，而5%的没有包括，则称95％为置信水平／置信系数。构造置信区间时，可以用所希望的值作为置信水平，常用的置信水平是90％，95％，99％，见下表：
置信水平  /2 /2
90% 0.10 0.05 1.645
95% 0.05 0.025 1.96
99% 0.01 0.005 2.58
称为显著性水平，表示用置信区间估计的不可靠的概率，1-为置信水平。
如何解释置信区间：如用95%的置信水平得到某班学生考试成绩的置信区间为（60，80），即在多次抽样中有95%的样本得到的区间包含了总体真实平均成绩，（60，80）这个区间有95%的可能性属于这些包括真实平均成绩的区间内的一个。
三、评价点估计量的标准
1、无偏性
估计量抽样分布的数学期望等于被估计的总体参数。
                的抽样分布

        E()=                  E()
       无偏估计量               有偏估计量
已知E()=，E(p)=，E(s2)=，所以，p，s2分别是总体均值，总体比例，总体方差的无偏估计量。
2、有效性
同一总体参数的两个无偏点估计量，标准差越小的估计量越有效。
                      的抽样分布

                            的抽样分布
                                的标准差小，比更有效
3、一致性
随着样本量的增大，点估计值越来越接近总体参数。以样本均值为例，抽样分布时，样本均之抽样分布的标准误差SE=/，样本量越大，SE越小。当n无限大时，样本均值称为总体均值的一致估计量。
第二节一个总体参数的区间估计
一、总体均值的的区间估计
1、大样本的估计方法
当总体服从正态分布且方差已知，或者总体不是正态分布但为大样本时，样本均值的抽样分布均为正态分布，其数学期望值等于总体均值，方差为/n。样本均值经过标准化以后的随即变量服从标准正态分布，
Z=~N(0,1)
对于的双侧置信区间，有P(＜Z)=1-或P(-Z＜Z＜Z)=1-，将统计量Z代入上式，得：P(-Z＜＜Z)=1-，
经整理有P(-＜＜+)=1-
总体均值所在（1-）置信水平下的置信区间为：（公式1），为标准正态分布右侧面积为/2的z值，是估计总体均值时的允许误差。

/ 2 1-=95% /2

        -    0
如果总体为正态分布但方差未知，或总体不服从正态分布，只要大样本条件下，公式2中的总体标准差可用样本标准差代替，     公式2
例1：一家食品厂每天产量8000克左右。每袋产品规定重量100克，企业质检部门为对产品质量进行监测，经常抽检分析每袋重量是否达标。先从某天生产的一批产品中随机抽取25袋，测得25袋平均重量为105.36克。已知产品重量分布呈正态分布，总体标准差为10克。试估计该批产品平均重量在95%的置信水平下的置信区间。
解：已知=10，n=25，置信水平1-=95%，查标准正态分布表得=1.96。
=105.361.96×10/=105.363.92
即该批食品平均重量的95%的置信区间为（101.44，109.28）。
例2：一家保险公司收集到由36个投保人组成的随机样本，36人的平均年龄为39.5岁，标准差为7.77岁。试确立该公司投保人平均年龄90%的置信区间。
解：已知，n=36，s=7.77，1-=90%，=1.645。由于总体方差未知，但为大样本，可用样本方差代替总体方差。
=39.51.645×7.77/=39.52.13
投保人平均年龄的90%的置信区间为（37.37，41.63）。
2、小样本的估计方法
在总体为正态分布的情况下，抽取到小样本时，如果方差已知可以按照公1构造；如果方差未知，则样本均值经过标准化处理后的随机变量不再服从Z分布，而是服从自由度为n-1的t分布，
用s2代替，t=
需要用t分布来构造总体均值的置信区间。
t分布是类似于正态分布的一种对称分布，通常其比正态分布平坦和分散，一个特定的t分布依赖于自由度。随着自由度的增大，t分布逐渐趋于正态分布。
                                 标准正态分布
                                   自由度为20的t分布
                                      自由度为10的t分布
根据t分布建立的总体均值在1-置信水平下的置信区间为：
公式3
tα/2是自由度为n-1时，t分布中右面积为α/2时的t值，可通过查t分布表得。
例3：已知某种灯泡的使用寿命服从正态分布，先从一批灯泡中随机挑出16只，测得平均使用寿命为1490小时，样本标准差为24.77小时，试确定该批灯泡平均寿命95%的置信区间。
解：根据=0.05查表得，tα/2 (n-1)= tα/2 (15)=2.131。
=14902.131×=149013.2
该灯泡平均寿命的95%的置信区间为（1476.8，1503.2）。
不同情况下总体均值的区间估计：
总体分布样本量方差已知方差未知
正态分布大样本（n≥30）
小样本（n＜30）
非正态分布大样本（n≥30）

二、总体比例（二项总体参数P）的区间估计
根据中心极限定理，当大样本时，样本比例分布可近似看作正态分布，p的数学期望等于总体比例，E(p)=π，p的方差等于σ2p=π(1-π)/n。p经过标准化的随机变量服从标准正态分布，z= ~N(0,1)
可得大样本总体比例在1-α置信水平下的区间估计公式：
= 公式4
是总体比例的点估计，是允许误差。
例4：某城市希望了解下岗职工中女性的比例，随机抽取100个下岗职工，其中65人为女性。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。
解：已知n=100，zα/2=1.96，样本女性比例=65%，
==65%1.96×=65%9.35%
该城市下岗职工中女性比例的95%的置信区间是（55.65%，74.35%）。
虽然样本比例p随着样本量增大而近似服从正态分布，但n应该多大才能使其呈正态分布呢？这与样本比例p的取值有关，当p接近0.5时，用较小的样本就可使其服从正态，而当p接近0或1时，则需要大样本。
三、总体方差的区间估计
样本方差服从于自由度为n-1的卡方分布，所以用卡方分布构造总体方差的置信区间。

总体方差在1-α的置信区间

1-α/2 α/2
建立总体方差的置信区间，就是要找到一个值，使其满足
P(1-α/2 ≤ ≤α/2)= 1-α
由于=~（n-1），代入上式，有1-α/2 ≤ ≤α/2，可得总体方差在置信水平下的置信区间为：
≤≤ 公式5
例5：仍以例1为例，如不知道总体方差，抽查25袋食品的方差为93.21克。以95%的置信水平构造该厂食品重量方差的置信区间。
解：根据显著性水平α=0.05，自由度n-1=24，查卡方分布表得，α/2(24)=39.364, 1-α/2(24)= 12.401。总体方差的置信区间为：
≤≤
该厂食品总体重量方差的95%的置信区间为（56.83，180.39）。

第二节   两个参数的区间估计
一、两个总体均值之差的区间估计
1、两个总体均值之差的估计：独立样本
（1）大样本的估计方法
如果两个总体都为正态分布，或者都不是正态分布但都是样本都是大样本（n≥30），则(-)的抽样分布服从于期望值为(μ1-μ2)，方差为σ12/n1+σ22/n2的正态分布。两个样本之差经过标准化后服从标准正态分布。
当两个总体的方差已知，(μ1-μ2)在1-α下的置信区间为：
(-)     公式6
当两个总体的方差未知，(μ1-μ2)在1-α下的置信区间为：
(-)      公式7
例6：某地区教委想估计两所中学的学生高考英语平均成绩之差，现在两所中学独立抽取两个随机样本，见下表。确定两所中学高考英语平均分之差在95%的置信区间。
中学1 n1=46 =86 s1=5.8
中学2 n2=33 =78 S2=7.2
解：(-)=(86-78) 1.96×=82.97
两所中学高考英语平均分之差在95%的置信区间为（5.03，10.97）
（2）小样本估计方法
两个样本都是小样本的情况下，为估计两个总体均值之差，需要作出以下假定：两个总体都服从正态分布；两个总体的方差相等；两个随机样本分别独立地抽自两个总体。
在上述假定下，无论样本量大小，两样本均值之差都服从正态分布，当总体方差已知时，可用公式6计算。
    当两个总体方差未知但相等时，则需要用两个样本的方差来估计，需要将两个样本数据组合在一起，计算联合方差，用sp2表示，公式为：
sp2=，公式8
这样，两个样本均值之差经过标准化后服从自由度为n1+n2-2的t分布。
因此，两总体均值之差在1-α下的置信区间：
(-)   公式9
例7：为了估计两种方法组装产品所需时间的差异，分别对两种不同组装方法各随机安排12名工人，方法1组的工人平均耗时32.5分钟，方差为15.996分钟；方法2组的工人平均耗时28.8分钟，方差为19.358分钟。假定两种方法组装产品的时间服从正态分布，且方差相等。试以95%的置信水平确定两种方法组装产品所需平均时间之差的置信区间。
解：联合方差sp2= = =17.677
根据α=0.05，自由度=12+12-2=22，查t分布表得tα/2(22)=2.074。
(-)
=(32.5-28.8) 2.074=3.73.56
两种方法组装产品所需平均时间之差的95%的置信区间为（0.14，7.26）。
2、两个总体均值之差的估计：匹配样本
两个独立样本存在潜在弊端，如例7当中如果存在样本指定不公平，则会掩盖两种方法的真实差异。对此，可以使用匹配样本，如例7可以选择12个工人先用方法一组装，再用方法二组装，这样得到匹配数据。
使用匹配数据进行估计时，大样本条件下，两个总体均值之差μd=μ1-μ2在1-α置信水平下的置信区间：公式10（表示各差值的均值；表示各差值的标准差；当总体未知时则可用样本表示。）
小样本公式为： (n-1) 公式11
例8：由10名学生组成一个随机样本，让他们分别采用AB两套试卷进行测试，结果如下表所示：试建立两种试卷平均分数之差在95%的置信区间。
学生编号试卷A 试卷B 差值di
1 78 71 7
2 63 44 19
3 72 61 11
4 89 84 5
5 91 74 17
6 49 51 -2
7 68 55 13
8 76 60 16
9 85 77 8
10 55 39 16
解：=∑di/nd=110/10=11，sd==6.53
根据自由度=9，查t分布表得(9)=2.262，
(n-1)=112.262=114.67，得置信区间为（6.33，15.67）
二、两个总体比例之差的区间估计
两个二项总体中抽出两个独立样本，两个样本比例之差的抽样分布呈正态分布。由于两个总体比例π1π2通常是未知的，所以用样本比例p1、p2来代替。因此，根据正态分布建立的两个总体比例之差在1-α下的置信区间为：
(p1-p2)   公式12
例9：针对某个电视节目做收视率调查，在农村随机调查400人，有32%的人收看了该节目；在城市中随机调查500人，有45%的人收看了该节目。试以95%置信水平估计城乡收视率差别的置信区间。
解：城市收视率p1=45%，农村收视率p2=32%。当α=0.05时，=1.96。
(p1-p2)
=(45%-32%)1.96×=13%6.32%
城乡收视率差别的95%的置信区间为(6.68%，19.32%)
三、两个总体方差比的区间估计
如相比较两总体某种特征的稳定性，须进行两总体方差比的区间估计。
两个样本方差比的抽样分布服从的是F(n1-1,n2-1)分布，用F分布来构造两个总体方差比的置信区间。

                        总体方差比在1-α的置信区间

        0    F1-α/2      Fα/2            α/2
构造两个总体方差比的置信区间，就是要找到一个F值，使
P(F1-α/2≤F≤Fα/2)= 1-α，F等于两个卡方值（(n-1)s2/σ2）相除，得F= s12σ22/s22σ12服从F(n1-1,n2-1)（样本较大或者样本量相近情况下(n1-1)/( n2-1)可视为1）。
由此，可推导出两个总体方差比σ12/σ22在1-α下的置信区间为：（）公式13。Fα/2和F1-α/2分别是第一自由度n1-1和第二自由度n2-1的F分布右上侧面积为α/2，1-α/2的分位数，但F表中只给了α/2的F值，则根据下面的关系求出F1-α/2的值。
F1-α/2=1/ Fα/2 公式14
例10：为了研究男女学生在生活费支出上的差异，在某大学随机抽取25位男生和25名女生，得到以下结果：男生=520元，s12=260元；女生=480，s22=280。试以90%的置信水平估计男女学生生活费支出方差比的置信区间。
解：n1=25-1=24，n2=25-1=24。查F分布表得：F0.05(24,24)=1.98
F0.95(24,24)=1/1.98=0.505，   (260/280)/1.98≤≤(260/280)/0.505
即男女生生活费支出方差比在90%的置信区间为（0.47，1.84）。

第三节样本容量的确定
一、估计总体均值时样本量的确定
总体均值的置信区间是由样本均值和允许误差两部分组成的。另E代表希望的允许误差，即E=，推导出样本容量确定公式：n=公式15。对于给定的和总体标准差σ，可以确定任意希望的允许误差所需样本量。如果总体标准差未知，则可用相同或相似样本的标准差代替，也可以试调查一个样本计算标准差来代替。
样本容量和置信水平成正比，与总体方差成正比，和允许误差成反比。
例11：拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元，假定想要估计年薪在95%的置信区间，希望允许误差为400元，应抽取多大样本？
解：已知σ=2000，α=0.05，E=400，
n== =96.04≈97（小数时一律进位成整数，原则是样本量更大）
二、估计总体比例时样本量的确定
在重复抽样或大量抽样下，估计总体比例时置信区间的允许误差为，用E表示，可推导出样本量计算公式：n=公式16
给定一个E值（一般小于0.10）和置信水平，就可确定样本量。样本比例可以根据类似样本比例代替，可以采用试调查办法选一个初始样本计算比例。如果这些方法都无法使用，则取0.5。
例12：根据以往生产统计，某种产品的合格率约为90%，要求允许误差为5%，在求95%的置信区间时，应抽取多少个产品作为样本？
解：已知p=90%，E=5%，=1.96
n===138.3≈139
三、估计两个总体均值之差时样本量的确定
n1=n2=公式17
四、估计两个总体比例之差时样本量的确定
n1=n2= 公式18
例13：一家饮料厂想要估计顾客对一种新产品认知的广告效果。在广告前和广告后个抽取了一个消费者随机样本，询问是否听说过该饮料。如果想以10%的允许误差和95%的置信水平来估计广告前后知道该饮料的消费者比例之差，则应分别抽去多少人？（假定两个样本容量相同）
解：已知Ｅ＝10％，＝1.96。由于比例未知，用0.5。
n1=n2= = ≈193

责编：刘卓

上一篇：解放军文职招聘考试第5章抽样分布

下一篇：解放军文职招聘考试第六章样本及抽样分布

发表评论(共0条评论)