当前位置: 首页 > >

应用统计学:经济与管理中的数据分析5

发布时间:

第五章 参数估计 (Parameter Estimation)
? 参数估计概述 ? 点估计 ? 一个总体参数的区间估计 ? 两个总体参数的区间估计 ? 样本容量的确定

§5.1 参数估计概述
? ? ? ? 参数估计的基本概念 点估计的基本概念 区间估计的基本概念 置信区间的性质

一、参数估计的基本概念
总体X的参 数θ未知
用样本统计量对总 体参数θ进行估计 ? ?? ?( x , x ,?, x ) ?
1 2 n

从总体X中随机抽取一 个样本 X 1 , X 2 ,?, X n

计算样本统计量 ?( x , x ,?, x ) ?
1 2 n

? 参数估计:以样本统计量作为未知总体参数 的估计量,并通过对样本单位的实际观察取 得样本数据,计算样本统计量的取值作为被 估计参数的估计值。
5-3

二、点估计的基本概念
? 点估计(point estimation):在估计中 直接用样本统计量作为相应总体参数的 估计量的方法。
? ?? ?( x , x ,?, x ) ? 1 2 n

随机变量

例 如

1 n ??? ? ( x1 , x 2 , ? , x n ) ? ? xi ? x ? n i ?1
2 ( x ? x ) ? i i ?1 n

? ?? ? ( x1 , x 2 , ? , x n ) ? ?

n ?1

?s
5-4

三、区间估计的基本概念
? 区间估计(interval estimation):根据给定 的置信度要求,给出总体参数被估计的上限 与下限的估计方法。 ? 一般来说,对于被估计的总体参数?,找出样 本的两个估计量 ??1和 ??2 (其中 ??2 ? ??1 ),有
? ?? ?? ? ) ? 1?? P(? 1 2 (0 ? ? ? 1)
随机区间

? 则称区间 (??1 ,??2 ) 为总体参数的估计区间, ??1 为 估计下限, ??2 为估计上限, 1-α为估计置信度 ,α为显著性水*。
5-5

P x?? ??

f ( x)

? ( x) ? ? ( x)

? ? ? P?x ? ? ? ? ? x ? ??
? P ? ?? ? x ? ? ?? ? 1??

?

?

置信水* 1-α

? ??

?

???
x1 ? ? x3

x

x1 ? ? x1 x2 ? ? x 2 x2 ? ?
x3 ? ?

x3 ? ?
5-6

构造若干个区间估计的示意图

四、置信区间的性质
? (1)抽取所有可能的样本,构造的所有可能的区间 ? ,? ? ) ,其中:有95%的区间包含参数真值,5% ? (? 1 2 的区间不包含参数真值,该区间称为置信水*为95%的 置信区间。 ? (2)只抽取一个样本,得到一个区间,总体参数落在 ? ,? ? )的概率为95%。 置信区间 (? 1 2 ? 置信区间(Confidence Interval) :用来估计总体参数的取 值范围。 〔统计量±概率度×抽样*均误差〕 ? 置信水*(confidence level):区间估计的可靠度,用 1-α表示 。 ? 显著性水*(significance level):区间估计的不可靠 度,用α 表示。
5-7

? (1)置信区间的长度 ? 短的置信区间能比长的置信区间提供更多的有 关总体的信息。 ? (2)样本容量对置信区间的影响 ? 大样本(包含总体的信息多)产生较短的置信 区间,而小样本产生较大的置信区间。 ? 因为,抽样误差与样本容量成反比。 ? (3)置信水*对置信区间的影响 ? 低的置信水*(如90%)产生较短的置信区间 ,高的置信水*(如99%)产生较长的置信区 间。 ? 但90%的置信水*不如99%那么让人感觉可靠
5-8

? 采用简单随机抽样,对总体比率进行参数估计, 置信水*、抽样误差、样本容量三者之间的关系 。
需要的最小样本容量
90% 6806 1702 756 425 272 189 139 95% 9604 2401 1067 600 384 267 196
1?? ?

99% 16641 4160 1849 1040 666 462 340

n?

z? 2 p (1 ? p )
2

1% 2% 3% 4% 5% 6% 7%

?2 p ? 50%

? 选择n=1200,置信水*95%,抽样误差小于3%。
5-9

§5.2 点估计
? 矩估计法 ? 极大似然估计法 ? 点估计的优良性准则

?

定义:变量x对常数a的“k阶矩”为
? k ? ? ( xi ? a) k n
i ?1 n

?
? ? ?

(1)原点矩 ? k ? ? xik
i ?1

n

n

任何分布的一阶原点矩就是分布的期望值。 (2)中心矩 取 a ? x ,得到变量关于分布中心 x 的k阶矩,即“k 阶中心矩” n ck ? ? ( xi ? x) k n
i ?1

?

任何分布的一阶中心矩总是为零,二阶中心矩就是分 布的方差。
5-11

一、矩估计法
?

? ?

基本思想:样本来自于总体,样本矩在一定程 度上反映了总体矩。由大数定理可知,样本矩 依概率收敛于总体矩。因此,只要总体X的k阶 原点矩存在,就可以用样本矩作为总体矩的估 计量,样本矩的函数作为总体矩的函数的估计 量。 优点:矩估计法简单、直观,而且不必知道总 体的分布类型,得到广泛应用。 局限性:要求总体的k阶原点矩存在,否则无法 估计,它不考虑总体的分布类型,因此,没有 充分利用总体分布函数提供的信息。
5-12

?

矩估计法的步骤:

? ?

① 确定要估计的总体参数,设有m个待估参数。 ② 列出矩与参数的关系式。有m个待估参数,计算 1~m阶原点矩。

? k ? E( X k )
?

k ? 1,2,? , m

利用m个等式( ?1 , ? 2 ,?, ? m ) ,解关于(?1 ,? 2 ,?,? m )的方 程,得到 ? i ? f i (?1 , ?2 ,?, ?m ), i ? 1,2,?, m 1 n k ? ③ 用样本的k阶原点矩 ? k ? ? xi 代入上式中 ,得 n i ?1 ? ? i 到 的估计值 。 ? i

5-13

?

2 N ( ? , ? ) 例:设X1,X2,…,Xn是抽自正态总体 的随机样本, 2 估计总体参数μ和 ? 。 2 解:① 确定待估的总体参数μ和 ? 。 ② 总体的一阶原点矩和二阶原点矩分别为

??1 ? ? ? ? ? E ( x 2 ) ? E[( x ? ? ) ? ? ]2 ? 2 2 2 2 2 ? ? E ( x ? ? ) ? 2 ? E ( x ? ? ) ? ? ? ? ? ? ?
? ? ? ?1 ,

? 2 ? ? 2 ? ?12

③ 用样本原点矩代入,有 1 n 1 n 2 ?1 ? ? xi , ? 2 ? ? xi n i ?1 n i ?1 2 1 n 1 n 2 1 n 2 ? ? ? xi ? x, ? ? ? ? xi ? x ? ? ( xi ? x) 2 得到: ? n i ?1 n i ?1 n i ?1

5-14

二、极大似然估计法 (maximum likelihood estimation)
?

?

基本思想:假设总体的分布形式已知,只是 ?i 不知道总体分布的某个(或某些)参数 。 抽样得到一组样本值,根据样本与总体的关 系,找出使样本值出现的可能性最大的那个 ??i 参数估计值 ,则这个估计值就是待估参数 的极大似然估计值。 由于样本来自总体,样本应能很好地反映总 体的特征,能够使样本观测值出现可能性最 大的参数估计值自然是比较接*总体真实参 数值的估计值。
5-15

?

?

例:某企业收到供应商提供的一批货物,根 据以往的经验,该供应商产品的不合格率为 10%,而供应商声称这批产品的不合格品率 为5%。若从中随机抽取10件检验,结果有4 件不合格品。 记X为不合格品数,有X~B(n,p)。

p ? 0.05,

4 P( X ? 4) ? C10 0.0540.956 ? 0.001

p ? 0.1,
?

4 P( X ? 4) ? C10 0.140.96 ? 0.0112

显然,不合格品率为10%时,样本值出现的 可能性大,选择p=10%作为总体不合格品率 较合适。
5-16

?

设X1,X2,…,Xn是抽自概率密度为f ( x,? ) 的一个简 单随机样本,则 X1,X2,…,Xn 的联合概率密度为
f ( x1 ,? ) f ( x2 ,? )? f ( xn ,? )

将一组样本观测值x1,x2,…,xn视为常量,待估参 数θ视为变量,有θ的似然函数
L(? ; x1 , x2 ,?, xn ) ? ? f ( xi ,? )
i ?1 n

?

求似然函数的最大值点?? 作为θ的估计量。
? ? L(? ; x1 , x2 ,?, xn ) ? 0, 或 ln[ L(? ; x1 , x2 ,?, xn )] ? 0 ?? ??
5-17

?

?

例:设X1,X2,…,Xn是抽自正态总体N ( ? , ? 2 ) 的随 ? 2 的极大似然估计。 机样本,求总体参数μ和 解:正态分布函数的似然函数为
L( ? ,? 2 ; x1 , x2 ,? , xn ) ? ? f ( ? ,? 2 ; xi )
i ?1 n

1 ? ?( e 2? ? i ?1

n

?

( xi ? ? )2 2? 2

1 )?( )n e 2? ?

?

1 2?
2

?( xi ? ? )2
i ?1

n

n n 1 n 2 ln L ? ? ln( 2? ) ? ln ? ? 2 ? ( xi ? ? ) 2 2 2 2? i ?1 ? 分别求关于μ和 ? 2 的偏导数,解似然方程组:
1 n ? ? ? xi ? x, ? n i ?1
2 1 n 2 1 n ? ? ? xi ? x ? ? ( xi ? x) 2 ? n i ?1 n i ?1 2

5-18

? 1 ,a ? x ? b ? 均匀分布 f ( x; a, b) ? ? ?b ? a ? ? 0, x ? b, x ? a

?

矩估计法

? ? ? x? ?a ? ? ?b ?? x? ? ?

3 n 2 ( x ? x ) ? i n i ?1 3 n 2 ( x ? x ) ? i n i ?1

?

? ? min {xi } a 极大似然估计法 ? ? 1?i ? n ?? b ? max {xi } ? 1?i ? n ?
5-19

三、点估计的优良性准则
? 均方误差(Mean Square Error, MSE )反映了估计 量?? 和实际参数θ的差异之大小。
? ?? )2 MSE ? E (? ? ? E (? ?) ? E (? ? ) ? ? ]2 ? E[?

? ? E (? ?)]2 ? E[ E (? ? ) ? ? ]2 ? E[? ?) ? [ E (? ? ) ? ? ]2 ? D(?
? 的方差,表示估计量的精度; ? ① D(??是估计量 ) ? 2 ? [ E ( ? ) ? ? ] ? ② 是估计量期望值与其参数之间偏差的 *方,表示估计量估计的准确程度。

5-20

? 无偏性(Unbiasedness) :样本统计量的期望 值(*均数)等于被估计的总体参数。 ? 如果参数θ的估计量 ?? 满足
?) ?? E (?

? 则称 ?? 是θ满足无偏性准则的估计量。
无偏估计 Unbiased

?) f (?

?) f (?
有偏估计 Biased 偏差

θ ?) ? ? E (?

θ

?) E (? ?) ? ? E (?

5-21

?1 n ? E s ? E ? ? ( xi ? x )2 ? ? n i ?1 ? 2 ? 1 ? ?n ? ? E ?? ? xi ? ? ? ? x ? ? ? n ? ? ? i ?1 ? n 2? 1 ?n 2 ? E ?? ? xi ? ? ? ? 2? ? xi ? ? ? x ? ? ? n x ? ? ? n ? i ?1 i ?1 ? 2 2? 1? n 2 ? ?? E ? xi ? ? ? ? 2nE x ? ? ? nE x ? ? ? n ? i ?1 ?

? ?
2 n

?

?

??

?

? ?

?

?

?

?

?

2? 1? n 1 ? 2 ? ? 2 ?? n ? 1 2 2 ? ? ?? E ? xi ? ? ? ? nE x ? ? ? ? ?n? ? n? ? ?? ? ? n ? i ?1 n ? n? ? n ?? 2 所以 E ( sn ) ??2

?

?

Es

? ?
2 n ?1

2? ? 1 n ? E? x ? x ? i ? n ? 1 i ?1 ? ? 1 ? 2 ? ? 2 ?? 2 ? ? ? n ? ? n ? ? ? ? n ?? n ?1 ? ? ??

?

?

5-22

? 有效性(Efficiency) :作为优良估计量(满 足无偏性条件下)的方差应该比其他估计量的 方差小。 ? 定义:设 ??1 ,??2为θ的两个无偏估计量,若
? ) ? D(? ?) D(? 1 2

? 则称 ??1是较 ??2有效的估计量(相对有效性)。
?) f (? 1
?) f (? 2
? ) ? E (? ? ) ?? E (? 1 2 ? ) ? D(? ? ) D(?
1 2

θ

5-23

? 可以证明:样本均值、样本方差和样本比率分 别是总体均值、总体方差和总体比率的无偏估 计量、最小方差无偏估计量、一致估计量。
x ? ? xi n
i ?1 n

s 2 ? ? ( xi ? x) 2 (n ? 1)
i ?1

n

y i ?1 i ?? ? , p n n

?x

n

?1 xi ? ? ?0

具有某种特征 不具有某种特征
5-24

? 一致性( Consistency ) :当样本容量充分大 时,样本统计量充分靠*总体参数。 ? 当样本容量n无限增大时,样本统计量和总体 参数之间的绝对离差为任意小的可能性也趋 于必然性。即

? ?? ? ? ) ? 1 lim P( ?
n ??

ε为任意小正数

称 ?? 为θ的一致估计量。

5-25

§5.3 一个总体参数的区间估计
? 总体均值的区间估计 ? 总体比率的区间估计 ? 正态总体方差的区间估计

一、总体均值的估计
? (1)正态总体,总体方差 ? 2已知
? (或总体非正态,大样本n>30时,根据中心极限定理)

? 定理:总体 X~N ( ? , ? 2 ),抽自该总体的简单随机样 本 X 1 , X 2 ,?, X n ,则 x~N ( ? , ? 2 n) 。 ? 总体方差 ? 2已知时,建立z统计量
x?? z? ~ N (0,1) ? n
?( z )
? 2
? z? 2 0

? 2
z? 2

? 给定显著性水*α,得到 ? ? x?? ? ? P ?? z? 2 ? ? z? 2 ? ? 1 ? ? ? n ? ? ? ?

z

5-27

? 总体均值μ的1-α的置信区间
? ? ? ? , x ? z? 2 ? x ? z? 2 ? n n? ?

? 其中 z? 2 为z分布的临界值。

? (2)正态总体,总体方差 ? 2 未知(大样本n≥30) ? 大样本时,σ2≈s2,建立z统计量 x??
z? s n ~ N (0,1)

? 总体均值μ的1-α的置信区间
s s ? ? , x ? z? 2 ? x ? z? 2 ? n n ? ?
5-28

? (3)正态总体,总体方差 ? 2未知(小样本n<30) ? 建立t统计量 t ( df ) x??
t? s n ~ t( n ? 1 )
? 2
0

? 2
t? 2 ( df )
t

? 给定显著性水*α,得到 ? x?? ?
P ??t? 2 (n ? 1) ? s ? ?

? t? 2 ( df ) ? ? ? t? 2 (n ? 1) ? ? 1 ? ? n ? ?

? 总体均值μ的1-α的置信区间
s s ? ? , x ? t? 2 (n ? 1) ? x ? t? 2 (n ? 1) ? n n? ?

? 其中 t? 2 (n ? 1)为t分布的临界值,可根据自由度 df=n-1和α/2的值,通过查t分布获得。
5-29

? 例:某公司的生产主管对可用于培训企业从事机器维修 保养工的计算机辅助程序感兴趣,希望了解这种计算机 辅助方法能缩短多少培训雇员的时间。 ? 假定管理者同意随机抽取15名雇员用这种方法培训,样 本中每一位雇员所需培训天数如下:52、44、55、44、 45、59、50、54、62、46、54、58、60、62、63。 总体方差未知,置信水*95%。 ? 解: n ? 15, x ? 53.87(天) , s ? 6.82(天)

t0.025 (14) ? 2.145 ? 假设培训时间为正态分布,

小样本

6.82 x ? 2.145 ? ? 53.87 ? 3.78 15 ? 培训时间总体均值95%的置信区间为(50.09,57.65) 天,抽样误差为3.78天。
5-30

? ?

(4)单侧置信区间 有时,我们只关心总体参数的“下限”或“上 限”。

单侧置信下 限情况

单侧置信上 限情况

5-31

?

例:对某型号飞机的最大飞行速度进行了15次试验, 测得样本的*均最大飞行速度 x ? 425.0(米 / 秒) ,样 s 2 ? 72.049 本方差 ,根据长期经验可以认为最大飞行 速度服从正态分布,试求飞机*均最大飞行速度不低 于多少?(α=0.05)

?

解:n=15,小样本,统计量为
设μ的95%的置信下限为μ1

x?? ~ t (n ? 1) s n

?

s ?1 ? x ? t0.05 (n ? 1) ? n

P{? ? ?1} ? 1 ? ?

?

有95%的把握认为飞机的*均最大飞行速度不低于 421.1米/秒。
5-32

? 425.0 ? 1.7613 ? 8.488 15 ? 421.1

总体 方差

总体 分布 正态 总体 非正态 总体

样本容量 大样本 (n≥30) 小样本 (n<30) 大样本 (n≥30) 大样本 (n≥30)

双侧置信区间

上单侧置信区间

下单侧置信区间

?2
已知

x ? z? / 2

? n

? ? ? ? ??, x ? z? ? n? ?

? ? ? ,?? ? x-z? n ? ?

x ? z? / 2

?2
未知

正态 总体

s n

s ? ? ?? , x ? z ? ? ? n? ?

s ? ? x - z , ? ? ? ? n ? ?
? ? s ,? ? ? x-t? ( n ? 1 ) ? n ? ?

s 小样本 x ? t? / 2 (n ? 1) (n<30) n
大样本 (n≥30)

? s ? ? ? ? ? , x ? t? ( n ? 1 ) ? n? ?
s ? ? ?? , x ? z ? ? ? n? ?

非正态 总体

x ? z? / 2

s n

s ? ? x - z , ? ? ? ? n ? ?

5-33

二、总体比率的区间估计
? 总体比率:具有某种特征的单位数占总体全 部单位数的比例。 ? 从总体中抽取容量为n的样本,然后计算样 ? 作为总体比率p的点估计值。 本比率 p y ? ? 的数学期望和方差 ? 样本比率随机变量 p n 有
?) ? p E( p

? 即样本比率是总体比率的无偏估计
p(1 ? p) ?) ? D( p n
5-34

? 根据中心极限定理,在np>5,n(1-p)>5的条件下, 可以把二项分布问题转换为正态分布问题*似求 解,有 ? p(1 ? p) ?
? ~N ? p, p ? n ? ?

? 构造p置信区间的z统计量
z? ? p? p ~N ( 0,1 ) p( 1 ? p ) n

? 或50%代替分母的 ? 一般用初始样本的样本比例 p 总体比率p。 ? 显著性水*为α的置信区间为

? ? (1 ? p ?) ? (1 ? p ?) ? p p ? ? z? 2 ? ? z? 2 ,p ?p ? n n ? ?

5-35

? 例:雇员培训计划问题,在培训结束后,雇员在标 准考试的得分度量了该培训计划的成功程度。从实 验中,公司发现通过该测试的个人在工作中具有更 多的机会取得很高的业绩。管理者决定基于雇员通 过测试的比率来评估培训方法的质量。假设在由55 名雇员组成的随机样本中有44人通过了测试。 ? 解:总体中通过测试的雇员所占比率的点估计为 ? ? 44 55 ? 0.80 ,满足np>5,n(1-p)>5 p ? 1-α=95%, z0.025 ? 1.96 ? 则总体比率的区间估计为
0.8(1 ? 0.8) 0.8 ? 1.96 ? 0.8 ? 0.106 ? (0.694,0.906) 55

? 于是,管理者有95%的把握认为总体通过测试的比 率为69.4%~90.6%之间,抽样误差为10.6%。
5-36

三、正态总体方差的区间估计
? 若 X~N (? , ? 2 ) ,抽自该总体的简单随机样本 ,则有统计量 X 1 , X 2 ,?, X n
(n ? 1) s 2
? 2 (df )

?

2

~? 2 (n ? 1)

? 2

? 2

? 给定显著性水*α,有

?2
?12?? 2 (df )
2 ?? 2 ( df )

? 2 ? (n ? 1) s 2 2 P ? ? 1?? 2 (n ? 1) ? ? ? ? 2 (n ? 1) ? ? 1 ? ? 2 ? ? ?
2 ? ? 则 的置信区间

? (n ? 1) s 2 (n ? 1) s 2 ? , 2 ? 2 ? ? ? ? ? 2 (n ? 1) ? 1?? 2 (n ? 1) ? ?

5-37

? 例:一个向容器中灌装液体洗涤剂产品的生产过程。 该过程的灌装机制严格地校正至*均每个容器中灌装 量为16盎司。但灌装量的方差也是很关键的。抽取一 个样本,得到每个容器灌装量的样本方差作为对整个 生产过程总体方差的一个估计。如果总体方差是适度 的,生产过程可以继续;如果总体方差过大,即使均 值可能恰好是16盎司,过度灌装或灌装不足仍可能会 发生,灌装机*坏髡约跎偃萜鞯墓嘧胺讲睢 ? 解:设抽取了20个容器组成一个样本并且求得灌装量 的样本方差s2=0.0025,我们考虑对总体方差的区间估 计。 ? ? 0.05, ? 20.025 (19) ? 35.8523, ? 20.975 (19) ? 8.90655
19 ? 0.0025 19 ? 0.0025 2 ?? ? 32.8523 8.90655

? 总体标准差的95%的置信区间为

0.0374盎司 ? ? ? 0.0728盎司

5-38

§5.4 两个总体参数的区间估计
? 两个总体均值之差的估计:独立样本

? 两个总体均值之差的估计:配对样本
? 两个总体比率之差的估计:独立样本 ? 两个总体方差之比的估计:独立样本

( ?1 ? ? 2 ) 置信区间

2 ? ? ? 12 ? 2 ? ?( x1 ? x 2 ) ? z? 2 ? n1 n2 ? ? ? ?

2 ? (2)两个正态总体,总体方差 ? 12 , ? 2 未知

? (两个大样本n1≥30, n2≥ 30 )
z? ( x1 ? x 2 ) ? ( ?1 ? ? 2 ) ~N (0,1) 2 ( s12 n1 ) ? ( s2 n2 )
2 ? ? s12 s2 ? ? ?( x1 ? x 2 ) ? z? 2 n1 n2 ? ? ? ?

( ?1 ? ? 2 ) 置信区间

5-40

一、两个总体均值之差的估计:独立样本
? (1)两个正态总体,总体方差 ? 12 , ? 22 已知 ? (或总体非正态,两个大样本n1≥30, n2≥ 30)
x1~N ( ?1 ,

? 12
n1

),

x 2~N ( ? 2 ,

2 ?2

n2

)

? 由独立性可知 x1和 x 2 相互独立,且有

?

2 ? ? ? 12 ? 2 x1 ? x 2 ~ N ? ? ?1 ? ? 2 , n ? n ? ? 1 2 ? ?

?

z?

( x1 ? x 2 ) ? ( ?1 ? ? 2 ) (?
2 1

n1 ) ? (?

2 2

n2 )

~N (0,1)
5-41

2 2 ? ? ? ? (3)两个正态总体,总体方差未知但 1 2

? (两个小样本n1<30, n2<30 )
2 ? 当 ? 12 ? ? 22 时,首先要求出它们的合并方差 ?( pooled variance)的一个估计量 s 2 p ,即
2 (n1 ? 1) s12 ? (n2 ? 1) s2 s ? n1 ? n2 ? 2 2 p

? 建立t统计量,自由度 df=n1+n2-2。
t?
( ?1 ? ? 2 ) 置信区间

( x1 ? x 2 ) ? ( ?1 ? ? 2 ) ( s n1 ) ? ( s n2 )
2 p 2 p

~t (df )

? 1 1? ? ? ?( x1 ? x 2 ) ? t? 2 (df ) ? s p n1 n2 ? ?
5-42

? (4)两个正态总体,总体方差未知但 ? 12 ? ? 22
? (两个小样本n1<30, n2<30 )

? 当 ? 12 ? ? 22时,采用自由度的修正值,即
2 [( s12 n1 ) ? ( s2 n2 )]2 ?? 2 2 ( s1 n1 ) 2 ( s2 n2 ) 2 ? n1 ? 1 n2 ? 1

t?

( x1 ? x 2 ) ? ( ?1 ? ?2 ) s s ? n1 n2
2 1 2 2

~t (? )

( ?1 ? ? 2 ) 置信区间

2 ? ? s12 s2 ? ? ?( x1 ? x 2 ) ? t? 2 (? ) ? n1 n2 ? ? ? ?

5-43

? 讨论: ? (1)若(μ1-μ2 )置信区间的下限大于零 ,在实际中我们就认为μ1>μ2 ; ? (2)若(μ1-μ2 )置信区间的上限小于零 ,则我们就认为μ1<μ2 ; ? (3)若(μ1-μ2)置信区间包含零,
x1 ? 若μ1与μ2 的差异不显著,则 与 完全有可能是随机因素引起的。

x的差异 2

? 若μ1与μ2 存在显著差异,而我们没有测量出 来,则增加n1与n2 ,可以减少抽样误差。
5-44

? 例:某银行的两个支行的客户支票余额的独立随机样 本资料如下:α=0.10 ? 支行名称 支票帐户数 x1 ? 1000美元 s1 ? 150美元 ? 甲 12 ? 乙 10 x 2 ? 920美元 s2 ? 120美元 ? 假设两个支行的客户支票余额都服从正态分布且方差 相等。则总体方差的合并估计量为: ? 解: 2 2 ( n ? 1 ) s ? ( n ? 1 ) s 1 1 1 1 2 2 s2 ? ? 18855 sp ? ? 58.79 p n1 ? n2 ? 2 n1 n2

t0.05 (12 ? 10 ? 2) ? t0.05 (20) ? 1.725
? 置信区间为 (1000 ? 920) ? 1.725 ? 58.79 ? (?21.41,181.41) ? 我们没有足够的证据得出两个支行的总体*均帐户余 额有差异的结论。
5-45

二、两个总体均值之差的估计:配对样本
? 在实际生活中,常常要比较成对数据,例如 比较两种处理,如药物、饮食、材料、管理 方法等。有时要同时比较,有时要比较处理 前后的区别。 ? 在配对样本方案中,假定:① 每一对数据或 者来自同一个或比较类似的对象;② 对和对 之间是相互独立的。两种方法是在相似条件 下被检验的,所以该方案往往产生比独立样 本方案更小的抽样误差,因为抽样误差来源 之一的个体之间的差别被消除了。
5-46

? 两个总体均值之差 ?d ? ?1 ? ?2 的置信区间 ? (1)大样本条件

d ? z? 2

?d
n

? 式中,d为两个配对样本对应数据的差值; d 为各差值的均值;σd表示各差值的标准差。 当总体的σd未知时,可用样本差值的标准差 sd代替。 ? (2)小样本条件

sd d ? t? 2 (n ? 1) n
5-47

? 例: 由10名学生组成的一个随机样本,让他们分别采 用A和B两套试卷进行《统计学》课程考试,结果下表 。假定两套试卷分数之差服从正态分布,试建立两套试 卷*均分数之差的95%的置信区间。
学生编号 1 2 3 4 5 6 7 8 9 10 试卷A 78 63 72 89 91 49 68 76 85 55 试卷B 71 44 61 84 74 51 55 60 77 39 差值d 7 19 11 5 17 -2 13 16 8 16

解: d ? xA ? xB

d ? ? di n ? 11
sd ?
2 ( d ? d ) (n ? 1) ? 6.53 ? i

学生用A试卷进行测试,* 均考试成绩高于用B试卷。

sd d ? t? 2 (n ? 1) n 6.53 ? 11 ? 2.2622 ? 10 ? 11 ? 4.67 ? ? 6.33,15.67 ?

5-48

三、两个总体比率之差的估计:独立样本
? 设两个总体比率分别为p1,p2,为估计p1-p2 , 分别从两个总体中各随机抽取容量为n1,n2的两 ?1 , p ?2 。 个随机样本,并计算两个样本比率 p ? 可以证明: 当n1p1>5,n1(1-p1)>5和 n2p2>5, ?1 ? p ? 2 的抽样分布*似服 p n2(1-p2)>5条件满足时, 从正态分布,且
? p1 (1 ? p1 ) p2 (1 ? p2 ) ? ? ? ? p1 ? p2 ? ~ N ? p1 ? p2 , ? ? n n 1 2 ? ?

5-49

? 构造(p1-p2)置信区间的z统计量
z? (? p1 ? ? p2 ) ? ( p1 ? p2 ) ~N (0,1) p1 (1 ? p1 ) p2 (1 ? p2 ) ? n1 n2

?1 , p ? 2 代替计算分母 ? 由于p1,p2均未知,用 p ? ( p1-p2)的置信度为1-α的*似置信区间为
? ?1 (1 ? p ?1 ) p ? 2 (1 ? p ?2 ) ? p ?1 ? p ? 2 ) ? z? 2 ? ?( p ? n1 n2 ? ?

5-50

?

? ?

例:组织行为学的理论学家们多年来深入研究的课题 之一:道德管理决策。例如,研究男、女管理人员在 道德观念方面的差异性。 《例解商务统计学》,P305,例8.22 解:女经理:p1;男经理:p2

?1 ? y1 n1 ? 48 50 ? 0.96 p ?1 ? p ? 2 ? 0.96 ? 0.60 ? 0.36 p ? 2 ? y2 n2 ? 30 50 ? 0.60 p
? ? p1 (1 ? ? p1 ) ? p2 (1 ? ? p2 ) ? ??? ? ? ? p ? p ? z ? 1 2 ? 2 ? ? n n 1 2 ? ? ? 0.96 ? 0.04 0.60 ? 0.40 ? ? ?? 0 . 36 ? 1 . 96 ? ? ? ? 50 50 ? ? ? ?0.36 ? 0.146? ? ?0.214,0.506?

表明:95%把握认 为隐瞒工作中的错 误是不道德行为的 女经理比男经理多 21%~51%。
5-51

四、两个总体方差之比的估计:独立样本
2 2 2 2 ? , ? X ~ N ( ? , ? ), X ~ N ( ? , ? ) ? 两个正态总体 1 2 1 1 2 2 2 , 1

均未知,从两个总体中独立地各抽取一个简单 2 随机样本,样本方差分别为 s12 , s2 ,且相互独 2 2 ? ? 立,对总体方差之比 1 2 作出区间估计。
(n1 ? 1) s12

? 12

~?12 (n1 ? 1)
(n2 ? 1) ? (n1 ? 1)

2 (n2 ? 1) s2 2 ?2

2 ~? 2 (n2 ? 1)

2 (n2 ? 1) s2

F?

?

2 2 2 1

2 ? 12 ? 2

(n1 ? 1) s

s s

? 12

2 1

2 2

~F (n2 ? 1, n1 ? 1)

5-52

? 给定显著性水*α,有
? s12 ? 12 s12 ? P?F1?? 2 (n2 ? 1, n1 ? 1) ? 2 ? 2 ? F? 2 (n2 ? 1, n1 ? 1) ? 2 ? ? 1 ? ? s2 ? 2 s2 ? ?
F ( n1 , n2 )

2 ? ? 12 ? 2 的置信区间

? 2
F1?? 2 ( n1 , n2 )

? 2
F? 2 ( n1 , n2 )
F

2 2 2 2 ? ? F ( n ? 1, n ? 1) ? s s , F ( n ? 1, n ? 1) ? s s 1 1 2 ?2 2 1 1 2? ? 1?? 2 2

? 注:对于对称的z分布和t分布,(双侧)对称 2 的置信区间距离最短;而对于非对称的 ? 分 布和F分布,对称的置信区间非最短。
5-53

?

讨论:

?
? ?

(1)若 ? 12 ? 22 置信区间的下限大于1,在实际 2 2 ? ? ? 中我们就认为 1 2 ;
(2)若 ? 12 ? 22 置信区间的上限小于1,则我们 就认为 ? 12 ? ? 22 ; (3)若 ? 12 ? 22 置信区间包含1,

2 2 2 2 ? ? ? 若 1 与 2 的差异不显著,则 s1 和 s 2 的差异完

全有可能是随机因素引起的。

?

若 ? 12 与 ? 22 存在显著差异,而我们没有测量出 来,则增加n1与n2 ,可以减少抽样误差。
5-54

2 2 ? 例: 两种不同型号的电阻分别服从 N (?1 , ?1 )和 N (?2 , ? 2 ) 的正态 n1 ? 25 和 n2 ? 15 的两个独 总体,参数未知。依次抽取容量为 2 2 s s ? 6.38 立的样本,测得阻值样本方差为 1 和 2 ? 5.15 ,试比 较两个总体方差的大小( ? ? 0.10 )。 ? 解: ? s12 s12 ?

? F1?? 2 (n2 ? 1, n1 ? 1) ? 2 , F? 2 (n2 ? 1, n1 ? 1) ? 2 ? s2 s2 ? ? F0.95 (14, 24) ? 1 F 0.05 (24,14) ? 1 2.35

F0.05 (14, 24) ? 2.13 1 6.38 ? 12 6.38 ? ? 2 ? 2.13 ? 2.35 5.15 ? 2 5.15 置信区间包含了1。我们没有 ? 12 0.528 ? 2 ? 2.64 足够的把握认为两种型号电 ?2 阻的方差存在显著差异。
5-55

§5.5
? ? ? ?

样本容量的确定

估计总体均值时 估计两个总体均值之差时 估计总体比率时 估计两个总体比率之差时

一、估计总体均值时
? 最大允许误差为△,总体方差σ2已知,给定显 著性水*α。总体均值μ置信区间为
x ? z? 2

?
n

? ? ? x ? z? 2

?
n

? 要求抽样极限误差小于最大允许误差,有
x ? ? ? z? 2

?
n

??

? 当给定最大允许误差后,最小的样本容量为
重复抽样
? z? 2? n?? ? ? ? ? ? ? ?
2

但总体方差 σ2未知?
5-57

? 例:雇员培训的问题,研究如何确定样本容量n? ? ① 初始样本为15个雇员的培训时间,得到的总体均 值的95%的置信估计为53.87±3.45天,样本标准差 s=6.82,则抽样误差为3.45天。 ? ② 假设生产主管对这一结果的精度不满意,认为抽 样误差太大。他希望95%置信区间的精度能达到抽 样误差为2天的要求。则Δ=2,
z? 2 ? z0.025 ? 1.96, s ? 6.28
? z? 2? n?? ? ? ? ? 1.96 2 ? 6.82 2 ? ? 44.67 ? 45 2 ? ? 2 ?
2

? 结果表明,样本容量至少为45名雇员时方能满足所 要求的抽样误差。
5-58

二、估计两个总体均值之差时
?

最大允许误差为△,给定显著性水*α。
重复抽样
? z? 2 ? 2 2 ? n1 ? n2 ? ? ? ( ? ? ? 1 2) ? ? ? ? ?
2

其中: ? n1,n2分别代表来自两个正态总体的样本所需 的样本容量;(假定两个样本容量相等) 2 2 ? , ? ? 1 2 分别为两个正态总体的方差。
?

5-59

三、估计总体比率时
? 最大允许误差为△,则在置信度 1-α下的置信 区间为
? p(1 ? p) p(1 ? p) ? ?? ? ? p ? z , p ? z ? 2 ? 2 ? ? n n ? ?

? 要求抽样误差小于最大允许误差,有
? p ? p ? z? 2 p(1 ? p) ?? n

? 当给定最大允许误差后,最小的样本容量为
重复抽样
n?
2 z? 2 p (1 ? p )

?2

但总体比 率p未知?
5-60

四、估计两个总体比率之差时
?

最大允许误差为△,给定显著性水*α。
? z? 2 ? n1 ? n2 ? ? ? ? ? ? ? ? p1 (1 ? p1 ) ? p2 (1 ? p2 )? ? ?
2

重复抽样
? ? ?

其中: n1,n2分别代表来自两个总体的样本所需的样 本容量;(假定两个样本容量相等) p1,p2 分别为两个总体的比率。

5-61

? 例:一家瓶装饮料制造商想要估计消费者对一种 新型饮料认知的广告效果。于是在广告宣传前和 广告宣传后在某个市场销售区各抽取一个消费者 随机样本,并询问这些消费者是否知道这种新型 饮料。这位饮料制造商想以10%的边际误差和95% 的置信水*估计广告宣传前后该新型饮料消费者 的比例之差,应各抽取多少消费者进行调查(假 定两个样本容量相等)? ? 解:已知 ? ? 10% ,1 ? ? ? 95% ,则 z0.025 ? 1.96。 ? 由于没有提供总体比例和的信息,因此,假定: p1 ? p2 ? 50% 2 ? 则 ? z? 2 ?
n1 ? n2 ? ? ? ? ? p1 (1 ? p1 ) ? p2 (1 ? p2 ) ? ? ? ? ? 192.08 ? 193
5-62

?

必要的样本容量受以下因素的影响:

?
? ?

(1)总体方差越大,必要的样本容量越大。
(2)给定置信水*,允许误差越大,样本容 量越小;允许误差越小,样本容量必须加大。 (3)给定允许误差,要求的可靠程度越高, 样本容量就应越大;要求的可靠程度越低, 样本容量就应越小。

?
?

(4)抽样方法。采用重复抽样应比不重复抽 样多抽一些样本单位。
(5)抽样组织方式。
5-63

本章小结
一、参数估计是用样本统计量去估计未知的总体参数。 参数估计有点估计和区间估计两种方法。点估计是用样本统 计量值直接作为总体参数的估计值;区间估计是根据给定的 可靠度程度的要求,指出总体参数被估计的上限和下限。 二、在进行区间估计时,应考虑置信概率、置信区间与 样本容量三者之间的关系。在样本容量一定的情况下,估计 的置信区间越长,总体参数被包含在该区间的概率就越大, 估计的可靠性也就越大;在相同的置信水*要求下,样本容 量越大,样本包含的总体信息越多,构造的置信区间越短, 估计的精度越高。 三、点估计的方法有矩估计法、极大似然估计法等。点 估计的优良性准则有无偏性、有效性和一致性。

本章小结
四、一个总体参数的区间估计有总体均值 ? 、总体比例π和 2 ? 总体方差 。估计的条件不同,如总体分布是否已知、总体 方差是否已知或相等、大样本还是小样本决定了总体参数区 间估计表达式的不同。 五、两个总体参数的比较,即比较两个总体的均值、两个总 体的比例和两个总体的方差是否存在显著差异,一般可以通 过两个总体均值之差 ? ?1 ? ?2 ? 、两个总体比例之 2 差 ??1 ? ? 2 ? 、两个总体比例之比 ??12 ? 2 ? 的区间估计来进 行比较。 六、决定样本容量大小的因素有三个:边际误差 E 的大小、 2 估计的可靠程度 1 ? ? 的高低、总体方差 ? 的大小。




友情链接: