数理统计·2 参数估计

考纲内容

一、点估计

考纲摘要:理解参数的点估计、估计量与估计值的概念

点估计问题的一般提法如下:

设总体 X 的分布函数 F(x;θ) 的形式为已知,θ 是待估参数 X1,X2,,XnX 的一个样本,x1,x2,,xn 是相应的一个样本值 点估计问题就是要构造一个适当的统计量 θ^(X1,X2,,Xn),用它的观察值 θ^(x1,x2,,xn) 作为未知参数 θ 的近似值。

我们称 θ^(X1,X2,,Xn)θ估计量,称 θ^(x1,x2,,xn)θ估计值。在不致混淆的情况下统称估计量和估计值为估计,并都简记为 θ^。由于估计量是样本的函数,因此对于不同的样本值,θ 的估计值一般是不相同的。

 

0x00 矩估计法

考纲摘要:掌握矩估计法(一阶矩、二阶矩)

X 为连续型随机变量,其概率密度为 f(x;θ1,θ2,,θk),或 X 为离散型随机变量,其分布律为 P{X=x}=p(x;θ1,θ2,,θk),其中 θ1,θ2,,θk 为待估参数,X1,X2,,Xn 是来自 X 的样本。假设总体 X 的前 k 阶矩

μl=E(Xl)=xlf(x;θ1,θ2,,θk)dx(X为连续型)μl=E(Xl)=xRXxlp(x;θ1,θ2,,θk)(X 为离散型)l=1,2,,k

(其中 RXX 可能的取值范围)存在。一般来说,它们是 θ1,θ2,,θk 的函数。基于样本矩

Al=1ni=1nXil,l=1,2,,k

依概率收敛于相应的总体矩 μll=1,2,,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数, 我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。 这种估计方法称为矩估计法。矩估计法的具体做法如下:

{μ1=μ1(θ1,θ2,,θk),μ2=μ2(θ1,θ2,,θk),μk=μk(θ1,θ2,,θk).

通过求解这组方程,得到

{θ1=θ1(μ1,μ2,,μk),θ2=θ2(μ1,μ2,,μk),θk=θk(μ1,μ2,,μk).

Ai 分别代替上式中的 μi,即

θ^i=θi(A1,A2,,Ak),i=1,2,,k

分别作为 θi,i=1,2,,k 的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值

 

0x01 最大似然估计法

考纲摘要:最大似然估计法

若总体 X 属离散型,其分布律为 P{X=x}=p(x;θ),θΘ,的形式已知,θ 为待估参数,Θθ 可能取值的范围 X1,X2,,Xn 是来自 X 的样本,则 X1,X2,,Xn 的联合分布律为

i=1np(xi;θ).

又设 x1,x2,,xn 是相应于样本 X1,X2,,Xn 的一个样本值 易知样本 X1,X2,,Xn 取到观察值 x1,x2,,xn 的概率,亦即事件 { X1=x1,X2=x2,,Xn=xn } 发生的概率为

L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ),θΘ.

这一概率随 θ 的取值而变化,它是 θ 的函数,L(θ) 称为样本的似然函数(注意,这里 x1,x2,,xn 是已知的样本值,它们都是常数)。

关于最大似然估计法,我们有以下的直观想法: 现在已经取到样本值 x1,x2,,xn 了,这表明取到这一样本值的概率 L(θ) 比较大。 我们当然不会考虑那些不能使样本 x1,x2,,xn 出现的 θΘ 作为 θ 的估计。 再者,如果已知当 θ=θ0Θ 时使 L(θ) 取很大值,而 Θ 中的其他 θ 的值使 L(θ) 取很小值,我们自然认为取 θ0 作为未知参数 θ 的估计值较为合理。 由费希尔(R.A. Fisher)引进的最大似然估计法,就是固定样本观察值 x1,x2,,xn,在 θ 取值的可能范围 Θ 内挑选使似然函数 L(x1,x2,,xn;θ) 达到最大的参数值 θ^ 作为参数 θ 的估计值。即取 θ^ 使

L(x1,x2,,xn;θ^)=maxθΘL(x1,x2,,xn;θ).

这样得到的 θ^ 与样本值 x1,x2,,xn 有关,常记为 θ^(x1,x2,,xn),称为参数 θ最大似然估计值,而相应的统计量 θ^(X1,X2,,Xn) 称为参数 θ最大似然估计量

若总体 X 属连续型,其概率密度为 f(x;θ)θΘ 的形式已知,θ 为待估参数,是 θ 可能取值的范围。设 X1,X2,,Xn 是来自 X 的样本,则 X1,X2,,Xn 的联合密度为

i=1nf(xi;θ).

x1,x2,,xn 是相应于样本 X1,X2,,Xn 的一个样本值,则 随机点 (X1,X2,,Xn) 落在点 (x1,x2,,xn) 的邻域(边长分别为 dx1,dx2,,dxnn 维立方体)内的概率近似地为

i=1nf(xi;θ)dxi

其值随 θ 的取值而变化。与离散型的情况一样,我们取 θ 的估计值 θ^ 使概率最大,但因子 dx1,dx2,,dxn 不随 θ 而变,故只需考虑函数

L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)

的最大值。这里 L(θ) 称为样本的似然函数。若

L(x1,x2,,xn;θ^)=maxθΘL(x1,x2,,xn;θ),

则称 θ^(x1,x2,,xn)θ最大似然估计值,称 θ^(X1,X2,,Xn)θ最大似然估计量

这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。在很多情形下,p(x;θ)f(x;θ) 关于 θ 可微,这时 θ^ 常可从方程

dL(θ)dθ=0

解得。又因 L(θ)lnL(θ) 在同一 θ 处取到极值,因此,θ 的最大似然估计 θ^ 也可以从方程

dlnL(θ)dθ=0

求得,而从后一方程求解往往比较方便。该方程称为对数似然方程

 

二、估计量的评选标准

考纲摘要:了解估计量的无偏性、有效性(最小方差性)和一致性(相合性)的概念,并会验证估计量的无偏性

0x00 无偏性

X1,X2,,Xn 是总体 X 的一个样本,θΘ 是包含在总体 X 的分布中的待估参数,这里 Θθ 的取值范围

若估计量 θ^=θ^(X1,X2,,Xn) 的数学期望 E(θ^) 存在,且对于任意 θΘ

E(θ^)=θ

则称 θ^θ 的无偏估计量

估计量的无偏性是指,对于某些样本值,由这一估计量得到的估计值相对于真值来说偏大,有些则偏小。 反复将这一估计量使用多次,就“平均”来说其偏差为 0。 在科学技术中,E(θ^)θ 称为以 θ^ 作为 θ 的估计的系统误差。无偏估计的实际意义就是无系统误差

 

0x01 有效性

θ^1=θ^1(X1,X2,,Xn)θ^2=θ^2(X1,X2,,Xn) 都是 θ 的无偏估计量,若对于任意 θΘ

D(θ^1)D(θ^2)

且至少对于某一个 θΘ 上式中的不等号严格成立,则称 θ^1θ^2 有效

 

0x02 相合性

θ^(X1,X2,,Xn) 为参数 θ 的估计量,若对于任意 θΘ,当 nθ^(X1,X2,,Xn) 依概率收敛于 θ,则称 θ^θ 的相合估计量。即:

θΘ,ε>0,limnP{|θ^θ|<ε}=1,

则称 θ^θ 的相合估计量。

 

三、区间估计

0x00 置信区间

设总体 X 的分布函数 F(x;θ) 含有一个未知参数 θθΘθ 可能取值的范围。对于给定值 α0<α<1),若由来自 X 的样本 X1,X2,,Xn 确定的两个统计量 θL=θL(X1,X2,,Xn)θU=θU(X1,X2,,Xn)θL<θU),对于任意 θΘ 满足

P{θL(X1,X2,,Xn)<θ<θU(X1,X2,,Xn)}1α,

则称 1α置信水平 随机区间 (θL,θU)θ 的置信水平为 1α置信区间 θLθU 分别称为置信水平为 1α 的双侧置信区间的置信下限置信上限

寻求未知参数 θ 的置信区间的具体做法如下:

  1. 寻找枢轴量 寻求一个样本 X1,X2,,Xnθ 的函数 W=W(X1,X2,,Xn;θ),使得 W 的分布不依赖于 θ 以及其他未知参数。称具有这种性质的函数 W 为枢轴量。

  2. 定出常数并构造置信区间 对于给定的置信水平 1α,定出两个常数 ab 使得

    P{a<W(X1,X2,,Xn;θ)<b}=1α.

    若能从 a<W(X1,X2,,Xn;θ)<b 得到与之等价的 θ 的不等式 θL<θ<θU,其中 θL=θL(X1,X2,,Xn)θU=θU(X1,X2,,Xn) 都是统计量,那么 (θL,θU) 就是 θ 的一个置信水平为 1α 的置信区间。

 

0x01 正态总体均值与方差的区间估计

1. 单个总体 N(μ,σ2) 的情况

设已给定置信水平为 1α,并设 X1,X2,,Xn 为总体 N(μ,σ2) 的样本,X,S2 分别为样本均值和样本方差

(1) 均值 μ 的置信区间

σ2 已知时,可使用 Xμσ/n 作为枢纽量, μ 的一个置信水平为 1α 的置信区间为:

(X±σnzα/2)

其中,zα/2 是标准正态分布 N(0,1)α/2 分位点

σ2 未知时,可以使用 XμS/n 作为枢纽量,其中一个置信水平为 1α 置信区间为

(X±Sntα/2(n1))

 

(2) 方差 σ2 的置信区间

μ 未知时,取以下 σ2 的置信水平为 1α 的置信区间:

(n1Sχα/22(n1),n1Sχ1α/22(n1))

2. 两个总体 N(μ1,σ12),N(μ2,σ22) 的情况

设两个总体的样本分别为 {X1,X2,,Xn1},{X1,X2,,Xn2}

(1) μ1μ2 的置信区间

σ12,σ22 已知的情况下,μ1μ2 的一个置信水平为 1α 的置信区间

(XY±zα/2σ12n1+σ22n2)

σ12=σ22=σ2,但 σ 未知的情况下,μ1μ2 的一个置信水平为 1α 的置信区间

(XY±tα/2(n1+n22)Sw1n1+1n2)Sw2=(n11)S12+(n21)S22n1+n22,Sw=Sw2
(2) σ12/σ22 的置信区间

μ1,μ2 未知时,σ12/σ22 的一个置信水平为 1α 的置信区间

S12S221Fα/2(n11,n21),S12S221F1α/2(n11,n21)

3. 总结

9