LOADING
3953 字
20 分钟
多元正态分布

1. 绪论

英国统计学家M.G.Kendall对多元统计主要为

  • 简化数据结构(降维)

  • 分类与判别(分类)

  • 变量的相互关系

    • 相互依赖关系:分析一个或几个变量的幻化是否依赖与另一些变量的变化
    • 分析两组变量间的相互关系
  • 多维的统计推断,或者用于预测

  • 多元统计分析的理论基础,构建多元分析中的假设检验。

其实多元统计和传统的《机器学习》或者说《统计学习》很像

理论部分主要是

  • 多元正态分布
  • Wishart分布
  • Hotelling T2T^2分布
  • Wilks分布

2.1随机向量

1 基本概念

p 维随机向量

把p 个随机变量放在一起得到的就是一个p 维随机向量:

X=(X1,X2,,Xp)T=[X1X2Xp]X=(X_1,X_2,\cdots,X_p)^T= \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix}

在多元统计分析中,向量默认为列向量

样品和样本

如果同时对上述随机向量中的p 个变量进行依次观测,得到的观测值:

  • 样品(一次观测):

    (x11,x12,,x1p)=defX(1)T.(x_{11},x_{12},\cdots,x_{1p}) \overset{\mathrm{def}}{=} X_{(1)}^T.

    说明X(1)X_{(1)}为列向量,X(1)TX_{(1)}^T为行向量

  • 观察n 次可以得到n 个样品,记为:

    X(i)T=(xi1,xi2,,xip),i=1,2,,n.X_{(i)}^T=(x_{i1},x_{i2},\cdots,x_{ip}), \quad i=1,2,\cdots,n.

样本数据矩阵

X=[x11x12x1px21x22x2pxn1xn2xnp]=def[X(1)TX(2)TX(n)T]=(X1,X2,,Xp)X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}^T\\ X_{(2)}^T\\ \vdots\\ X_{(n)}^T \end{bmatrix} =(X_1,X_2,\cdots,X_p)

在样本矩阵中,每一行对应一次观察即X(1)TX_{(1)}^T,每一列对应与每一个变量即XiX_ii=1,2,3pi=1,2,3 \cdots p

2 随机向量的联合分布

X=(X1,X2,,Xp)T.X=(X_1,X_2,\cdots,X_p)^T.

随机向量 XX 的联合分布函数定义为

F(x1,,xp)=P(X1x1,,Xpxp).F(x_1,\cdots,x_p)=P(X_1\le x_1,\cdots,X_p\le x_p).

如果存在非负函数 f(x1,,xp)f(x_1,\cdots,x_p),使得对一切 (x1,,xp)(x_1,\cdots,x_p) 都有

F(x1,,xp)=x1xpf(x1,,xp)dx1dxp,F(x_1,\cdots,x_p)= \int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p} f(x_1,\cdots,x_p)\,dx_1\cdots dx_p,

则称 XX 为连续型随机向量,称 f(x1,,xp)f(x_1,\cdots,x_p)XX 的联合密度函数,也称多元密度函数。

3 随机向量的边缘分布

定义

边缘分布是随机向量 XX 的部分分量 (xi1,,xim)(x_{i_1},\cdots,x_{i_m})1mp1\le m\le p)的分布。

将随机向量分块写成

X=[X(1)X(2)],X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix},

其中 X(1)X^{(1)}r×1r\times 1X(2)X^{(2)}(pr)×1(p-r)\times 1

X(1)X^{(1)} 的边缘分布

XX 的联合密度为 f(x1,,xp)f(x_1,\cdots,x_p),则 X(1)X^{(1)} 的边缘密度为

f1(x(1))=f(x1,,xr)=++f(x1,,xp)dxr+1dxp.f_1\big(x^{(1)}\big)=f(x_1,\cdots,x_r) =\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,\cdots,x_p)\,dx_{r+1}\cdots dx_p.

X(2)X^{(2)} 的边缘分布

同理,X(2)X^{(2)} 的边缘密度为

f2(x(2))=f(xr+1,,xp)=++f(x1,,xp)dx1dxr.f_2\big(x^{(2)}\big)=f(x_{r+1},\cdots,x_p) =\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,\cdots,x_p)\,dx_1\cdots dx_r.

例 2.1.1

设二维随机向量 X=(X1,X2)X=(X_1,X_2) 的联合密度函数为

f(x1,x2)=12πe12(x12+x22)[1+x1x2e12(x12+x22)].f(x_1,x_2)=\frac{1}{2\pi}e^{-\frac12(x_1^2+x_2^2)} \left[1+x_1x_2 e^{-\frac12(x_1^2+x_2^2)}\right].

X1X_1X2X_2 关于随机向量 XX​ 的边缘密度。

4 随机向量的条件分布

仍设

X=[X(1)X(2)],X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix},

其中 X(1)X^{(1)}r×1r\times 1X(2)X^{(2)}(pr)×1(p-r)\times 1

条件分布

给定 X(2)X^{(2)} 时,X(1)X^{(1)} 的分布称为条件分布。

条件密度

XX 的联合密度函数是 f(x(1),x(2))f(x^{(1)},x^{(2)}) 时,给定 X(2)X^{(2)}X(1)X^{(1)} 的条件密度为

f1(x(1)x(2))=f(x(1),x(2))f2(x(2)),f_1\big(x^{(1)}\mid x^{(2)}\big) =\frac{f(x^{(1)},x^{(2)})}{f_2(x^{(2)})},

其中 f2(x(2))f_2(x^{(2)})X(2)X^{(2)} 的密度函数。

5 随机向量的独立性

X=(X1,X2,,Xp).X=(X_1,X_2,\cdots,X_p)'.

记其联合分布函数为 F(x1,,xp)F(x_1,\cdots,x_p),各分量 XiX_i 的分布函数为 Fi(xi)F_i(x_i)i=1,,pi=1,\cdots,p)。

若对一切实数 x1,,xpx_1,\cdots,x_p,有

F(x1,,xp)=F1(x1)Fp(xp),F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p),

则称 X1,,XpX_1,\cdots,X_p 相互独立。

对于连续型随机变量,上述独立性等价于

f(x1,,xp)=f1(x1)fp(xp).f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p).相互独立两两独立\text{相互独立} \quad \Longrightarrow \quad \text{两两独立}两两独立相互独立\text{两两独立} \quad \nRightarrow \quad \text{相互独立}

6.随机向量的数字特征

6.1 均值向量

E(Xi)=μiE(X_i)=\mu_i 存在,则称

E(X)=[E(X1)E(Xp)]=[μ1μp]E(X)= \begin{bmatrix} E(X_1)\\ \vdots\\ E(X_p) \end{bmatrix} = \begin{bmatrix} \mu_1\\ \vdots\\ \mu_p \end{bmatrix}

为随机向量 XX 的均值向量。

6.2 协方差阵

XiX_iXjX_j 的协方差 Cov(Xi,Xj)\operatorname{Cov}(X_i,X_j)i,j=1,,pi,j=1,\cdots,p)存在,则称

D(X)=E[(XE(X))(XE(X))T]D(X)=E\left[(X-E(X))(X-E(X))^T\right]

为随机向量 XX 的协方差阵。它可写成

D(X)=[Cov(X1,X1)Cov(X1,X2)Cov(X1,Xp)Cov(X2,X1)Cov(X2,X2)Cov(X2,Xp)Cov(Xp,X1)Cov(Xp,X2)Cov(Xp,Xp)]=(σij)p×p=defΣ.D(X)= \begin{bmatrix} \operatorname{Cov}(X_1,X_1) & \operatorname{Cov}(X_1,X_2) & \cdots & \operatorname{Cov}(X_1,X_p)\\ \operatorname{Cov}(X_2,X_1) & \operatorname{Cov}(X_2,X_2) & \cdots & \operatorname{Cov}(X_2,X_p)\\ \vdots & \vdots & \ddots & \vdots\\ \operatorname{Cov}(X_p,X_1) & \operatorname{Cov}(X_p,X_2) & \cdots & \operatorname{Cov}(X_p,X_p) \end{bmatrix} =(\sigma_{ij})_{p\times p} \overset{\mathrm{def}}{=}\Sigma.

6.3 两个随机向量的协方差阵

XiX_iYjY_j 的协方差 Cov(Xi,Yj)\operatorname{Cov}(X_i,Y_j)i=1,,pi=1,\cdots,pj=1,,qj=1,\cdots,q)存在,则称

COV(X,Y)=E[(XE(X))(YE(Y))T]\operatorname{COV}(X,Y)=E\left[(X-E(X))(Y-E(Y))^T\right]

为随机向量 XXYY 的协方差阵。

其矩阵形式为

COV(X,Y)=[Cov(X1,Y1)Cov(X1,Y2)Cov(X1,Yq)Cov(X2,Y1)Cov(X2,Y2)Cov(X2,Yq)Cov(Xp,Y1)Cov(Xp,Y2)Cov(Xp,Yq)].\operatorname{COV}(X,Y)= \begin{bmatrix} \operatorname{Cov}(X_1,Y_1) & \operatorname{Cov}(X_1,Y_2) & \cdots & \operatorname{Cov}(X_1,Y_q)\\ \operatorname{Cov}(X_2,Y_1) & \operatorname{Cov}(X_2,Y_2) & \cdots & \operatorname{Cov}(X_2,Y_q)\\ \vdots & \vdots & \ddots & \vdots\\ \operatorname{Cov}(X_p,Y_1) & \operatorname{Cov}(X_p,Y_2) & \cdots & \operatorname{Cov}(X_p,Y_q) \end{bmatrix}.

COV(X,Y)=0,\operatorname{COV}(X,Y)=0,

则称 XXYY 不相关。

6.4 相关阵

XiX_iXjX_j 的协方差存在,则称

R=(rij)p×pR=(r_{ij})_{p\times p}

XX 的相关阵,其中

rij=Cov(Xi,Xj)Var(Xi)Var(Xj)=σijσiiσjj.r_{ij}=\frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)}\sqrt{\operatorname{Var}(X_j)}} =\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}}.

这里

Var(Xi)=Cov(Xi,Xi)=σii.\operatorname{Var}(X_i)=\operatorname{Cov}(X_i,X_i)=\sigma_{ii}.

定义标准差矩阵

V1/2=diag(σ11,,σpp).V^{1/2}=\operatorname{diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}}).

则有

Σ=V1/2RV1/2,R=(V1/2)1Σ(V1/2)1.\Sigma=V^{1/2}RV^{1/2}, \quad R=(V^{1/2})^{-1}\Sigma(V^{1/2})^{-1}.

7 均值向量和协方差阵的性质

性质 1

X,YX,Y 是随机向量,A,BA,B 是常数矩阵,则

E(AX)=AE(X),E(AX)=AE(X),E(AXB)=AE(X)B,E(AXB)=AE(X)B,D(AX)=AD(X)A,D(AX)=AD(X)A',COV(AX,BY)=ACOV(X,Y)B.\operatorname{COV}(AX,BY)=A\operatorname{COV}(X,Y)B'.

性质 2

XXYY 相互独立,则

COV(X,Y)=0p×q.\operatorname{COV}(X,Y)=0_{p\times q}.

反之不一定成立。

性质 3

随机向量 XX 的协方差阵

D(X)=ΣD(X)=\Sigma

是对称非负定矩阵。

证明思路:

  • 因为 Cov(Xi,Xj)=Cov(Xj,Xi)\operatorname{Cov}(X_i,X_j)=\operatorname{Cov}(X_j,X_i),所以 Σ=Σ\Sigma=\Sigma'
  • 对任给 α=(α1,,αp)\alpha=(\alpha_1,\cdots,\alpha_p)',有 αΣα=E[(α(XE(X)))2]0,\alpha'\Sigma\alpha=E\left[(\alpha'(X-E(X)))^2\right]\ge 0, 因此 Σ0\Sigma\ge 0

性质 4

协方差阵 Σ\Sigma 可写成

Σ=L2,\Sigma=L^2,

其中 LL 为非负定矩阵。

Σ>0\Sigma>0 时,称 LLΣ\Sigma 的平方根矩阵,记为

Σ1/2.\Sigma^{1/2}.

依据实对称矩阵的对角化定理,若

Σ=Γ[λ100λp]Γ,λi0,\Sigma=\Gamma \begin{bmatrix} \lambda_1 & & & 0\\ & \ddots & & \\ & & \ddots & \\ 0 & & & \lambda_p \end{bmatrix} \Gamma', \quad \lambda_i\ge 0,

则可取

L=Γdiag(λ1,,λp)Γ.L=\Gamma\operatorname{diag}(\sqrt{\lambda_1},\cdots,\sqrt{\lambda_p})\Gamma'.

于是

Σ=L2.\Sigma=L^2.

2.3. 多元正态分布的定义和性质

1 定义 1:由标准正态线性变换给出

U=(U1,,Uq)U=(U_1,\cdots,U_q)'

为随机向量,且

U1,,UqU_1,\cdots,U_q

相互独立,并且都服从 N(0,1)N(0,1) 分布。

μ\mupp 维常数向量,AAp×qp\times q 常数矩阵。若

X=AU+μ,X=AU+\mu,

则称 XX 服从 pp 元正态分布,称 XXpp 维正态随机向量,记为

XNp(μ,Σ),X\sim N_p(\mu,\Sigma),

其中

Σ=AA.\Sigma=AA'.

2 性质 1:特征函数

X=AU+μ,X=AU+\mu,

则其特征函数为

ϕ(t)=E(eitX)=exp[itμ12tAAt].\phi(t)=E\left(e^{it'X}\right)=\exp\left[it'\mu-\frac12 t'AA't\right].

3. 定义 2:由特征函数定义

pp 维随机向量 XX 的特征函数为

ϕX(t)=exp[itμ12tΣt],Σ0,\phi_X(t)=\exp\left[it'\mu-\frac12 t'\Sigma t\right], \quad \Sigma\ge 0,

则称 XX 服从 pp 元正态分布,记为

XNp(μ,Σ).X\sim N_p(\mu,\Sigma).

主要是特征函数同一种形式对应唯一的一种分布

4. 性质 2:线性变换仍为正态

XNp(μ,Σ),X\sim N_p(\mu,\Sigma),

BBs×ps\times p 常数矩阵,ddss 维常数向量,令

Z=BX+d,Z=BX+d,

ZNs(Bμ+d,BΣB).Z\sim N_s(B\mu+d,\,B\Sigma B').

参考一元正态的情况

5. 性质 3:均值与协方差

XNp(μ,Σ),X\sim N_p(\mu,\Sigma),

E(X)=μ,D(X)=Σ.E(X)=\mu, \quad D(X)=\Sigma.

6. 性质 4:线性组合刻画

X=(X1,X2,,Xp)X=(X_1,X_2,\cdots,X_p)'

pp 维随机向量,则

X 服从 p 元正态分布对任一 p 维实数向量 a, ξ=aX 是一维正态随机变量。X \text{ 服从 } p \text{ 元正态分布} \Longleftrightarrow \text{对任一 } p \text{ 维实数向量 } a,\ \xi=a'X \text{ 是一维正态随机变量。}

因此有如下等价定义:

定义 3

pp 维随机向量 XX 的任一线性组合都服从一元正态分布,则称 XXpp 维正态随机向量。

使用特征函数可以证明

7. 性质 5:非退化情形的联合密度

非退化情况,即Σ>0\Sigma>0的情况,因为协方差矩阵Σ0\Sigma \ge0是半正定的,退化情况即为Σ=0\Sigma=0的情况。

XNp(μ,Σ),Σ>0,X\sim N_p(\mu,\Sigma), \quad \Sigma>0,

XX 的联合密度函数为

f(x)=1(2π)p/2Σ1/2exp[12(xμ)Σ1(xμ)].f(x)=\frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}} \exp\left[-\frac12 (x-\mu)'\Sigma^{-1}(x-\mu)\right].

定义 4

pp 维随机向量

X=(X1,X2,,Xp)X=(X_1,X_2,\cdots,X_p)'

的联合密度函数为上式,其中 μ\mupp 维实向量,Σ\Sigmapp 阶正定矩阵,则称 XX 服从非退化的 pp 元正态分布。

注意:这里要求正定,前面三种只要求非负定。

故前三种等价,这里是单独的

p=1p=1的情况即为一元正态分布

8. 例 2.2.1 二元正态分布

X=[X1X2]N2(μ,Σ),X= \begin{bmatrix} X_1\\ X_2 \end{bmatrix} \sim N_2(\mu,\Sigma),

其中

μ=[μ1μ2],\mu= \begin{bmatrix} \mu_1\\ \mu_2 \end{bmatrix},Σ=[σ11σ12σ21σ22]=[σ12ρσ1σ2ρσ1σ2σ22]>0.\Sigma= \begin{bmatrix} \sigma_{11} & \sigma_{12}\\ \sigma_{21} & \sigma_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix}>0.

需要讨论:

  • 写出 XX 的联合密度函数和边缘密度函数;

  • 说明 ρ\rho 的统计意义。

二元正态分布的联合密度

由一般 pp 元正态密度公式可得,二元正态分布的联合密度为

f(x1,x2)=12πσ1σ21ρ2exp{12(1ρ2)[(x1μ1)2σ122ρ(x1μ1)(x2μ2)σ1σ2+(x2μ2)2σ22]}.f(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left\{-\frac{1}{2(1-\rho^2)} \left[ \frac{(x_1-\mu_1)^2}{\sigma_1^2} -\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} +\frac{(x_2-\mu_2)^2}{\sigma_2^2} \right] \right\}.

边缘分布

二元正态分布的边缘分布仍为一元正态分布:

X1N(μ1,σ12),X2N(μ2,σ22).X_1\sim N(\mu_1,\sigma_1^2), \quad X_2\sim N(\mu_2,\sigma_2^2).

参数 ρ\rho 的统计意义

ρ\rhoX1X_1X2X_2 的相关系数,用来描述两个分量的线性相关方向和强度:

  • ρ>0\rho>0 时,两个变量呈正相关;
  • ρ<0\rho<0 时,两个变量呈负相关;
  • ρ=0\rho=0 时,两个变量不相关。在二元正态情形下,不相关进一步等价于独立。

9. 二维正态分布的几何图像

密度曲面

二维正态分布的密度曲面会随相关系数 ρ\rho 的不同而改变形状:

  • ρ>0\rho>0 时,密度“山脊”沿正斜率方向延展;
  • ρ<0\rho<0 时,密度“山脊”沿负斜率方向延展;
  • ρ=0\rho=0 时,两个方向分离,曲面在坐标轴方向上没有倾斜。

密度等高椭圆曲线

二维正态分布的密度等高线满足(即二元正态指数部分的)

(xμ1)2σ122ρ(xμ1)(yμ2)σ1σ2+(yμ2)2σ22=c.\frac{(x-\mu_1)^2}{\sigma_1^2} -\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} +\frac{(y-\mu_2)^2}{\sigma_2^2}=c.

这是一族椭圆曲线,其方向和扁平程度由相关系数 ρ\rho 决定:

  • ρ>0\rho>0 时,椭圆主轴向右上方向倾斜;
  • ρ<0\rho<0 时,椭圆主轴向右下方向倾斜;
  • ρ=0\rho=0 时,椭圆与坐标轴对齐;若再有 σ1=σ2\sigma_1=\sigma_2,则等高线退化为圆。

2.3 条件分布和独立性(理解即可)

1. 多元正态分布下的分块表示

XNp(μ,Σ),X\sim N_p(\mu,\Sigma),

并将随机向量、均值向量和协方差阵分别按如下方式分块:

X=[X(1)X(2)],μ=[μ(1)μ(2)],Σ=[Σ11Σ12Σ21Σ22],X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix}, \quad \mu= \begin{bmatrix} \mu^{(1)}\\ \mu^{(2)} \end{bmatrix}, \quad \Sigma= \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix},

其中:

  • X(1)X^{(1)}rr 维随机向量;
  • X(2)X^{(2)}prp-r 维随机向量;
  • Σ11\Sigma_{11}r×rr\times r 阵;
  • Σ22\Sigma_{22}(pr)×(pr)(p-r)\times (p-r) 阵。

2. 独立性定理

定理

X=[X(1)X(2)]Np([μ(1)μ(2)],[Σ11Σ12Σ21Σ22]),X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p\left( \begin{bmatrix} \mu^{(1)}\\ \mu^{(2)} \end{bmatrix}, \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \right),

X(1) 与 X(2) 相互独立Σ12=0.X^{(1)} \text{ 与 } X^{(2)} \text{ 相互独立} \Longleftrightarrow \Sigma_{12}=0.

同时也有Σ21=0\Sigma_{21}=0,但是两个矩阵的大小不一样。

Σ12\Sigma_{12}r×(pr)r\times (p-r)

Σ21\Sigma_{21}(pr)×r(p-r)\times r

也就是说,在多元正态分布下,

独立不相关.\text{独立} \Longleftrightarrow \text{不相关}.

3. 独立性的推论

推论 1

ri1r_i\ge 1i=1,,ki=1,\cdots,k,且

r1++rk=p.r_1+\cdots+r_k=p.

X=[X(1)X(k)]Np([μ(1)μ(k)],[Σ11Σ1kΣk1Σkk]),X= \begin{bmatrix} X^{(1)}\\ \vdots\\ X^{(k)} \end{bmatrix} \sim N_p\left( \begin{bmatrix} \mu^{(1)}\\ \vdots\\ \mu^{(k)} \end{bmatrix}, \begin{bmatrix} \Sigma_{11} & \cdots & \Sigma_{1k}\\ \vdots & \ddots & \vdots\\ \Sigma_{k1} & \cdots & \Sigma_{kk} \end{bmatrix} \right),

X(1),,X(k) 相互独立Σij=0,ij.X^{(1)},\cdots,X^{(k)} \text{ 相互独立} \Longleftrightarrow \Sigma_{ij}=0,\quad \forall i\ne j.

推论 2

X=(X1,X2,,Xp)Np(μ,Σ),X=(X_1,X_2,\cdots,X_p)'\sim N_p(\mu,\Sigma),

Σ\Sigma 是对角矩阵,则

X1,X2,,XpX_1,X_2,\cdots,X_p

相互独立。

4. 条件分布(理解即可)

X=[X(1)X(2)]Np(μ,Σ),Σ>0.X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p(\mu,\Sigma), \quad \Sigma>0.

则给定 X(2)X^{(2)} 时,X(1)X^{(1)} 的条件分布为

(X(1)X(2))Nr(μ12,Σ112),(X^{(1)}\mid X^{(2)})\sim N_r(\mu_{1\cdot 2},\Sigma_{11\cdot 2}),

其中

μ12=μ(1)+Σ12Σ221(x(2)μ(2)),\mu_{1\cdot 2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}),Σ112=Σ11Σ12Σ221Σ21.\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

5. 条件分布的推论

推论 1

X(2) 与 X(1)Σ12Σ221X(2) 相互独立.X^{(2)} \text{ 与 } X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \text{ 相互独立}.

推论 2

X(1) 与 X(2)Σ21Σ111X(1) 相互独立.X^{(1)} \text{ 与 } X^{(2)}-\Sigma_{21}\Sigma_{11}^{-1}X^{(1)} \text{ 相互独立}.

推论 3

给定 X(1)X^{(1)} 时,X(2)X^{(2)} 的条件分布为

(X(2)X(1))Npr(μ21,Σ221),(X^{(2)}\mid X^{(1)})\sim N_{p-r}(\mu_{2\cdot 1},\Sigma_{22\cdot 1}),

其中

μ21=μ(2)+Σ21Σ111(x(1)μ(1)),\mu_{2\cdot 1}=\mu^{(2)}+\Sigma_{21}\Sigma_{11}^{-1}(x^{(1)}-\mu^{(1)}),Σ221=Σ22Σ21Σ111Σ12.\Sigma_{22\cdot 1}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}.

6. 几个概念

6.1 条件期望

由条件分布公式可得

E(X(1)X(2))=μ12=μ(1)+Σ12Σ221(x(2)μ(2)).E(X^{(1)}\mid X^{(2)})=\mu_{1\cdot 2} =\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}).

这表明多元正态分布下的条件期望是关于 x(2)x^{(2)} 的线性函数。

6.2 回归与回归系数

μ12\mu_{1\cdot 2} 称为 X(1)X^{(1)}X(2)X^{(2)} 的回归,矩阵

B=Σ12Σ221B=\Sigma_{12}\Sigma_{22}^{-1}

称为回归系数矩阵。

6.3 条件协方差阵

条件协方差阵定义为

Σ112=Σ11Σ12Σ221Σ21.\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

常记为

Σ112=(σijr+1,,p)r×r,i,j=1,,r.\Sigma_{11\cdot 2}=(\sigma_{ij\cdot r+1,\cdots,p})_{r\times r}, \quad i,j=1,\cdots,r.

6.4 偏相关系数

给定 X(2)X^{(2)} 时,XiX_iXjX_j 的偏相关系数定义为

rijr+1,,p=σijr+1,,pσiir+1,,pσjjr+1,,p.r_{ij\cdot r+1,\cdots,p} =\frac{\sigma_{ij\cdot r+1,\cdots,p}}{ \sqrt{\sigma_{ii\cdot r+1,\cdots,p}}\sqrt{\sigma_{jj\cdot r+1,\cdots,p}} }.

6.5 全相关系数

Z=[XY]Np+1([μXμY],[ΣXXΣXYΣYXσyy]),Z= \begin{bmatrix} X\\ Y \end{bmatrix} \sim N_{p+1} \left( \begin{bmatrix} \mu_X\\ \mu_Y \end{bmatrix}, \begin{bmatrix} \Sigma_{XX} & \Sigma_{XY}\\ \Sigma_{YX} & \sigma_{yy} \end{bmatrix} \right),

则称

R=(ΣYXΣXX1ΣXYσyy)1/2R= \left( \frac{\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}}{\sigma_{yy}} \right)^{1/2}

YYX=(X1,X2,,Xp)X=(X_1,X_2,\cdots,X_p)' 的全相关系数。

6.6 最佳预测

X=[X(1)X(2)]Np(μ,Σ),Σ>0,X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p(\mu,\Sigma), \quad \Sigma>0,

并令

X(1)=Y,g(x(2))=E(YX(2)).X^{(1)}=Y, \quad g(x^{(2)})=E(Y\mid X^{(2)}).

则对任意函数 φ()\varphi(\cdot),有

E[(Yg(x(2)))2]E[(Yφ(x(2)))2].E\left[(Y-g(x^{(2)}))^2\right] \le E\left[(Y-\varphi(x^{(2)}))^2\right].

因此,在均方误差最小的准则下,

g(x(2))=E(YX(2))g(x^{(2)})=E(Y\mid X^{(2)})

YY 的最佳预测函数。

2.4 随机矩阵的正态分布

1. 样本矩阵

样本数据矩阵

X=[x11x12x1px21x22x2pxn1xn2xnp]=def[X(1)TX(2)TX(n)T]=(X1,X2,,Xp)X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}^T\\ X_{(2)}^T\\ \vdots\\ X_{(n)}^T \end{bmatrix} =(X_1,X_2,\cdots,X_p)

在样本矩阵中,每一行对应一次观察即X(1)TX_{(1)}^T,每一列对应与每一个变量即XiX_ii=1,2,3pi=1,2,3 \cdots p

X(i)=(xi1,xi2,,xip),i=1,,n.X_{(i)}'=(x_{i1},x_{i2},\cdots,x_{ip}),\quad i=1,\cdots,n.

2. 拉直运算

2.1 按列拉直

定义矩阵 XX 的按列拉直运算为

Vec(X)=[X1X2Xp]=(x11,x21,,xn1,,x1p,x2p,,xnp),\operatorname{Vec}(X)= \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix} = (x_{11},x_{21},\cdots,x_{n1},\cdots,x_{1p},x_{2p},\cdots,x_{np})',

其中 XjX_j 表示矩阵 XX 的第 jj 列。

2.2 按行拉直

定义矩阵 XX 的按行拉直运算为

Vec(X)=[X(1)X(2)X(n)]=(x11,x12,,x1p,,xn1,xn2,,xnp).\operatorname{Vec}(X')= \begin{bmatrix} X_{(1)}\\ X_{(2)}\\ \vdots\\ X_{(n)} \end{bmatrix} = (x_{11},x_{12},\cdots,x_{1p},\cdots,x_{n1},x_{n2},\cdots,x_{np})'.

2.3 对称矩阵的拉直

S=(sij)p×pS=(s_{ij})_{p\times p}

是对称矩阵,则定义

Svec(S)=(s11,,sp1,s22,,sp2,,spp),\operatorname{Svec}(S)= (s_{11},\cdots,s_{p1},s_{22},\cdots,s_{p2},\cdots,s_{pp})',

注意,去掉了重复的部分,其实是一个下三角

它是一个

p(p+1)2×1\frac{p(p+1)}{2}\times 1

向量。

3. Kronecker 积

A=(aij)n×p,Bm×q,A=(a_{ij})_{n\times p},\quad B_{m\times q},

则矩阵 AABB 的 Kronecker 积定义为

AB=(aijB)=[a11Ba1pBan1BanpB]mn×pq.A\otimes B=(a_{ij}B)= \begin{bmatrix} a_{11}B & \cdots & a_{1p}B\\ \vdots & \ddots & \vdots\\ a_{n1}B & \cdots & a_{np}B \end{bmatrix}_{mn\times pq}.

4. 随机矩阵的正态分布

X(i)=(xi1,xi2,,xip),i=1,,n,X_{(i)}=(x_{i1},x_{i2},\cdots,x_{ip})',\quad i=1,\cdots,n,

为来自 pp 元正态总体

Np(μ,Σ)N_p(\mu,\Sigma)

的随机样本。

X=(xij)n×pX=(x_{ij})_{n\times p}

为随机矩阵。若按行拉直,则有

Vec(X)=[X(1)X(2)X(n)]Nnp(1nμ, InΣ).\operatorname{Vec}(X')= \begin{bmatrix} X_{(1)}\\ X_{(2)}\\ \vdots\\ X_{(n)} \end{bmatrix} \sim N_{np}(1_n\otimes \mu,\ I_n\otimes \Sigma).

于是称随机矩阵 XX 服从矩阵正态分布,记为

XNn×p(M, InΣ),X\sim N_{n\times p}(M,\ I_n\otimes \Sigma),

其中

Vec(M)=1nμ=(μ1,,μp,,μ1,,μp),\operatorname{Vec}(M')=1_n\otimes \mu=(\mu_1,\cdots,\mu_p,\cdots,\mu_1,\cdots,\mu_p)',

M=[μ1μpμ1μp]=1nμ.M= \begin{bmatrix} \mu_1 & \cdots & \mu_p\\ \vdots & & \vdots\\ \mu_1 & \cdots & \mu_p \end{bmatrix} =1_n\mu'.

因此

XNn×p(M, InΣ)Vec(X)Nnp(Vec(M), InΣ).X\sim N_{n\times p}(M,\ I_n\otimes \Sigma) \Longleftrightarrow \operatorname{Vec}(X')\sim N_{np}(\operatorname{Vec}(M'),\ I_n\otimes \Sigma).

5. 随机矩阵正态分布的性质

XNn×p(M, InΣ),X\sim N_{n\times p}(M,\ I_n\otimes \Sigma),

Ak×n,Bq×p,Dk×qA_{k\times n}, B_{q\times p}, D_{k\times q} 为常数矩阵,则

Z=AXB+DZ=AXB'+D

仍服从矩阵正态分布,且

ZNk×q(AMB+D, (AA)(BΣB)).Z\sim N_{k\times q}(AMB'+D,\ (AA')\otimes(B\Sigma B')).

2.5 多元正态分布的参数估计(重要)

1. 基本记号

pp 维随机向量为

X=(X1,X2,,Xp).X=(X_1,X_2,\cdots,X_p)'.

设简单随机样本为

X(i)=(xi1,xi2,,xip),i=1,2,,n.X_{(i)}'=(x_{i1},x_{i2},\cdots,x_{ip}),\quad i=1,2,\cdots,n.

样本数据矩阵记为

X=[x11x12x1px21x22x2pxn1xn2xnp]=def[X(1)X(2)X(n)]=def(X1,X2,,Xp).X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}'\\ X_{(2)}'\\ \vdots\\ X_{(n)}' \end{bmatrix} \overset{\mathrm{def}}{=}(X_1,X_2,\cdots,X_p).

2. 多元正态样本的数字特征(证明见书)

2.1 样本均值向量

定义样本均值向量为

Xˉp×1=1ni=1nX(i)=(xˉ1,,xˉp)=1nX1n.\bar X_{p\times 1}=\frac{1}{n}\sum_{i=1}^n X_{(i)}=(\bar x_1,\cdots,\bar x_p)'=\frac{1}{n}X'1_n.

2.2 样本离差阵(交叉乘积阵)

定义样本离差阵为

Ap×p=α=1n(X(α)Xˉ)(X(α)Xˉ).A_{p\times p}=\sum_{\alpha=1}^n (X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'.

它可化为

A=XXnXˉXˉ.A=X'X-n\bar X\bar X'.

进一步可写为

A=X(In1n1n1n)X=def(aij)p×p,A=X'\left(I_n-\frac{1}{n}1_n1_n'\right)X\overset{\mathrm{def}}{=}(a_{ij})_{p\times p},

其中

aij=α=1n(xαixˉi)(xαjxˉj),i,j=1,2,,p.a_{ij}=\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j),\quad i,j=1,2,\cdots,p.

2.3 样本协方差阵

定义样本协方差阵为

Sp×p=1n1A=(sij)p×p.S_{p\times p}=\frac{1}{n-1}A=(s_{ij})_{p\times p}.

有时也记

Sp×p=1nA.S^*_{p\times p}=\frac{1}{n}A.

其中

sii=1n1α=1n(xαixˉi)2,i=1,,p,s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2,\quad i=1,\cdots,p,

称为变量 XiX_i 的样本方差。

2.4 样本相关矩阵

定义样本相关矩阵为

R=(rij)p×p,R=(r_{ij})_{p\times p},

其中

rij=sijsiisjj=aijaiiajj.r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}}\sqrt{a_{jj}}}.

3. 参数 μ,Σ\mu,\Sigma 的最大似然估计

X(i),i=1,2,,nX_{(i)},\quad i=1,2,\cdots,n

是多元正态总体

Np(μ,Σ)N_p(\mu,\Sigma)

的随机样本。

3.1 似然函数

似然函数为

L(μ,Σ)=i=1n1(2π)p/2Σ1/2exp[12(x(i)μ)Σ1(x(i)μ)].L(\mu,\Sigma)=\prod_{i=1}^n\frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}}\exp\left[-\frac12(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu)\right].

整理得

L(μ,Σ)=1(2π)np/2Σn/2exp[12i=1n(x(i)μ)Σ1(x(i)μ)].L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\lvert \Sigma \rvert^{n/2}}\exp\left[-\frac12\sum_{i=1}^n(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu)\right].

再利用迹运算可写为

L(μ,Σ)=1(2π)np/2Σn/2exp{tr[12Σ1i=1n(x(i)μ)(x(i)μ)]}.L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\lvert \Sigma \rvert^{n/2}}\exp\left\{\operatorname{tr}\left[-\frac12\Sigma^{-1}\sum_{i=1}^n(x_{(i)}-\mu)(x_{(i)}-\mu)'\right]\right\}.

3.2 一个迹与行列式不等式

BBpp 阶正定阵,则

tr(B)lnBp,\operatorname{tr}(B)-\ln\lvert B \rvert\ge p,

且等号成立的充分必要条件是

B=Ip.B=I_p.

3.3 对数似然函数的最大值点

Σ>0\Sigma>0 时:

  1. 对固定的 Σ>0\Sigma>0,有
lnL(Xˉ,Σ)=maxμlnL(μ,Σ).\ln L(\bar X,\Sigma)=\max_{\mu}\ln L(\mu,\Sigma).
Σ=1nA\Sigma=\frac{1}{n}A

时,有

lnL(Xˉ,1nA)=maxμ,Σ>0lnL(μ,Σ).\ln L\left(\bar X,\frac{1}{n}A\right)=\max_{\mu,\Sigma>0}\ln L(\mu,\Sigma).
  1. 此时最大值为
lnL(Xˉ,1nA)=np2(1+ln(2π))n2lnAn.\ln L\left(\bar X,\frac{1}{n}A\right)=-\frac{np}{2}\big(1+\ln(2\pi)\big)-\frac{n}{2}\ln\left\lvert\frac{A}{n}\right\rvert.

因此似然函数的最大值为

L(Xˉ,1nA)=(n2πe)np/2An/2.L\left(\bar X,\frac{1}{n}A\right)=\left(\frac{n}{2\pi e}\right)^{np/2}\lvert A \rvert^{-n/2}.

3.4 最大似然估计

X(i),i=1,,nX_{(i)},\quad i=1,\cdots,n

是多元正态总体 Np(μ,Σ)N_p(\mu,\Sigma) 的随机样本,且 n>pn>p,则 μ,Σ\mu,\Sigma 的最大似然估计为

μ^=Xˉ,Σ^=1nA.\hat\mu=\bar X, \quad \hat\Sigma=\frac{1}{n}A.

4. 最大似然估计量的性质

Xˉ\bar XAA 分别为 pp 元正态总体 Np(μ,Σ)N_p(\mu,\Sigma) 的样本均值向量和样本离差阵,则有:

4.1 样本均值向量的分布

XˉNp(μ,1nΣ).\bar X\sim N_p\left(\mu,\frac{1}{n}\Sigma\right).

4.2 样本离差阵的表示

A=t=1n1ZtZt,A=\sum_{t=1}^{n-1}Z_tZ_t',

其中

Z1,,Zn1Z_1,\cdots,Z_{n-1}

相互独立,且都服从

Np(0,Σ).N_p(0,\Sigma).

4.3 独立性

Xˉ 与 A 相互独立.\bar X \text{ 与 } A \text{ 相互独立}.

4.4 正定性

P{A>0}=1n>p.P\{A>0\}=1 \Longleftrightarrow n>p.

5. 估计量的统计性质

5.1 无偏性

样本均值向量 Xˉ\bar Xμ\mu 的无偏估计,即

E(Xˉ)=1ni=1nE(X(i))=1ni=1nμ=μ.E(\bar X)=\frac{1}{n}\sum_{i=1}^n E(X_{(i)})=\frac{1}{n}\sum_{i=1}^n \mu=\mu.

5.2 协方差阵估计的偏性

Σ^=1nA\hat\Sigma=\frac{1}{n}A

不是 Σ\Sigma 的无偏估计。

而样本协方差阵

S=1n1AS=\frac{1}{n-1}A

Σ\Sigma 的无偏估计。

5.3 有效性

Xˉ\bar XSSμ,Σ\mu,\Sigma 的“最小方差”无偏估计量,因此称为有效估计量。

5.4 相合性

nn\to\infty

时,Xˉ\bar XΣ^\hat\Sigma 都是强相合估计,即

P{limnXˉ=μ}=1,P\left\{\lim_{n\to\infty}\bar X=\mu\right\}=1,P{limnΣ^=Σ}=1.P\left\{\lim_{n\to\infty}\hat\Sigma=\Sigma\right\}=1.

5.5 充分性与渐近正态性

  • 最大似然估计量是 μ,Σ\mu,\Sigma 的充分统计量;
  • 最大似然估计量具有渐近正态性。

6. 本节小结

本节讨论了多元正态总体参数 μ,Σ\mu,\Sigma 的估计问题,核心内容包括:

  • 多元正态样本的样本均值向量、样本离差阵、样本协方差阵和样本相关矩阵;
  • 多元正态模型下的似然函数;
  • 参数 μ,Σ\mu,\Sigma 的最大似然估计 μ^=Xˉ,Σ^=1nA;\hat\mu=\bar X,\quad \hat\Sigma=\frac{1}{n}A;
  • 样本均值向量与样本离差阵的分布性质及相互独立性;
  • 无偏性、有效性、相合性、充分性和渐近正态性。

这些结论是后续 Wishart 分布、Hotelling T2T^2 统计量及多元假设检验的基础。

多元正态分布
/posts/study/multivariate-statistical-analysis/多元正态分布/
作者
Xs
发布于
2026-04-29
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时