1. 绪论

英国统计学家M.G.Kendall对多元统计主要为

简化数据结构（降维）
分类与判别（分类）
变量的相互关系
- 相互依赖关系：分析一个或几个变量的幻化是否依赖与另一些变量的变化
- 分析两组变量间的相互关系
多维的统计推断，或者用于预测
多元统计分析的理论基础，构建多元分析中的假设检验。

其实多元统计和传统的《机器学习》或者说《统计学习》很像

理论部分主要是

多元正态分布
Wishart分布
Hotelling $T^2$ 分布
Wilks分布

2.1随机向量

1 基本概念

p 维随机向量

把p 个随机变量放在一起得到的就是一个p 维随机向量：

X=(X_1,X_2,\cdots,X_p)^T= \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix}

在多元统计分析中，向量默认为列向量

样品和样本

如果同时对上述随机向量中的p 个变量进行依次观测，得到的观测值：

样品（一次观测）：
$(x_{11},x_{12},\cdots,x_{1p}) \overset{\mathrm{def}}{=} X_{(1)}^T.$
说明 $X_{(1)}$ 为列向量， $X_{(1)}^T$ 为行向量
观察n 次可以得到n 个样品，记为：
$X_{(i)}^T=(x_{i1},x_{i2},\cdots,x_{ip}), \quad i=1,2,\cdots,n.$

样本数据矩阵

X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}^T\\ X_{(2)}^T\\ \vdots\\ X_{(n)}^T \end{bmatrix} =(X_1,X_2,\cdots,X_p)

在样本矩阵中，每一行对应一次观察即 $X_{(1)}^T$ ，每一列对应与每一个变量即 $X_i$ ， $i=1,2,3 \cdots p$

2 随机向量的联合分布

设

X=(X_1,X_2,\cdots,X_p)^T.

随机向量 $X$ 的联合分布函数定义为

F(x_1,\cdots,x_p)=P(X_1\le x_1,\cdots,X_p\le x_p).

如果存在非负函数 $f(x_1,\cdots,x_p)$ ，使得对一切 $(x_1,\cdots,x_p)$ 都有

F(x_1,\cdots,x_p)= \int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p} f(x_1,\cdots,x_p)\,dx_1\cdots dx_p,

则称 $X$ 为连续型随机向量，称 $f(x_1,\cdots,x_p)$ 为 $X$ 的联合密度函数，也称多元密度函数。

3 随机向量的边缘分布

定义

边缘分布是随机向量 $X$ 的部分分量 $(x_{i_1},\cdots,x_{i_m})$ （ $1\le m\le p$ ）的分布。

将随机向量分块写成

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix},

其中 $X^{(1)}$ 为 $r\times 1$ ， $X^{(2)}$ 为 $(p-r)\times 1$ 。

$X^{(1)}$ 的边缘分布

若 $X$ 的联合密度为 $f(x_1,\cdots,x_p)$ ，则 $X^{(1)}$ 的边缘密度为

f_1\big(x^{(1)}\big)=f(x_1,\cdots,x_r) =\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,\cdots,x_p)\,dx_{r+1}\cdots dx_p.

$X^{(2)}$ 的边缘分布

同理， $X^{(2)}$ 的边缘密度为

f_2\big(x^{(2)}\big)=f(x_{r+1},\cdots,x_p) =\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,\cdots,x_p)\,dx_1\cdots dx_r.

例 2.1.1

设二维随机向量 $X=(X_1,X_2)$ 的联合密度函数为

f(x_1,x_2)=\frac{1}{2\pi}e^{-\frac12(x_1^2+x_2^2)} \left[1+x_1x_2 e^{-\frac12(x_1^2+x_2^2)}\right].

求 $X_1$ 和 $X_2$ 关于随机向量 $X$ 的边缘密度。

4 随机向量的条件分布

仍设

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix},

其中 $X^{(1)}$ 为 $r\times 1$ ， $X^{(2)}$ 为 $(p-r)\times 1$ 。

条件分布

给定 $X^{(2)}$ 时， $X^{(1)}$ 的分布称为条件分布。

条件密度

当 $X$ 的联合密度函数是 $f(x^{(1)},x^{(2)})$ 时，给定 $X^{(2)}$ 时 $X^{(1)}$ 的条件密度为

f_1\big(x^{(1)}\mid x^{(2)}\big) =\frac{f(x^{(1)},x^{(2)})}{f_2(x^{(2)})},

其中 $f_2(x^{(2)})$ 是 $X^{(2)}$ 的密度函数。

5 随机向量的独立性

设

X=(X_1,X_2,\cdots,X_p)'.

记其联合分布函数为 $F(x_1,\cdots,x_p)$ ，各分量 $X_i$ 的分布函数为 $F_i(x_i)$ （ $i=1,\cdots,p$ ）。

若对一切实数 $x_1,\cdots,x_p$ ，有

F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p),

则称 $X_1,\cdots,X_p$ 相互独立。

对于连续型随机变量，上述独立性等价于

f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p).

\text{相互独立} \quad \Longrightarrow \quad \text{两两独立}

\text{两两独立} \quad \nRightarrow \quad \text{相互独立}

6.随机向量的数字特征

6.1 均值向量

若 $E(X_i)=\mu_i$ 存在，则称

E(X)= \begin{bmatrix} E(X_1)\\ \vdots\\ E(X_p) \end{bmatrix} = \begin{bmatrix} \mu_1\\ \vdots\\ \mu_p \end{bmatrix}

为随机向量 $X$ 的均值向量。

6.2 协方差阵

若 $X_i$ 和 $X_j$ 的协方差 $\operatorname{Cov}(X_i,X_j)$ （ $i,j=1,\cdots,p$ ）存在，则称

D(X)=E\left[(X-E(X))(X-E(X))^T\right]

为随机向量 $X$ 的协方差阵。它可写成

D(X)= \begin{bmatrix} \operatorname{Cov}(X_1,X_1) & \operatorname{Cov}(X_1,X_2) & \cdots & \operatorname{Cov}(X_1,X_p)\\ \operatorname{Cov}(X_2,X_1) & \operatorname{Cov}(X_2,X_2) & \cdots & \operatorname{Cov}(X_2,X_p)\\ \vdots & \vdots & \ddots & \vdots\\ \operatorname{Cov}(X_p,X_1) & \operatorname{Cov}(X_p,X_2) & \cdots & \operatorname{Cov}(X_p,X_p) \end{bmatrix} =(\sigma_{ij})_{p\times p} \overset{\mathrm{def}}{=}\Sigma.

6.3 两个随机向量的协方差阵

若 $X_i$ 和 $Y_j$ 的协方差 $\operatorname{Cov}(X_i,Y_j)$ （ $i=1,\cdots,p$ ， $j=1,\cdots,q$ ）存在，则称

\operatorname{COV}(X,Y)=E\left[(X-E(X))(Y-E(Y))^T\right]

为随机向量 $X$ 和 $Y$ 的协方差阵。

其矩阵形式为

\operatorname{COV}(X,Y)= \begin{bmatrix} \operatorname{Cov}(X_1,Y_1) & \operatorname{Cov}(X_1,Y_2) & \cdots & \operatorname{Cov}(X_1,Y_q)\\ \operatorname{Cov}(X_2,Y_1) & \operatorname{Cov}(X_2,Y_2) & \cdots & \operatorname{Cov}(X_2,Y_q)\\ \vdots & \vdots & \ddots & \vdots\\ \operatorname{Cov}(X_p,Y_1) & \operatorname{Cov}(X_p,Y_2) & \cdots & \operatorname{Cov}(X_p,Y_q) \end{bmatrix}.

若

\operatorname{COV}(X,Y)=0,

则称 $X$ 和 $Y$ 不相关。

6.4 相关阵

若 $X_i$ 和 $X_j$ 的协方差存在，则称

R=(r_{ij})_{p\times p}

为 $X$ 的相关阵，其中

r_{ij}=\frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)}\sqrt{\operatorname{Var}(X_j)}} =\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}}.

这里

\operatorname{Var}(X_i)=\operatorname{Cov}(X_i,X_i)=\sigma_{ii}.

定义标准差矩阵

V^{1/2}=\operatorname{diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}}).

则有

\Sigma=V^{1/2}RV^{1/2}, \quad R=(V^{1/2})^{-1}\Sigma(V^{1/2})^{-1}.

7 均值向量和协方差阵的性质

性质 1

设 $X,Y$ 是随机向量， $A,B$ 是常数矩阵，则

E(AX)=AE(X),

E(AXB)=AE(X)B,

D(AX)=AD(X)A',

\operatorname{COV}(AX,BY)=A\operatorname{COV}(X,Y)B'.

性质 2

若 $X$ 和 $Y$ 相互独立，则

\operatorname{COV}(X,Y)=0_{p\times q}.

反之不一定成立。

性质 3

随机向量 $X$ 的协方差阵

D(X)=\Sigma

是对称非负定矩阵。

证明思路：

因为 $\operatorname{Cov}(X_i,X_j)=\operatorname{Cov}(X_j,X_i)$ ，所以 $\Sigma=\Sigma'$ ；
对任给 $\alpha=(\alpha_1,\cdots,\alpha_p)'$ ，有 $\alpha'\Sigma\alpha=E\left[(\alpha'(X-E(X)))^2\right]\ge 0,$ 因此 $\Sigma\ge 0$ 。

性质 4

协方差阵 $\Sigma$ 可写成

\Sigma=L^2,

其中 $L$ 为非负定矩阵。

当 $\Sigma>0$ 时，称 $L$ 为 $\Sigma$ 的平方根矩阵，记为

\Sigma^{1/2}.

依据实对称矩阵的对角化定理，若

\Sigma=\Gamma \begin{bmatrix} \lambda_1 & & & 0\\ & \ddots & & \\ & & \ddots & \\ 0 & & & \lambda_p \end{bmatrix} \Gamma', \quad \lambda_i\ge 0,

则可取

L=\Gamma\operatorname{diag}(\sqrt{\lambda_1},\cdots,\sqrt{\lambda_p})\Gamma'.

于是

\Sigma=L^2.

2.3. 多元正态分布的定义和性质

1 定义 1：由标准正态线性变换给出

设

U=(U_1,\cdots,U_q)'

为随机向量，且

U_1,\cdots,U_q

相互独立，并且都服从 $N(0,1)$ 分布。

设 $\mu$ 为 $p$ 维常数向量， $A$ 为 $p\times q$ 常数矩阵。若

X=AU+\mu,

则称 $X$ 服从 $p$ 元正态分布，称 $X$ 为 $p$ 维正态随机向量，记为

X\sim N_p(\mu,\Sigma),

其中

\Sigma=AA'.

2 性质 1：特征函数

若

X=AU+\mu,

则其特征函数为

\phi(t)=E\left(e^{it'X}\right)=\exp\left[it'\mu-\frac12 t'AA't\right].

3. 定义 2：由特征函数定义

若 $p$ 维随机向量 $X$ 的特征函数为

\phi_X(t)=\exp\left[it'\mu-\frac12 t'\Sigma t\right], \quad \Sigma\ge 0,

则称 $X$ 服从 $p$ 元正态分布，记为

X\sim N_p(\mu,\Sigma).

主要是特征函数同一种形式对应唯一的一种分布

4. 性质 2：线性变换仍为正态

若

X\sim N_p(\mu,\Sigma),

$B$ 为 $s\times p$ 常数矩阵， $d$ 为 $s$ 维常数向量，令

Z=BX+d,

则

Z\sim N_s(B\mu+d,\,B\Sigma B').

参考一元正态的情况

5. 性质 3：均值与协方差

若

X\sim N_p(\mu,\Sigma),

则

E(X)=\mu, \quad D(X)=\Sigma.

6. 性质 4：线性组合刻画

设

X=(X_1,X_2,\cdots,X_p)'

为 $p$ 维随机向量，则

X \text{ 服从 } p \text{ 元正态分布} \Longleftrightarrow \text{对任一 } p \text{ 维实数向量 } a,\ \xi=a'X \text{ 是一维正态随机变量。}

因此有如下等价定义：

定义 3

若 $p$ 维随机向量 $X$ 的任一线性组合都服从一元正态分布，则称 $X$ 为 $p$ 维正态随机向量。

使用特征函数可以证明

7. 性质 5：非退化情形的联合密度

非退化情况，即 $\Sigma>0$ 的情况，因为协方差矩阵 $\Sigma \ge0$ 是半正定的，退化情况即为 $\Sigma=0$ 的情况。

若

X\sim N_p(\mu,\Sigma), \quad \Sigma>0,

则 $X$ 的联合密度函数为

f(x)=\frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}} \exp\left[-\frac12 (x-\mu)'\Sigma^{-1}(x-\mu)\right].

定义 4

若 $p$ 维随机向量

X=(X_1,X_2,\cdots,X_p)'

的联合密度函数为上式，其中 $\mu$ 为 $p$ 维实向量， $\Sigma$ 是 $p$ 阶正定矩阵，则称 $X$ 服从非退化的 $p$ 元正态分布。

注意：这里要求正定，前面三种只要求非负定。

故前三种等价，这里是单独的

$p=1$ 的情况即为一元正态分布

8. 例 2.2.1 二元正态分布

设

X= \begin{bmatrix} X_1\\ X_2 \end{bmatrix} \sim N_2(\mu,\Sigma),

其中

\mu= \begin{bmatrix} \mu_1\\ \mu_2 \end{bmatrix},

\Sigma= \begin{bmatrix} \sigma_{11} & \sigma_{12}\\ \sigma_{21} & \sigma_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix}>0.

需要讨论：

写出 $X$ 的联合密度函数和边缘密度函数；
说明 $\rho$ 的统计意义。

二元正态分布的联合密度

由一般 $p$ 元正态密度公式可得，二元正态分布的联合密度为

f(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left\{-\frac{1}{2(1-\rho^2)} \left[ \frac{(x_1-\mu_1)^2}{\sigma_1^2} -\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} +\frac{(x_2-\mu_2)^2}{\sigma_2^2} \right] \right\}.

边缘分布

二元正态分布的边缘分布仍为一元正态分布：

X_1\sim N(\mu_1,\sigma_1^2), \quad X_2\sim N(\mu_2,\sigma_2^2).

参数 $\rho$ 的统计意义

$\rho$ 是 $X_1$ 与 $X_2$ 的相关系数，用来描述两个分量的线性相关方向和强度：

$\rho>0$ 时，两个变量呈正相关；
$\rho<0$ 时，两个变量呈负相关；
$\rho=0$ 时，两个变量不相关。在二元正态情形下，不相关进一步等价于独立。

9. 二维正态分布的几何图像

密度曲面

二维正态分布的密度曲面会随相关系数 $\rho$ 的不同而改变形状：

当 $\rho>0$ 时，密度“山脊”沿正斜率方向延展；
当 $\rho<0$ 时，密度“山脊”沿负斜率方向延展；
当 $\rho=0$ 时，两个方向分离，曲面在坐标轴方向上没有倾斜。

密度等高椭圆曲线

二维正态分布的密度等高线满足（即二元正态指数部分的）

\frac{(x-\mu_1)^2}{\sigma_1^2} -\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} +\frac{(y-\mu_2)^2}{\sigma_2^2}=c.

这是一族椭圆曲线，其方向和扁平程度由相关系数 $\rho$ 决定：

$\rho>0$ 时，椭圆主轴向右上方向倾斜；
$\rho<0$ 时，椭圆主轴向右下方向倾斜；
$\rho=0$ 时，椭圆与坐标轴对齐；若再有 $\sigma_1=\sigma_2$ ，则等高线退化为圆。

2.3 条件分布和独立性（理解即可）

1. 多元正态分布下的分块表示

设

X\sim N_p(\mu,\Sigma),

并将随机向量、均值向量和协方差阵分别按如下方式分块：

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix}, \quad \mu= \begin{bmatrix} \mu^{(1)}\\ \mu^{(2)} \end{bmatrix}, \quad \Sigma= \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix},

其中：

$X^{(1)}$ 为 $r$ 维随机向量；
$X^{(2)}$ 为 $p-r$ 维随机向量；
$\Sigma_{11}$ 为 $r\times r$ 阵；
$\Sigma_{22}$ 为 $(p-r)\times (p-r)$ 阵。

2. 独立性定理

定理

设

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p\left( \begin{bmatrix} \mu^{(1)}\\ \mu^{(2)} \end{bmatrix}, \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \right),

则

X^{(1)} \text{ 与 } X^{(2)} \text{ 相互独立} \Longleftrightarrow \Sigma_{12}=0.

同时也有 $\Sigma_{21}=0$ ,但是两个矩阵的大小不一样。

$\Sigma_{12}$ 为 $r\times (p-r)$

$\Sigma_{21}$ 为 $(p-r)\times r$

也就是说，在多元正态分布下，

\text{独立} \Longleftrightarrow \text{不相关}.

3. 独立性的推论

推论 1

设 $r_i\ge 1$ ， $i=1,\cdots,k$ ，且

r_1+\cdots+r_k=p.

若

X= \begin{bmatrix} X^{(1)}\\ \vdots\\ X^{(k)} \end{bmatrix} \sim N_p\left( \begin{bmatrix} \mu^{(1)}\\ \vdots\\ \mu^{(k)} \end{bmatrix}, \begin{bmatrix} \Sigma_{11} & \cdots & \Sigma_{1k}\\ \vdots & \ddots & \vdots\\ \Sigma_{k1} & \cdots & \Sigma_{kk} \end{bmatrix} \right),

则

X^{(1)},\cdots,X^{(k)} \text{ 相互独立} \Longleftrightarrow \Sigma_{ij}=0,\quad \forall i\ne j.

推论 2

若

X=(X_1,X_2,\cdots,X_p)'\sim N_p(\mu,\Sigma),

且 $\Sigma$ 是对角矩阵，则

X_1,X_2,\cdots,X_p

相互独立。

4. 条件分布（理解即可）

设

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p(\mu,\Sigma), \quad \Sigma>0.

则给定 $X^{(2)}$ 时， $X^{(1)}$ 的条件分布为

(X^{(1)}\mid X^{(2)})\sim N_r(\mu_{1\cdot 2},\Sigma_{11\cdot 2}),

其中

\mu_{1\cdot 2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}),

\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

5. 条件分布的推论

推论 1

X^{(2)} \text{ 与 } X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \text{ 相互独立}.

推论 2

X^{(1)} \text{ 与 } X^{(2)}-\Sigma_{21}\Sigma_{11}^{-1}X^{(1)} \text{ 相互独立}.

推论 3

给定 $X^{(1)}$ 时， $X^{(2)}$ 的条件分布为

(X^{(2)}\mid X^{(1)})\sim N_{p-r}(\mu_{2\cdot 1},\Sigma_{22\cdot 1}),

其中

\mu_{2\cdot 1}=\mu^{(2)}+\Sigma_{21}\Sigma_{11}^{-1}(x^{(1)}-\mu^{(1)}),

\Sigma_{22\cdot 1}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}.

6. 几个概念

6.1 条件期望

由条件分布公式可得

E(X^{(1)}\mid X^{(2)})=\mu_{1\cdot 2} =\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}).

这表明多元正态分布下的条件期望是关于 $x^{(2)}$ 的线性函数。

6.2 回归与回归系数

$\mu_{1\cdot 2}$ 称为 $X^{(1)}$ 对 $X^{(2)}$ 的回归，矩阵

B=\Sigma_{12}\Sigma_{22}^{-1}

称为回归系数矩阵。

6.3 条件协方差阵

条件协方差阵定义为

\Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

常记为

\Sigma_{11\cdot 2}=(\sigma_{ij\cdot r+1,\cdots,p})_{r\times r}, \quad i,j=1,\cdots,r.

6.4 偏相关系数

给定 $X^{(2)}$ 时， $X_i$ 和 $X_j$ 的偏相关系数定义为

r_{ij\cdot r+1,\cdots,p} =\frac{\sigma_{ij\cdot r+1,\cdots,p}}{ \sqrt{\sigma_{ii\cdot r+1,\cdots,p}}\sqrt{\sigma_{jj\cdot r+1,\cdots,p}} }.

6.5 全相关系数

设

Z= \begin{bmatrix} X\\ Y \end{bmatrix} \sim N_{p+1} \left( \begin{bmatrix} \mu_X\\ \mu_Y \end{bmatrix}, \begin{bmatrix} \Sigma_{XX} & \Sigma_{XY}\\ \Sigma_{YX} & \sigma_{yy} \end{bmatrix} \right),

则称

R= \left( \frac{\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}}{\sigma_{yy}} \right)^{1/2}

为 $Y$ 与 $X=(X_1,X_2,\cdots,X_p)'$ 的全相关系数。

6.6 最佳预测

设

X= \begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix} \sim N_p(\mu,\Sigma), \quad \Sigma>0,

并令

X^{(1)}=Y, \quad g(x^{(2)})=E(Y\mid X^{(2)}).

则对任意函数 $\varphi(\cdot)$ ，有

E\left[(Y-g(x^{(2)}))^2\right] \le E\left[(Y-\varphi(x^{(2)}))^2\right].

因此，在均方误差最小的准则下，

g(x^{(2)})=E(Y\mid X^{(2)})

是 $Y$ 的最佳预测函数。

2.4 随机矩阵的正态分布

1. 样本矩阵

样本数据矩阵

X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}^T\\ X_{(2)}^T\\ \vdots\\ X_{(n)}^T \end{bmatrix} =(X_1,X_2,\cdots,X_p)

在样本矩阵中，每一行对应一次观察即 $X_{(1)}^T$ ，每一列对应与每一个变量即 $X_i$ ， $i=1,2,3 \cdots p$

X_{(i)}'=(x_{i1},x_{i2},\cdots,x_{ip}),\quad i=1,\cdots,n.

2. 拉直运算

2.1 按列拉直

定义矩阵 $X$ 的按列拉直运算为

\operatorname{Vec}(X)= \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix} = (x_{11},x_{21},\cdots,x_{n1},\cdots,x_{1p},x_{2p},\cdots,x_{np})',

其中 $X_j$ 表示矩阵 $X$ 的第 $j$ 列。

2.2 按行拉直

定义矩阵 $X$ 的按行拉直运算为

\operatorname{Vec}(X')= \begin{bmatrix} X_{(1)}\\ X_{(2)}\\ \vdots\\ X_{(n)} \end{bmatrix} = (x_{11},x_{12},\cdots,x_{1p},\cdots,x_{n1},x_{n2},\cdots,x_{np})'.

2.3 对称矩阵的拉直

若

S=(s_{ij})_{p\times p}

是对称矩阵，则定义

\operatorname{Svec}(S)= (s_{11},\cdots,s_{p1},s_{22},\cdots,s_{p2},\cdots,s_{pp})',

注意，去掉了重复的部分，其实是一个下三角

它是一个

\frac{p(p+1)}{2}\times 1

向量。

3. Kronecker 积

设

A=(a_{ij})_{n\times p},\quad B_{m\times q},

则矩阵 $A$ 与 $B$ 的 Kronecker 积定义为

A\otimes B=(a_{ij}B)= \begin{bmatrix} a_{11}B & \cdots & a_{1p}B\\ \vdots & \ddots & \vdots\\ a_{n1}B & \cdots & a_{np}B \end{bmatrix}_{mn\times pq}.

4. 随机矩阵的正态分布

设

X_{(i)}=(x_{i1},x_{i2},\cdots,x_{ip})',\quad i=1,\cdots,n,

为来自 $p$ 元正态总体

N_p(\mu,\Sigma)

的随机样本。

令

X=(x_{ij})_{n\times p}

为随机矩阵。若按行拉直，则有

\operatorname{Vec}(X')= \begin{bmatrix} X_{(1)}\\ X_{(2)}\\ \vdots\\ X_{(n)} \end{bmatrix} \sim N_{np}(1_n\otimes \mu,\ I_n\otimes \Sigma).

于是称随机矩阵 $X$ 服从矩阵正态分布，记为

X\sim N_{n\times p}(M,\ I_n\otimes \Sigma),

其中

\operatorname{Vec}(M')=1_n\otimes \mu=(\mu_1,\cdots,\mu_p,\cdots,\mu_1,\cdots,\mu_p)',

即

M= \begin{bmatrix} \mu_1 & \cdots & \mu_p\\ \vdots & & \vdots\\ \mu_1 & \cdots & \mu_p \end{bmatrix} =1_n\mu'.

因此

X\sim N_{n\times p}(M,\ I_n\otimes \Sigma) \Longleftrightarrow \operatorname{Vec}(X')\sim N_{np}(\operatorname{Vec}(M'),\ I_n\otimes \Sigma).

5. 随机矩阵正态分布的性质

若

X\sim N_{n\times p}(M,\ I_n\otimes \Sigma),

且 $A_{k\times n}, B_{q\times p}, D_{k\times q}$ 为常数矩阵，则

Z=AXB'+D

仍服从矩阵正态分布，且

Z\sim N_{k\times q}(AMB'+D,\ (AA')\otimes(B\Sigma B')).

2.5 多元正态分布的参数估计（重要）

1. 基本记号

设 $p$ 维随机向量为

X=(X_1,X_2,\cdots,X_p)'.

设简单随机样本为

X_{(i)}'=(x_{i1},x_{i2},\cdots,x_{ip}),\quad i=1,2,\cdots,n.

样本数据矩阵记为

X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \overset{\mathrm{def}}{=} \begin{bmatrix} X_{(1)}'\\ X_{(2)}'\\ \vdots\\ X_{(n)}' \end{bmatrix} \overset{\mathrm{def}}{=}(X_1,X_2,\cdots,X_p).

2. 多元正态样本的数字特征（证明见书）

2.1 样本均值向量

定义样本均值向量为

\bar X_{p\times 1}=\frac{1}{n}\sum_{i=1}^n X_{(i)}=(\bar x_1,\cdots,\bar x_p)'=\frac{1}{n}X'1_n.

2.2 样本离差阵（交叉乘积阵）

定义样本离差阵为

A_{p\times p}=\sum_{\alpha=1}^n (X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'.

它可化为

A=X'X-n\bar X\bar X'.

进一步可写为

A=X'\left(I_n-\frac{1}{n}1_n1_n'\right)X\overset{\mathrm{def}}{=}(a_{ij})_{p\times p},

其中

a_{ij}=\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j),\quad i,j=1,2,\cdots,p.

2.3 样本协方差阵

定义样本协方差阵为

S_{p\times p}=\frac{1}{n-1}A=(s_{ij})_{p\times p}.

有时也记

S^*_{p\times p}=\frac{1}{n}A.

其中

s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2,\quad i=1,\cdots,p,

称为变量 $X_i$ 的样本方差。

2.4 样本相关矩阵

定义样本相关矩阵为

R=(r_{ij})_{p\times p},

其中

r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}}\sqrt{a_{jj}}}.

3. 参数 $\mu,\Sigma$ 的最大似然估计

设

X_{(i)},\quad i=1,2,\cdots,n

是多元正态总体

N_p(\mu,\Sigma)

的随机样本。

3.1 似然函数

似然函数为

L(\mu,\Sigma)=\prod_{i=1}^n\frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}}\exp\left[-\frac12(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu)\right].

整理得

L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\lvert \Sigma \rvert^{n/2}}\exp\left[-\frac12\sum_{i=1}^n(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu)\right].

再利用迹运算可写为

L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\lvert \Sigma \rvert^{n/2}}\exp\left\{\operatorname{tr}\left[-\frac12\Sigma^{-1}\sum_{i=1}^n(x_{(i)}-\mu)(x_{(i)}-\mu)'\right]\right\}.

3.2 一个迹与行列式不等式

若 $B$ 为 $p$ 阶正定阵，则

\operatorname{tr}(B)-\ln\lvert B \rvert\ge p,

且等号成立的充分必要条件是

B=I_p.

3.3 对数似然函数的最大值点

当 $\Sigma>0$ 时：

对固定的 $\Sigma>0$ ，有

\ln L(\bar X,\Sigma)=\max_{\mu}\ln L(\mu,\Sigma).

\Sigma=\frac{1}{n}A

时，有

\ln L\left(\bar X,\frac{1}{n}A\right)=\max_{\mu,\Sigma>0}\ln L(\mu,\Sigma).

此时最大值为

\ln L\left(\bar X,\frac{1}{n}A\right)=-\frac{np}{2}\big(1+\ln(2\pi)\big)-\frac{n}{2}\ln\left\lvert\frac{A}{n}\right\rvert.

因此似然函数的最大值为

L\left(\bar X,\frac{1}{n}A\right)=\left(\frac{n}{2\pi e}\right)^{np/2}\lvert A \rvert^{-n/2}.

3.4 最大似然估计

若

X_{(i)},\quad i=1,\cdots,n

是多元正态总体 $N_p(\mu,\Sigma)$ 的随机样本，且 $n>p$ ，则 $\mu,\Sigma$ 的最大似然估计为

\hat\mu=\bar X, \quad \hat\Sigma=\frac{1}{n}A.

4. 最大似然估计量的性质

设 $\bar X$ 和 $A$ 分别为 $p$ 元正态总体 $N_p(\mu,\Sigma)$ 的样本均值向量和样本离差阵，则有：

4.1 样本均值向量的分布

\bar X\sim N_p\left(\mu,\frac{1}{n}\Sigma\right).

4.2 样本离差阵的表示

A=\sum_{t=1}^{n-1}Z_tZ_t',

其中

Z_1,\cdots,Z_{n-1}

相互独立，且都服从

N_p(0,\Sigma).

4.3 独立性

\bar X \text{ 与 } A \text{ 相互独立}.

4.4 正定性

P\{A>0\}=1 \Longleftrightarrow n>p.

5. 估计量的统计性质

5.1 无偏性

样本均值向量 $\bar X$ 是 $\mu$ 的无偏估计，即

E(\bar X)=\frac{1}{n}\sum_{i=1}^n E(X_{(i)})=\frac{1}{n}\sum_{i=1}^n \mu=\mu.

5.2 协方差阵估计的偏性

\hat\Sigma=\frac{1}{n}A

不是 $\Sigma$ 的无偏估计。

而样本协方差阵

S=\frac{1}{n-1}A

是 $\Sigma$ 的无偏估计。

5.3 有效性

$\bar X$ 与 $S$ 是 $\mu,\Sigma$ 的“最小方差”无偏估计量，因此称为有效估计量。

5.4 相合性

当

n\to\infty

时， $\bar X$ 和 $\hat\Sigma$ 都是强相合估计，即

P\left\{\lim_{n\to\infty}\bar X=\mu\right\}=1,

P\left\{\lim_{n\to\infty}\hat\Sigma=\Sigma\right\}=1.

5.5 充分性与渐近正态性

最大似然估计量是 $\mu,\Sigma$ 的充分统计量；
最大似然估计量具有渐近正态性。

6. 本节小结

本节讨论了多元正态总体参数 $\mu,\Sigma$ 的估计问题，核心内容包括：

多元正态样本的样本均值向量、样本离差阵、样本协方差阵和样本相关矩阵；
多元正态模型下的似然函数；
参数 $\mu,\Sigma$ 的最大似然估计 $\hat\mu=\bar X,\quad \hat\Sigma=\frac{1}{n}A;$
样本均值向量与样本离差阵的分布性质及相互独立性；
无偏性、有效性、相合性、充分性和渐近正态性。

这些结论是后续 Wishart 分布、Hotelling $T^2$ 统计量及多元假设检验的基础。

Xs's Blog

1. 绪论

2.1随机向量

1 基本概念

p 维随机向量

样品和样本

样本数据矩阵

2 随机向量的联合分布

3 随机向量的边缘分布

定义

X(1)X^{(1)}X(1) 的边缘分布

X(2)X^{(2)}X(2) 的边缘分布

例 2.1.1

4 随机向量的条件分布

条件分布

条件密度

5 随机向量的独立性

6.随机向量的数字特征

6.1 均值向量

6.2 协方差阵

6.3 两个随机向量的协方差阵

6.4 相关阵

7 均值向量和协方差阵的性质

性质 1

性质 2

性质 3

性质 4

2.3. 多元正态分布的定义和性质

1 定义 1：由标准正态线性变换给出

2 性质 1：特征函数

3. 定义 2：由特征函数定义

4. 性质 2：线性变换仍为正态

5. 性质 3：均值与协方差

6. 性质 4：线性组合刻画

定义 3

7. 性质 5：非退化情形的联合密度

定义 4

8. 例 2.2.1 二元正态分布

二元正态分布的联合密度

边缘分布

参数 ρ\rhoρ 的统计意义

9. 二维正态分布的几何图像

密度曲面

密度等高椭圆曲线

2.3 条件分布和独立性（理解即可）

1. 多元正态分布下的分块表示

2. 独立性定理

定理

3. 独立性的推论

推论 1

推论 2

4. 条件分布（理解即可）

5. 条件分布的推论

推论 1

推论 2

推论 3

6. 几个概念

6.1 条件期望

6.2 回归与回归系数

6.3 条件协方差阵

6.4 偏相关系数

6.5 全相关系数

6.6 最佳预测

2.4 随机矩阵的正态分布

1. 样本矩阵

样本数据矩阵

2. 拉直运算

2.1 按列拉直

2.2 按行拉直

2.3 对称矩阵的拉直

3. Kronecker 积

4. 随机矩阵的正态分布

5. 随机矩阵正态分布的性质

2.5 多元正态分布的参数估计（重要）

1. 基本记号

2. 多元正态样本的数字特征（证明见书）

2.1 样本均值向量

2.2 样本离差阵（交叉乘积阵）

2.3 样本协方差阵

2.4 样本相关矩阵

$X^{(1)}$ 的边缘分布

$X^{(2)}$ 的边缘分布

参数 $\rho$ 的统计意义

3. 参数 $\mu,\Sigma$ 的最大似然估计