1. 绪论
英国统计学家M.G.Kendall对多元统计主要为
-
简化数据结构(降维)
-
分类与判别(分类)
-
变量的相互关系
- 相互依赖关系:分析一个或几个变量的幻化是否依赖与另一些变量的变化
- 分析两组变量间的相互关系
-
多维的统计推断,或者用于预测
-
多元统计分析的理论基础,构建多元分析中的假设检验。
其实多元统计和传统的《机器学习》或者说《统计学习》很像
理论部分主要是
- 多元正态分布
- Wishart分布
- Hotelling T2分布
- Wilks分布
2.1随机向量
1 基本概念
p 维随机向量
把p 个随机变量放在一起得到的就是一个p 维随机向量:
X=(X1,X2,⋯,Xp)T=X1X2⋮Xp在多元统计分析中,向量默认为列向量
样品和样本
如果同时对上述随机向量中的p 个变量进行依次观测,得到的观测值:
-
样品(一次观测):
(x11,x12,⋯,x1p)=defX(1)T.说明X(1)为列向量,X(1)T为行向量
-
观察n 次可以得到n 个样品,记为:
X(i)T=(xi1,xi2,⋯,xip),i=1,2,⋯,n.
样本数据矩阵
X=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1px2p⋮xnp=defX(1)TX(2)T⋮X(n)T=(X1,X2,⋯,Xp)在样本矩阵中,每一行对应一次观察即X(1)T,每一列对应与每一个变量即Xi,i=1,2,3⋯p
2 随机向量的联合分布
设
X=(X1,X2,⋯,Xp)T.随机向量 X 的联合分布函数定义为
F(x1,⋯,xp)=P(X1≤x1,⋯,Xp≤xp).如果存在非负函数 f(x1,⋯,xp),使得对一切 (x1,⋯,xp) 都有
F(x1,⋯,xp)=∫−∞x1⋯∫−∞xpf(x1,⋯,xp)dx1⋯dxp,则称 X 为连续型随机向量,称 f(x1,⋯,xp) 为 X 的联合密度函数,也称多元密度函数。
3 随机向量的边缘分布
定义
边缘分布是随机向量 X 的部分分量 (xi1,⋯,xim)(1≤m≤p)的分布。
将随机向量分块写成
X=[X(1)X(2)],其中 X(1) 为 r×1,X(2) 为 (p−r)×1。
X(1) 的边缘分布
若 X 的联合密度为 f(x1,⋯,xp),则 X(1) 的边缘密度为
f1(x(1))=f(x1,⋯,xr)=∫−∞+∞⋯∫−∞+∞f(x1,⋯,xp)dxr+1⋯dxp.X(2) 的边缘分布
同理,X(2) 的边缘密度为
f2(x(2))=f(xr+1,⋯,xp)=∫−∞+∞⋯∫−∞+∞f(x1,⋯,xp)dx1⋯dxr.例 2.1.1
设二维随机向量 X=(X1,X2) 的联合密度函数为
f(x1,x2)=2π1e−21(x12+x22)[1+x1x2e−21(x12+x22)].求 X1 和 X2 关于随机向量 X 的边缘密度。
4 随机向量的条件分布
仍设
X=[X(1)X(2)],其中 X(1) 为 r×1,X(2) 为 (p−r)×1。
条件分布
给定 X(2) 时,X(1) 的分布称为条件分布。
条件密度
当 X 的联合密度函数是 f(x(1),x(2)) 时,给定 X(2) 时 X(1) 的条件密度为
f1(x(1)∣x(2))=f2(x(2))f(x(1),x(2)),其中 f2(x(2)) 是 X(2) 的密度函数。
5 随机向量的独立性
设
X=(X1,X2,⋯,Xp)′.记其联合分布函数为 F(x1,⋯,xp),各分量 Xi 的分布函数为 Fi(xi)(i=1,⋯,p)。
若对一切实数 x1,⋯,xp,有
F(x1,⋯,xp)=F1(x1)⋯Fp(xp),则称 X1,⋯,Xp 相互独立。
对于连续型随机变量,上述独立性等价于
f(x1,⋯,xp)=f1(x1)⋯fp(xp).相互独立⟹两两独立两两独立⇏相互独立6.随机向量的数字特征
6.1 均值向量
若 E(Xi)=μi 存在,则称
E(X)=E(X1)⋮E(Xp)=μ1⋮μp为随机向量 X 的均值向量。
6.2 协方差阵
若 Xi 和 Xj 的协方差 Cov(Xi,Xj)(i,j=1,⋯,p)存在,则称
D(X)=E[(X−E(X))(X−E(X))T]为随机向量 X 的协方差阵。它可写成
D(X)=Cov(X1,X1)Cov(X2,X1)⋮Cov(Xp,X1)Cov(X1,X2)Cov(X2,X2)⋮Cov(Xp,X2)⋯⋯⋱⋯Cov(X1,Xp)Cov(X2,Xp)⋮Cov(Xp,Xp)=(σij)p×p=defΣ.6.3 两个随机向量的协方差阵
若 Xi 和 Yj 的协方差 Cov(Xi,Yj)(i=1,⋯,p,j=1,⋯,q)存在,则称
COV(X,Y)=E[(X−E(X))(Y−E(Y))T]为随机向量 X 和 Y 的协方差阵。
其矩阵形式为
COV(X,Y)=Cov(X1,Y1)Cov(X2,Y1)⋮Cov(Xp,Y1)Cov(X1,Y2)Cov(X2,Y2)⋮Cov(Xp,Y2)⋯⋯⋱⋯Cov(X1,Yq)Cov(X2,Yq)⋮Cov(Xp,Yq).若
COV(X,Y)=0,则称 X 和 Y 不相关。
6.4 相关阵
若 Xi 和 Xj 的协方差存在,则称
R=(rij)p×p为 X 的相关阵,其中
rij=Var(Xi)Var(Xj)Cov(Xi,Xj)=σiiσjjσij.这里
Var(Xi)=Cov(Xi,Xi)=σii.定义标准差矩阵
V1/2=diag(σ11,⋯,σpp).则有
Σ=V1/2RV1/2,R=(V1/2)−1Σ(V1/2)−1.7 均值向量和协方差阵的性质
性质 1
设 X,Y 是随机向量,A,B 是常数矩阵,则
E(AX)=AE(X),E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.性质 2
若 X 和 Y 相互独立,则
COV(X,Y)=0p×q.反之不一定成立。
性质 3
随机向量 X 的协方差阵
D(X)=Σ是对称非负定矩阵。
证明思路:
- 因为 Cov(Xi,Xj)=Cov(Xj,Xi),所以 Σ=Σ′;
- 对任给 α=(α1,⋯,αp)′,有 α′Σα=E[(α′(X−E(X)))2]≥0, 因此 Σ≥0。
性质 4
协方差阵 Σ 可写成
Σ=L2,其中 L 为非负定矩阵。
当 Σ>0 时,称 L 为 Σ 的平方根矩阵,记为
Σ1/2.依据实对称矩阵的对角化定理,若
Σ=Γλ10⋱⋱0λpΓ′,λi≥0,则可取
L=Γdiag(λ1,⋯,λp)Γ′.于是
Σ=L2.2.3. 多元正态分布的定义和性质
1 定义 1:由标准正态线性变换给出
设
U=(U1,⋯,Uq)′为随机向量,且
U1,⋯,Uq相互独立,并且都服从 N(0,1) 分布。
设 μ 为 p 维常数向量,A 为 p×q 常数矩阵。若
X=AU+μ,则称 X 服从 p 元正态分布,称 X 为 p 维正态随机向量,记为
X∼Np(μ,Σ),其中
Σ=AA′.2 性质 1:特征函数
若
X=AU+μ,则其特征函数为
ϕ(t)=E(eit′X)=exp[it′μ−21t′AA′t].3. 定义 2:由特征函数定义
若 p 维随机向量 X 的特征函数为
ϕX(t)=exp[it′μ−21t′Σt],Σ≥0,则称 X 服从 p 元正态分布,记为
X∼Np(μ,Σ).主要是特征函数同一种形式对应唯一的一种分布
4. 性质 2:线性变换仍为正态
若
X∼Np(μ,Σ),B 为 s×p 常数矩阵,d 为 s 维常数向量,令
Z=BX+d,则
Z∼Ns(Bμ+d,BΣB′).参考一元正态的情况
5. 性质 3:均值与协方差
若
X∼Np(μ,Σ),则
E(X)=μ,D(X)=Σ.6. 性质 4:线性组合刻画
设
X=(X1,X2,⋯,Xp)′为 p 维随机向量,则
X 服从 p 元正态分布⟺对任一 p 维实数向量 a, ξ=a′X 是一维正态随机变量。因此有如下等价定义:
定义 3
若 p 维随机向量 X 的任一线性组合都服从一元正态分布,则称 X 为 p 维正态随机向量。
使用特征函数可以证明
7. 性质 5:非退化情形的联合密度
非退化情况,即Σ>0的情况,因为协方差矩阵Σ≥0是半正定的,退化情况即为Σ=0的情况。
若
X∼Np(μ,Σ),Σ>0,则 X 的联合密度函数为
f(x)=(2π)p/2∣Σ∣1/21exp[−21(x−μ)′Σ−1(x−μ)].定义 4
若 p 维随机向量
X=(X1,X2,⋯,Xp)′的联合密度函数为上式,其中 μ 为 p 维实向量,Σ 是 p 阶正定矩阵,则称 X 服从非退化的 p 元正态分布。
注意:这里要求正定,前面三种只要求非负定。
故前三种等价,这里是单独的
p=1的情况即为一元正态分布
8. 例 2.2.1 二元正态分布
设
X=[X1X2]∼N2(μ,Σ),其中
μ=[μ1μ2],Σ=[σ11σ21σ12σ22]=[σ12ρσ1σ2ρσ1σ2σ22]>0.需要讨论:
-
写出 X 的联合密度函数和边缘密度函数;
-
说明 ρ 的统计意义。
二元正态分布的联合密度
由一般 p 元正态密度公式可得,二元正态分布的联合密度为
f(x1,x2)=2πσ1σ21−ρ21exp{−2(1−ρ2)1[σ12(x1−μ1)2−σ1σ22ρ(x1−μ1)(x2−μ2)+σ22(x2−μ2)2]}.边缘分布
二元正态分布的边缘分布仍为一元正态分布:
X1∼N(μ1,σ12),X2∼N(μ2,σ22).参数 ρ 的统计意义
ρ 是 X1 与 X2 的相关系数,用来描述两个分量的线性相关方向和强度:
- ρ>0 时,两个变量呈正相关;
- ρ<0 时,两个变量呈负相关;
- ρ=0 时,两个变量不相关。在二元正态情形下,不相关进一步等价于独立。
9. 二维正态分布的几何图像
密度曲面
二维正态分布的密度曲面会随相关系数 ρ 的不同而改变形状:
- 当 ρ>0 时,密度“山脊”沿正斜率方向延展;
- 当 ρ<0 时,密度“山脊”沿负斜率方向延展;
- 当 ρ=0 时,两个方向分离,曲面在坐标轴方向上没有倾斜。
密度等高椭圆曲线
二维正态分布的密度等高线满足(即二元正态指数部分的)
σ12(x−μ1)2−σ1σ22ρ(x−μ1)(y−μ2)+σ22(y−μ2)2=c.这是一族椭圆曲线,其方向和扁平程度由相关系数 ρ 决定:
- ρ>0 时,椭圆主轴向右上方向倾斜;
- ρ<0 时,椭圆主轴向右下方向倾斜;
- ρ=0 时,椭圆与坐标轴对齐;若再有 σ1=σ2,则等高线退化为圆。
2.3 条件分布和独立性(理解即可)
1. 多元正态分布下的分块表示
设
X∼Np(μ,Σ),并将随机向量、均值向量和协方差阵分别按如下方式分块:
X=[X(1)X(2)],μ=[μ(1)μ(2)],Σ=[Σ11Σ21Σ12Σ22],其中:
- X(1) 为 r 维随机向量;
- X(2) 为 p−r 维随机向量;
- Σ11 为 r×r 阵;
- Σ22 为 (p−r)×(p−r) 阵。
2. 独立性定理
定理
设
X=[X(1)X(2)]∼Np([μ(1)μ(2)],[Σ11Σ21Σ12Σ22]),则
X(1) 与 X(2) 相互独立⟺Σ12=0.同时也有Σ21=0,但是两个矩阵的大小不一样。
Σ12为r×(p−r)
Σ21为(p−r)×r
也就是说,在多元正态分布下,
独立⟺不相关.3. 独立性的推论
推论 1
设 ri≥1,i=1,⋯,k,且
r1+⋯+rk=p.若
X=X(1)⋮X(k)∼Npμ(1)⋮μ(k),Σ11⋮Σk1⋯⋱⋯Σ1k⋮Σkk,则
X(1),⋯,X(k) 相互独立⟺Σij=0,∀i=j.推论 2
若
X=(X1,X2,⋯,Xp)′∼Np(μ,Σ),且 Σ 是对角矩阵,则
X1,X2,⋯,Xp相互独立。
4. 条件分布(理解即可)
设
X=[X(1)X(2)]∼Np(μ,Σ),Σ>0.则给定 X(2) 时,X(1) 的条件分布为
(X(1)∣X(2))∼Nr(μ1⋅2,Σ11⋅2),其中
μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2)),Σ11⋅2=Σ11−Σ12Σ22−1Σ21.5. 条件分布的推论
推论 1
X(2) 与 X(1)−Σ12Σ22−1X(2) 相互独立.推论 2
X(1) 与 X(2)−Σ21Σ11−1X(1) 相互独立.推论 3
给定 X(1) 时,X(2) 的条件分布为
(X(2)∣X(1))∼Np−r(μ2⋅1,Σ22⋅1),其中
μ2⋅1=μ(2)+Σ21Σ11−1(x(1)−μ(1)),Σ22⋅1=Σ22−Σ21Σ11−1Σ12.6. 几个概念
6.1 条件期望
由条件分布公式可得
E(X(1)∣X(2))=μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2)).这表明多元正态分布下的条件期望是关于 x(2) 的线性函数。
6.2 回归与回归系数
μ1⋅2 称为 X(1) 对 X(2) 的回归,矩阵
B=Σ12Σ22−1称为回归系数矩阵。
6.3 条件协方差阵
条件协方差阵定义为
Σ11⋅2=Σ11−Σ12Σ22−1Σ21.常记为
Σ11⋅2=(σij⋅r+1,⋯,p)r×r,i,j=1,⋯,r.6.4 偏相关系数
给定 X(2) 时,Xi 和 Xj 的偏相关系数定义为
rij⋅r+1,⋯,p=σii⋅r+1,⋯,pσjj⋅r+1,⋯,pσij⋅r+1,⋯,p.6.5 全相关系数
设
Z=[XY]∼Np+1([μXμY],[ΣXXΣYXΣXYσyy]),则称
R=(σyyΣYXΣXX−1ΣXY)1/2为 Y 与 X=(X1,X2,⋯,Xp)′ 的全相关系数。
6.6 最佳预测
设
X=[X(1)X(2)]∼Np(μ,Σ),Σ>0,并令
X(1)=Y,g(x(2))=E(Y∣X(2)).则对任意函数 φ(⋅),有
E[(Y−g(x(2)))2]≤E[(Y−φ(x(2)))2].因此,在均方误差最小的准则下,
g(x(2))=E(Y∣X(2))是 Y 的最佳预测函数。
2.4 随机矩阵的正态分布
1. 样本矩阵
样本数据矩阵
X=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1px2p⋮xnp=defX(1)TX(2)T⋮X(n)T=(X1,X2,⋯,Xp)在样本矩阵中,每一行对应一次观察即X(1)T,每一列对应与每一个变量即Xi,i=1,2,3⋯p
X(i)′=(xi1,xi2,⋯,xip),i=1,⋯,n.2. 拉直运算
2.1 按列拉直
定义矩阵 X 的按列拉直运算为
Vec(X)=X1X2⋮Xp=(x11,x21,⋯,xn1,⋯,x1p,x2p,⋯,xnp)′,其中 Xj 表示矩阵 X 的第 j 列。
2.2 按行拉直
定义矩阵 X 的按行拉直运算为
Vec(X′)=X(1)X(2)⋮X(n)=(x11,x12,⋯,x1p,⋯,xn1,xn2,⋯,xnp)′.2.3 对称矩阵的拉直
若
S=(sij)p×p是对称矩阵,则定义
Svec(S)=(s11,⋯,sp1,s22,⋯,sp2,⋯,spp)′,注意,去掉了重复的部分,其实是一个下三角
它是一个
2p(p+1)×1向量。
3. Kronecker 积
设
A=(aij)n×p,Bm×q,则矩阵 A 与 B 的 Kronecker 积定义为
A⊗B=(aijB)=a11B⋮an1B⋯⋱⋯a1pB⋮anpBmn×pq.4. 随机矩阵的正态分布
设
X(i)=(xi1,xi2,⋯,xip)′,i=1,⋯,n,为来自 p 元正态总体
Np(μ,Σ)的随机样本。
令
X=(xij)n×p为随机矩阵。若按行拉直,则有
Vec(X′)=X(1)X(2)⋮X(n)∼Nnp(1n⊗μ, In⊗Σ).于是称随机矩阵 X 服从矩阵正态分布,记为
X∼Nn×p(M, In⊗Σ),其中
Vec(M′)=1n⊗μ=(μ1,⋯,μp,⋯,μ1,⋯,μp)′,即
M=μ1⋮μ1⋯⋯μp⋮μp=1nμ′.因此
X∼Nn×p(M, In⊗Σ)⟺Vec(X′)∼Nnp(Vec(M′), In⊗Σ).5. 随机矩阵正态分布的性质
若
X∼Nn×p(M, In⊗Σ),且 Ak×n,Bq×p,Dk×q 为常数矩阵,则
Z=AXB′+D仍服从矩阵正态分布,且
Z∼Nk×q(AMB′+D, (AA′)⊗(BΣB′)).2.5 多元正态分布的参数估计(重要)
1. 基本记号
设 p 维随机向量为
X=(X1,X2,⋯,Xp)′.设简单随机样本为
X(i)′=(xi1,xi2,⋯,xip),i=1,2,⋯,n.样本数据矩阵记为
X=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1px2p⋮xnp=defX(1)′X(2)′⋮X(n)′=def(X1,X2,⋯,Xp).2. 多元正态样本的数字特征(证明见书)
2.1 样本均值向量
定义样本均值向量为
Xˉp×1=n1i=1∑nX(i)=(xˉ1,⋯,xˉp)′=n1X′1n.2.2 样本离差阵(交叉乘积阵)
定义样本离差阵为
Ap×p=α=1∑n(X(α)−Xˉ)(X(α)−Xˉ)′.它可化为
A=X′X−nXˉXˉ′.进一步可写为
A=X′(In−n11n1n′)X=def(aij)p×p,其中
aij=α=1∑n(xαi−xˉi)(xαj−xˉj),i,j=1,2,⋯,p.2.3 样本协方差阵
定义样本协方差阵为
Sp×p=n−11A=(sij)p×p.有时也记
Sp×p∗=n1A.其中
sii=n−11α=1∑n(xαi−xˉi)2,i=1,⋯,p,称为变量 Xi 的样本方差。
2.4 样本相关矩阵
定义样本相关矩阵为
R=(rij)p×p,其中
rij=siisjjsij=aiiajjaij.3. 参数 μ,Σ 的最大似然估计
设
X(i),i=1,2,⋯,n是多元正态总体
Np(μ,Σ)的随机样本。
3.1 似然函数
似然函数为
L(μ,Σ)=i=1∏n(2π)p/2∣Σ∣1/21exp[−21(x(i)−μ)′Σ−1(x(i)−μ)].整理得
L(μ,Σ)=(2π)np/2∣Σ∣n/21exp[−21i=1∑n(x(i)−μ)′Σ−1(x(i)−μ)].再利用迹运算可写为
L(μ,Σ)=(2π)np/2∣Σ∣n/21exp{tr[−21Σ−1i=1∑n(x(i)−μ)(x(i)−μ)′]}.3.2 一个迹与行列式不等式
若 B 为 p 阶正定阵,则
tr(B)−ln∣B∣≥p,且等号成立的充分必要条件是
B=Ip.3.3 对数似然函数的最大值点
当 Σ>0 时:
- 对固定的 Σ>0,有
- 取
时,有
lnL(Xˉ,n1A)=μ,Σ>0maxlnL(μ,Σ).- 此时最大值为
因此似然函数的最大值为
L(Xˉ,n1A)=(2πen)np/2∣A∣−n/2.3.4 最大似然估计
若
X(i),i=1,⋯,n是多元正态总体 Np(μ,Σ) 的随机样本,且 n>p,则 μ,Σ 的最大似然估计为
μ^=Xˉ,Σ^=n1A.4. 最大似然估计量的性质
设 Xˉ 和 A 分别为 p 元正态总体 Np(μ,Σ) 的样本均值向量和样本离差阵,则有:
4.1 样本均值向量的分布
Xˉ∼Np(μ,n1Σ).4.2 样本离差阵的表示
A=t=1∑n−1ZtZt′,其中
Z1,⋯,Zn−1相互独立,且都服从
Np(0,Σ).4.3 独立性
Xˉ 与 A 相互独立.4.4 正定性
P{A>0}=1⟺n>p.5. 估计量的统计性质
5.1 无偏性
样本均值向量 Xˉ 是 μ 的无偏估计,即
E(Xˉ)=n1i=1∑nE(X(i))=n1i=1∑nμ=μ.5.2 协方差阵估计的偏性
Σ^=n1A不是 Σ 的无偏估计。
而样本协方差阵
S=n−11A是 Σ 的无偏估计。
5.3 有效性
Xˉ 与 S 是 μ,Σ 的“最小方差”无偏估计量,因此称为有效估计量。
5.4 相合性
当
n→∞时,Xˉ 和 Σ^ 都是强相合估计,即
P{n→∞limXˉ=μ}=1,P{n→∞limΣ^=Σ}=1.5.5 充分性与渐近正态性
- 最大似然估计量是 μ,Σ 的充分统计量;
- 最大似然估计量具有渐近正态性。
6. 本节小结
本节讨论了多元正态总体参数 μ,Σ 的估计问题,核心内容包括:
- 多元正态样本的样本均值向量、样本离差阵、样本协方差阵和样本相关矩阵;
- 多元正态模型下的似然函数;
- 参数 μ,Σ 的最大似然估计 μ^=Xˉ,Σ^=n1A;
- 样本均值向量与样本离差阵的分布性质及相互独立性;
- 无偏性、有效性、相合性、充分性和渐近正态性。
这些结论是后续 Wishart 分布、Hotelling T2 统计量及多元假设检验的基础。
部分信息可能已经过时