两个均值向量的比较,两个均值向量的比较张伟平

有什么区别 8
zwp@Office:东区管理科研楼1006Phone:63600565课件/~zwp/论坛 简介 1.1成对比较问题..................11.2两总体的均值比较...............111.3方差-协方差的检验...............20 PreviousNextFirstLastBackForward
1 1.1成对比较问题 上一讲中对均值向量的Hotelling’sT2检验可以方便的推广到多个均值向量的比较问题中. •成对比较设计:每个样本单元使用两种不同的处理(treatment),来研究两种处理是否存在差异. –投放广告前后某个市场某个产品的销售量变动来研究广告投放的效用 –服用某种降压药前后血压的变化,来研究该药物的效用–一些路口使用交通信号灯前后交通事故数的变化,来研究 交通信号等的效用 •成对比较设计的优点是测量结果的差异仅仅是由于不同处理的效应造成的,因为其他条件完全相同(同一个体仅处理不同). PreviousNextFirstLastBackForward
1 •当然,在一些问题里成对比较设计不会那么简单.比如服药前后其他变量可能也会发生变化,造成测量结果的差异除处理不同原因外,还可能有其他条件发生变化的原因. PreviousNextFirstLastBackForward
2 p=1时的成对比较问题 •在一元场合下,以响应变量的某个指标为例.记X1j和X2j分别为第j个试验单元的响应变量在处理1和处理2下的测量值. •感兴趣的问题是处理1和处理2是否有差异. •设Dj=X1j−X2j,j=1,...,n,则Dj反应了两种处理的差异.假设 –D1,...,Dn相互独立同分布–D1∼N1(δ,σδ2)•在上述假设条件下,量 D¯−δt(δ)=√∼tn−1 sd/n PreviousNextFirstLastBackForward
3 其中D¯=n1∑jDj,s2d=n−11∑j(Dj−D¯)
2. •因此假设H0:δ=0↔H1:δ̸=0的水平α检验拒绝域为|t
(0)|>tn−1(α/2). •等价地,δ的1−α置信区间为 d¯ − tn−
1 (α/2) sd√ ≤ δ ≤ d¯+ sdtn−1(α/2)√ n n PreviousNextFirstLastBackForward
4 p>1时的成对比较问题 •当每个样本单元的p个变量被测量时候,我们关心差异向量(处理1-处理2):     Dj1 X1j1 X2j1 Dj=...= ... − ...  Djp X1jp X2jp j=1,...,n.其中X1jk,X2jk分别表示第j个样本单元在处理1和处理2下第k个变量的测量值. •因此,假设D1,...,Dni.i.d∼Np(δ,Σ)时,可以使用Hotelling’sT2统计量 T2=n(D¯−δ)′SD−1(D¯−δ)∼p(nn−−p1)Fp,n−p PreviousNextFirstLastBackForward
5 其中D¯和SD分别为基于D1,...,Dn的样本均值和样本协方差. •实际中,我们经常来检验假设”两种处理没有平均差异”,这等价于H0:δ=0↔H1:δ̸=
0,其拒绝域为 T2=nD¯′SD−1D¯>p(nn−−p1)Fp,n−p(α)当拒绝H0时候,我们得出结论:p个变量的任何分量上不存在处理效应. •δ的1−α置信域为{δ:n(D¯−δ)′SD−1(D¯−δ)≤p(nn−−p1)Fp,n−p(α)} •a′δ的1−α同时置信区间为 √ √ a′D¯i± p(n−1)Fp,n−p(α)n−p a′SD−1a,∀a∈Rpn PreviousNextFirstLastBackForward
6 •δ1,...,δp的1−α同时置信区间为 √ √ D¯i± p(n−1)Fp,n−p(α)n−p s2D,i, n i=1,...,p 其中s2D,i表示矩阵SD的ii对角元. •δ1,...,δp的Bonferroni1−α同时置信区间为 √ D¯i±tn−1(α)2p s2D,i, n i=1,...,p PreviousNextFirstLastBackForward
7 重复测量下比较多个处理 •一元成对t检验的另一个推广场合:对一元响应变量的q个处理进行比较. •每个个体或者试验单元被安排q个处理,每个一次测量.因此,第j个体的观测记为   Xj1 Xj=...,j=1,...,n. Xjq 其中Xji表示第j个个体的第i个处理下的值. •重复测量—来源于是对同一个体进行q个处理下测量. •实际中经常感兴趣的是q个处理平均效应是否存在差异.因此 PreviousNextFirstLastBackForward
8 我们考虑均值µ=EXj的分量的对照(contrast):    µ1−µ
2 1−10···0 µ1−µ3
1 0 −1···
0  µ
1.   ... = ... ... ... ... ..µ2..=C1µ. µq µ1−µq 100···−
1 或者    µ2−µ
1 −110···00 µ3−µ2
0 −11···
0 0  µ
1.   ... = ... ... ...... ... ..µ2..=C2µ. µq µq−µq−
1 000···−11 C1和C2都称为对照矩阵(行线性无关,每个都是一个对照向量). PreviousNextFirstLastBackForward
9 •假设H0:q个处理的平均效应不存在差异等价于H0:Cµ=0对任何对照矩阵
C.因此,当q个处理的平均效应不存在差异时候有C1µ=C2µ=
0. •若假设X1,...,Xni.i.d∼Nq(µ,Σ),则对照CXj∼Nq−1(Cµ,CΣC′),因此假设H0:Cµ=0↔Cµ̸=0的HotellingT2检验拒绝域为 T2=n(Cx¯)′(CSC′)−1(Cx¯)>(q−1)(n−1)Fq−1,n−q+1(α)n−q+
1 其中x¯和S为基于Xj′s的样本均值和样本协方差矩阵. •Cµ的1−α置信域为 n(Cx¯−Cµ)′(CSC′)−1(Cx¯−Cµ)≤(q−1)(n−1)Fq−1,n−q+1(α)n−q+
1 PreviousNextFirstLastBackForward 10 1.2两总体的均值比较 •随机化试验:n1个个体随机地被分配到处理1(或者是从总体1中随机抽取的个体),n2个个体被随机的分配到处理2(或者是从总体2中随机抽取的个体) •每个个体的p个性状(变量)被测量 •总体k的样本数据向量记为   xkj1 x Xkj= kj2 . ,j=1,...,nk,k=1,
2. .. xkjp •记µk表示总体k的期望(k=1,2),则感兴趣假设H0:µ1−µ2=δ0↔H1:µ1−µ2̸=δ0δ0已知 PreviousNextFirstLastBackForward 11 •记两组样本的样本均值和样本方差分别为 1∑nk x¯k= X1j, nk j=
1 S=
1 ∑nk(X−x¯)(X−x¯)′ knk−
1 kj k kj k j=
1 其中k=1,
2. 假设 •Xk1,...,Xknki.i.d∼(µk,Σk),其中k=1,
2.µk为p维向量,Σk为p×p正定矩阵. •X11,...,X1n1和X21,...,X2n2相互独立 PreviousNextFirstLastBackForward 12 大样本场合 从而对感兴趣的参数θ=µ1−µ
2,其一个无偏估计为θˆ=x¯1−x¯
2, 显然θˆ∼(θ,n11Σ1+n12Σ2).而S1和S2分别为Σ1和Σ2的无偏估计,于是由大样本理论知(在合适的条件下)当n1,n2→∞时候, [ ′
1 1]−
1 2 (x¯1−x¯2−θ)S2+S2(x¯1−x¯2−θ)→χp n1 n2 •从而此时可以得到一个渐近水平α检验拒绝域: [ ′
1 1]−
1 2 (x¯1−x¯2−δ0)S2+S2(x¯1−x¯2−δ0)>χp(α) n1 n2 •等价地,θ=µ1−µ2的一个渐近1−α置信域为 { [ ′
1 1]−
1 }
2 θ:(x¯1−x¯2−θ)S2+S2(x¯1−x¯2−θ)≤χp(α) n1 n2 PreviousNextFirstLastBackForward 13 当样本量较小时候,为得到合适的检验,我们需要对分布作进一步的假设:正态总体同方差假设 •Xk1,...,Xknki.i.d∼Np(µk,Σ),其中k=1,
2.•X11,...,X1n1和X21,...,X2n2相互独立容易得到 •x¯1−x¯2为θ=µ1−µ2的极大似然估计,Σ的(修正无偏的)极大似然估计为 1[ ] Spooled=n1+n2−2(n1−1)S1+(n2−1)S2 •x¯1−x¯2∼Np(µ1−µ
2,(n11+n12)Σ)•x¯1−x¯2和Spooled相互独立. PreviousNextFirstLastBackForward 14 因此 定理
1.Xk1,...,Xknki.i.d∼Np(µk,Σ),其中k=1,
2.,x¯1,x¯2和Spooled如上定义,则 (x¯1−x¯2−θ)′[(1+1)Spooled]−1(x¯1−x¯2−θ)n1n2 (n1+n2−2)p∼n1+n2−p−1Fp,n1+n2−p−
1 证明.记n=n1+n2,由前面的讨论知存在z,u1,...,un−2i.i.d∼ Np(
0,Ip),使得 d(
1 1)−1/2 z= +Σ(x¯1−x¯2−θ) n1n2 n∑−
2 (n−2)Σ−1/2SpooledΣ−1/2=d uiu′i i=
1 PreviousNextFirstLastBackForward 15 因此 [( ′
1 1) ]−
1 d′(n∑−2′)−
1 (x¯1−x¯2−θ) +Spooled(x¯1−x¯2−θ)=(n−2)z uiuiz n1n2 i=
1 从而再类似于上一讲定理1的证明可证. 从而对假设 H0:µ1−µ2=δ0↔H1:µ1−µ2̸=δ0δ0已知 •得到其一个精确的水平α检验拒绝域为(x¯1−x¯2−δ0)′[(1+1)Spooled]−1(x¯1−x¯2−δ0)n1n2(n1+n2−2)p>n1+n2−p−1Fp,n1+n2−p−1(α). PreviousNextFirstLastBackForward 16 •等价地,θ=µ1−µ2的一个1−α置信域为(x¯1−x¯2−θ)′[(1+1)Spooled]−1(x¯1−x¯2−θ)n1n2(n1+n2−2)p≤n1+n2−p−1Fp,n1+n2−p−1(α). 同时置信区间 定理
2.记c2=(nn11++nn22−−p2−)p1Fp,n1+n2−p−1(α),则 ( √ ) Pa′(µ1−µ2)∈a′(x¯1−x¯2)±c(1+1)a′Spooleda,∀a̸=0∈Rp=1−α. n1n2 特别, ( √ )
P (µ1i−µ2i)∈(x¯1i−x¯2i)±c 11(+)Sii,pooled,i=1,...,p =1−α. n1n2 PreviousNextFirstLastBackForward 17 证明.注意到a′Xkj∼N1(a′µk,a′Σa),j=1,...,nk;k=1,
2.且相互独立,故可利用一元两样本t统计量和Cauchy-Schwarz不等式(2.7节)易证. 正态总体异方差假设 •Xk1,...,Xknki.i.d∼Np(µk,Σk),其中k=1,
2.Σ1̸=Σ
2. •X11,...,X1n1和X21,...,X2n2相互独立 此时,x¯1−x¯2的协方差的自然估计为n11S1+n12S2,统计量 T˜2=(x¯ −x¯ [ ′
1 −θ)
S + 1S]−1(x¯ −x¯ −θ)
1 2 n12n22
1 2 的精确分布依赖于Σ1和Σ
2,因此不能用来获得检验的临界值或者置信域的边界值. 解决方法 PreviousNextFirstLastBackForward 18 •若样本量n1,n2都充分大,则可以使用大样本理论方法. •若样本量不大,但两总体均服从多元正态,则T˜2的分布可以近 似 T˜
2 vpFp,v−p+
1 v−p+
1 其中v通过下式估计 p+p2 v=a1+a2 n1 n2 其中 [][]( ( ))2( a=1Si1S1+1S2−
1 +tr ( ))
2 1Si1S1+1S2−
1 ,i=1,
2. itrni n1 n2 ni n1 n2 据此,可得渐近水平α检验拒绝域 T˜2> vpFp,v−p+1(α) v−p+
1 PreviousNextFirstLastBackForward 19 1.3方差-协方差的检验 怎样判断多个总体的方差相等性假设是合理的?
•对两总体,一个粗放的经验法则:如果存在i使得σ1,ii>4σ2,ii或者σ2,ii>4σ1,ii成立,则很有可能Σ1̸=Σ
2. 其他的定量检验方法多基于似然比检验方法.单正态总体下检验Σ=Σ0此时样本X1,...,Xni.i.d∼Np(µ,Σ),Σ0>0已知,考虑假设 H0:Σ=Σ0↔H1:Σ̸=Σ
0 则似然函数为 −n/2−n/2[1∑n ′−
1 ] L(θ,Σ)=(2π)|Σ|exp−2(Xi−µ)Σ(Xi−µ) i=
1 PreviousNextFirstLastBackForward 20 从而似然比检验统计量为 maxL(µ,Σ0)λ1=mµaxL(µ,Σ)=(ne)np/2|BΣ−01|n/2e−12tr(BΣ−01) µ,Σ 其中B=∑n(Xi−x¯)(Xi−x¯)′.i=1SugiuraandNagao(1968)证明了基于λ1的检验是有偏的,但 是可以修正为无偏的: λ∗1=( e )( n− 1)p/2 |
S Σ −10 | ( n− 1)/
2 e− n −
2 1 tr (
S Σ−
0 1 ) n−
1 注意到 −2logλ∗1=(n−1)[tr(SΣ−01)−log|S|+log|Σ0|−p] 当n→∞时,−2logλ∗1→χ2p(p+1)/2.从而可得渐近水平α检验拒绝域 −2logλ∗1>χ2p(p+1)/2(α) PreviousNextFirstLastBackForward 21 k个正态总体的方差-协方差齐性检验假设样本X1(j),...,Xn(jj)i.i.d∼Np(µ(j),Σ(j)),j=1,...,k.n=n1+···+nk.且k个总体的样本之间相互独立.考虑假设 H0:Σ
(1)=···=Σ(k)↔H1:∃j̸=l,s.t.Σ(j)̸=Σ(l) 使用似然比检验方法,可以得到似然比检验统计量 Λ=∏kj=1|Bj/nj|nj/2=∏k(|Bj/nj|)nj/2 |Bp/n|n/2 |Bp/n| j=
1 其中Bj=∑ni=j1(Xi(j)−x¯(ij))(Xi(j)−x¯(ij))′和Bp=∑kj=1Bj. 使用无偏估计Sj和Spooled代替上式中的Bj和Bp,得到 ∗∏kj=1|Sj|nj/2Λ=|Spooled|(n−k)/2 其中Sj=1Bj,Spooled=1∑k(nj−1)Sj. nj−
1 n−kj=
1 PreviousNextFirstLastBackForward 22 k=2时候Λ∗在H0下的精确分布可以得到,但对k>2则不可得.
(1)Bartletttest(Bartlett,1937)在p=1时,Bartlett统计量定义为 2M1 ∑k X=d=d[(n−k)logSpooled−(nj−1)logSj] j=
1 其中d=1+3(k1−1)(∑jn1−1−n−1k),在H0下,j X2χ2k−
1 从而水平α检验的拒绝域为X2>χ2k−1(α). •Pitman(1939)表明Bartlett检验是无偏的,相合的. •Box(1953)表明Bartlett检验对正态性偏离非常敏感(不稳健),因此当零假设被拒绝时候,我们不知道是因为异方差原因还是非正态的原因. PreviousNextFirstLastBackForward 23
(2)Box’sMtest/Bartlett-BoxMtest(Box,1949,1950)考虑了多元场合.对−2logΛ∗的分布进行卡方近似,定义其M统计量为 ∑kM=−2logΛ∗=(n−k)log|Spooled|−(nj−1)log|Sj| j=
1 然后证明了在H0下, C=(1−c)Mχ2v,v=p(p+1)(k−1)/2 其中 [∑
1 1]2p2+3p−
1 c=nj−1−n−k6(p+1)(k−1) j 从而水平α检验的拒绝域为C>χ2v(α).当nj>20,k≤5,p≤5时,C逼近卡方分布程度非常好. PreviousNextFirstLastBackForward 24
(3)Box’sMtest/Bartlett-BoxFtest对较小的样本量,使用F分布可以得到一个更好的逼近:定义 (p−1)(p+2)[∑
1 1] c2=6(k−1) (nj−1)2−(n−k)
2 j v2=v,a+= v,a−=v2 |c2−c2| 1−c−vv 1−c+v2
2 2 定义F检验统计量{ F= aM+,v(av−2M−M), c2>c2c2Fv,v2(α). •Box’sM检验对正态性偏离非常敏感!
!
(Olsen,1974) •一些稳健的方差-协方差齐性检验方法已经被提出,TikuandSingh(1985),O’sBrien(1992),Anderson(2006)等. PreviousNextFirstLastBackForward 25

标签: #单位 #ct #证书 #什么意思 #cpu #cool #快捷键 #cad