11
StudentLectureNotes
11-
1 描述性第统计五章探索性数据分析 析偏前的态面内、讲容峰到度;的等反统映计集量中都趋属势于、探离索中性趋数势据、分析数内据容呈。
现的图、表也属于探索性数据分还有更多…… :--描S述P性统S计SAnalyzeDescriptiveStatisticsExploreDescriptives 月月月月 Mean 95%ConfidenceIntervalforMean LowerBoundUpperBound Statistic697.30630.35 764.26 Std.Error33.412 5%TrimmedMeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartileRangeSkewnessKurtosis 685.12 700.00 62514.433 250.029 99 1500 1401 300 .950 .319 2.494 .628 :
--描S述P性统S计SAnalyzeDescriptiveStatisticsExplore 月均支出Stem-and-LeafPlot FrequencyStem&Leaf 1.000.9.001..002. 1.003.04.004.000010.005.000000000511.006.000000000058.007.0000000011.008.000000000051.009.07.0010.00000002.00Extremes(>=1500) Stemwidth:100Eachleaf:1case(s) :--描S述P性统S计SAnalyzeDescriptiveStatisticsExplore 描述性第统计五章探索性数据分析 第一节数据变换第二节相关分析第三节(一元线性)回归分析 描述性统计 第一节数据变换
一.数据变换的定义
二.数据变换的作用
三.数据变换的方法 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
2 描述性统计
一.数据变换的定义 数据变换(datatransformation):通便过改某进种原方始法数将据原的始某数些据特进征行,重增新进表我达们对,数以据的理解和分析。
描述性统计
二.数据变换的作用 改善数据的对称性改善数据波动的稳定性改善不同指标的可比性及运算性 简化模型和分析方法适用于模型和分析方法便于理解和解释 描述性统计
三.数据变换的方法 线性变换幂变换 描述性统计 线性变换(lineartransformation) 原点的变换 y=x+a 如:分析剔除大盘影响后股票的走势 尺度的变换 y=bx 如:不同货币的兑换 原点和尺度的变换y=a+bx 如:标准化变换:y=xS−n−1x 描述性统计 幂变换 (exponentialtransformation) 变换Box-Cox ()xp−
1 y= p lnx ,p≠0,p=
0 改善正态性改善波动稳定性(方差齐性)使数据满足统计模型的假设和前提 描述性统计
三.数据变换的方法 线性变换幂变换注意:一般来说,变换需保持数据的顺序性! Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
3 描述性统计 数据变换的软件实现 据在变专换门的的功统能计软,件如如:
R,SAS、SPSS中都有数 数据标准化变换Box-Cox standardizeBox-Coxtransformation 描述性统计 第二节相关分析
一.变量相关的概念
二.相关系数及其计算 描述性统计 变量相关的概念 描述性统计 变量间的关系 函数关系相关关系 描述性统计 变量间的关系 (函数关系) 1.2. 是设随一有变一两量个对变应量的一确起x定和变关化y系,,变并量完 个y全取依数相赖值应于时的值,xx,,y则当依称变确量定是的x关取系某的y 函x数称,为记自为,变y量=称(inf为d(exy因p),en变其dxe量中nt variable)y 各观测点落在一条线上(dependentvariable)
3. x 描述性统计 变量间的关系 (函数关系) 函数关系的例子 某系可种表商示品为的销y=售p额x((py)为与单销价售)量(x)之间的关圆的面积(S)与半径之间的关系可表示为S= πR2 企量业消的耗原(x材)料、消原耗材额料(价y)与格产(x量)之(x间1)的、关单系位产可 表示为y
2 = x1 x2 x3
3 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
4 描述性统计 变量间的关系 (相关关系correlation)
1.变系精量确间表关达系不能用函数关y
2.一一个个变变量量唯的一取确值定不能由另
3.当量变y量的x取取值某可个能值有时几,个变(y 的取值有随机性)
4.各观测点分布在直线周围 x 描述性统计 变量间的关系 (相关关系) 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮温食度(亩x产)之量间(y的)与关施系肥量(x1)、降雨量(x2)、
3 收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系 描述性统计相关关系的类型 相关关系 线性相关非线性相关完全相关不相关正相关负相关正相关负相关 描述性统计相关关系的图示 完全正线性相关 完全负线性相关 非线性相关 正线性相关 负线性相关 不相关 描述性统计 相关系数及其计算 描述性统计 相关关系的测度: 相关系数coefficientofcorrelation
1.对变量之间关系密切程度的度量
2.对单相两关个系变数量之间线性相关程度的度量称为简
3.若为总相体关相系关数系是数根,据记总为体ρ全部数据计算的,称
4.系若数是,根记据为样本r数据计算的,则称为样本相关 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
5 描述性统计 相关关系的测度 (相关系数) 样本相关系数的计算公式 ∑n (xi−x)(yi−y) ∑∑r=i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 或化简为r= ∑∑∑n n n nxiyi−xiyi i=
1 i=1i=
1 ∑∑∑∑n n
2 nx2−x⋅ ii=
1 i=1i n n
2 ny2−y ii=
1 i=1i 描述性统计相关关系的测度 (相关系数取值及其意义) 1.r的取值范围是[-1,1] ∑n (xi−x)(yi−y) ∑∑r= i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义)
2.|r|=1的情况: |r|=1为完全线性相关r=
1,为完全正线性相关r=-
1,为完全负线性相关 ∑n(xi−x)(yi−y) ∑∑r= i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义) 3.r=0的情况: (xi−x)(yi−y)>0与(xi−x)(yi−y)<0相当 不存在线性相关关系相关 ∑n(xi−x)(yi−y) ∑∑r=i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义)
4.-11
n
n
(xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义) 5.00占优势
为正相关
∑n
(xi−x)(yi−y)
∑∑r=i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
6 描述性统计 相关关系的测度 (相关系数取值及其意义) 6表.示|r关|越系趋越于不1表密示切关系越密切;|r|越趋于
0 描述性统计 相关关系的测度 (相关系数取值及其意义) 习断惯上,按照|r|的取值大小,有如下的判标准:0~0.3不相关 000...358~~~001..58低显高度著度相相相关关关 描述性统计 相关关系的测度 (相关系数取值及其意义) 完全负线性相关无线性相关完全正线性相关 -1.0-0.5
0 +0.5+1.0 r 负相关程度增加正相关程度增加 描述性统计 相关关系的测度 (相关系数计算例) 【记例为】y,在把研人究均我国国民人收均入消记费为水x平。
的我问们题收中集,到把198全1~国1人99均3年消的费样额 本数据(xi
,yi),i=1,
2,…,,13数据见表
1,计算相关系数。
我国人均国民收入与人均消费金额数据单位:元 年份 人均人均国民收入消费金额 年份 人均人均国民收入消费金额 1981 393.8 249 1988 1068.8 643 1982 419.14 267 1989 1169.2 690 1983 460.86 289 1990 1250.7 713 1984 544.11 329 1991 1429.5 803 1985 668.29 406 1992 1725.9 947 1986 737.73 451 1993 2099.5 1148 1987 859.97 513 描述性统计 相关关系的测度 (计算结果) 解:根据样本相关系数的计算公式有 r
=n∑xy−∑x∑yn∑x2−(∑x)2⋅n∑y2−(∑y)
2 = 13×9156173.99−12827.5×7457 13×16073323.77−(12827.5)2⋅13×5226399−(7457)
2 =0.9987 系人均国民收入与人均消费金额之间的相关数为0.9987,高度相关。
描述性统计相关系数的显著性检验 (概念要点)
1.检验两个变量之间是否存在线性相关关系
2.等价于对回归系数β1的检验
3.采用t检验
4.检验的步骤为 提出假设:H0:ρ=0;H1:ρ≠
0 计算检验的统计量:t=rn−2~t(n−2) 确定显著性水平α,并作出1决−策r2 • 若,拒绝|t|>tα/2 H0 • 若,接受|t|7
描述性统计相关系数的显著性检验
(实例)
对前例计算的相关系数进行显著性检
(α=0.05)
1.提出假设:H0:ρ=0;H1:ρ≠02.计算检验的统计量 根据显著性水平=,查分布表得t=0.998713−2=64.98091−0.99872
3. α0.05t tα/2(n- 2)=2.201 消由费于|金t|=额64与.98人09均>国tα/2民(1收3-2入)=之
2.间20的
1,相拒关绝关H系
0,显人著均 描述性统计相关系数的显著性检验 (相关系数检验表的使用)
1.若1%相|t|应大的于值表,上称的变α量=5x%与相y之应间的有值显,著小的于线表性上关α系=
2.若有十|t分|大显于著表的上线α性=关1%系相应的值,称变量x与y之间
3.若没有|t明|小显于的表线上性α关=系5%相应的值,称变量x与y之间
4.根明据人前均例消的费金|t|额=与64人.9均809国>民t0.0收1/2(入13之-2间)=3有.1十05分8显,表著 的线性相关关系 描述性统计相关系数的显著性检验 (软件输出结果的解读) 只需解读检验统计量P值: 若P值≤0.0,5则拒绝原假设,即认为 也H0:ρ=0;H1:ρ≠0中的H0:ρ=0不成立,就是说相关系数不为
0,二者相关 反之,则认为ρ=0成立,即认为二者不相关 描述母性统计亲月均收入与你们月均支出的相关关系 描述母性统计亲月均收入与你们月均支出的相关关系 Correlations 母母母母母母母母月月 PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)
N 母简母单相数母关系 母母母母母月月
1 .070 .621 52 52 简关..单系0672相数01
1 显检著验5性的
2 56 P值 描述性统计母亲年龄与其月均收入的相关关系 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
8 描述性统计母亲年龄与其月均收入的相关关系 描述性统计计算简单相关系数 函数:EXCEL:correl“工具”-“数据分析”-“相关系数” SP“S分S析”-“相关”-“二元相关” R: cor() 描述性统计列联定表性(数co据nt的ing相en关cy性ta分bl析e):检验
一、什么是列联表?
二、列联表的功能与应用
三、著名的Simpson悖论 描述性统计 类序别号对的政观策点1反对2反对3反对4反对5反对6反对7赞成8赞成9赞成10赞成11赞成12赞成
一、什么是列联表 收入程度性别频数低收入男5低收入女2中等收入男8中等收入女7高收入男10高收入女9低收入男20低收入女25中等收入男10中等收入女15高收入男5高收入女
7 此观表点记,录并了根据12他3个们人的对收某入项程政度策和的性别进行了分类,共12类。
这样的列联表更直观,而且行和列都有很明确的意义 收入程度 性别观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 描述性统计
二、列—联—表分的析功定能性与变应量用的相关性 定量变量之间的相关性分析:用相关系数、散点图等方法 定性变量之间的相关性分析:用列联表、相应分析等方法 描述性统计
二、列—联—表分的析功定能性与变应量用的相关性 同学们以前在选择是否继续升学时,可能会想到一个问题:文化程度真会影响收入吗?让我们来看一个例子。
收入与文化程度是否相关为了解居民文化程度和年收入之间是否存在关系,在某地区随机访问了2764人,要求他们回答收入状况与文化程度两项指标,具体结果列在表中。
Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
9 描述性统计文化程度与收入数据 收入人(数元~()人文)化程度大以学上及中等初以等下及总计01500~15002000~20002500~25003000总以计上3000 186 38 227 54 219 78 355 112 653 285 1640 567 35 259 45 326 78 375 140 607 259
1197 5572764 描述性统计 列联表检验的假设: 例子的列联表检验结果:即检认验为的收p入值与小文于化
0.程05度,不拒独绝立原,假二设者,相关。
描述性统计 运用列联表检验方法需要注意:否每则个格,子结中果的不频一数定不可要靠小!于5!若1小、于增5加如样何本解量决?
2、合并某些变量值 描述性统计 高维列联表的分层与压缩 由此可见,列联表检验是针对两个定性变量相关性分析! 三——个解或决更方多案变是量:的分高层维或列压联缩表。
怎么分析? 收入程度 性别
观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 描述性统计 高维列联表的分层与压缩
1、分层 性别观点 男 反对赞成 女 反对赞成 收入程度收低入中收等入收高入
5 8 10 20 10
5 2
7 9 25 15
7 男性层: 观点 反对赞成 女性层: 观点 反对赞成 收入程度收低入中收等入收高入
5 8 10 20 10
5 收入程度收低入中收等入收高入
2 7
9 25 15
7 描述性统计 高维列联表的分层与压缩
2、压缩 收入程度 性别观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 将男性和女性合在一起 收入程度 观点收低入中收等入收高入 反对
7 15 19 赞成452512 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-10 描述性统计
三、著名的Simpson悖论 例:美国司法中是否存在种族歧视 下表是1976年至1977年美国佛罗里达州29个地区凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况。
凶手 死刑判决是否 死的刑比判例决 白人191410.119 黑人171490.102 可0.6以38,计因算此出应检接验受p原值假设为,即是可否以被认判为死凶刑手是的独肤立色的,与也时就不是会说因法为官凶在手进是行黑判人决就点更来倾看向,于是判没死有刑,种从族这歧一视的。
描述性统计 真是这样吗?继续看下表: 被人害 凶手 死刑判决是否 死决刑比判例 白人 白人黑人 1911 13252 12.6%17.5% 黑人 白人黑人 06 997 0.0%5.8% 无论被害人是白人还是黑人,白人凶手被判死刑的比例都比黑人凶手被判死刑的比例低。
这说明死刑判决与被害人的肤色有关:被害人是白人时,不论凶手是白人还是黑人,都判得严;而当被害人是黑人时,不论凶手是白人还是黑人,都判得不严。
法院判决有倾向性,这反映了种族歧视。
描述性统计 若不考虑被害人这一特征,数据显示没有种族歧视。
但由后面的表可知,被害人是白人时,白人凶手多;而当被害人是黑人时,黑人凶手多,所以合起来后,因被害人是白人的居多,白人凶手被判死刑的比例比黑人凶手被判死刑的比例高,尽管在被害人是白人或黑人时,白人凶手被判死刑的比例都比黑人凶手被判死刑的比例低。
令人费解的这类现象就是著名的悖论。
Simpson 像例子中,由于有“被害人”的混淆产生了偏差的情况,我们称之为有偏比较,将“被害人的肤色”这种混在其中的特征称为混杂因素。
在实际分析中,一定要注意全面分析,避免有偏比较! 描述性统计定性数据的相关性分析:列联表检验 数据: 描述性统计定性数据的相关性分析:列联表检验. 原假设与备择假设: 描述性统计定性数据的相关性分析:列联表检验 检验统计量:∑∑()χ2rsnij−Eij2 = i=1j=
1 Eij nij实际频数 理论频数Eij E=Ri⋅Lj⋅n=RiLj ij nn n Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-11 描述性统计定性数据的相关性分析:列联表检验 p值=P(X>χ2) 判断规则为:服的从随卡机方变分量布检验统计量否若则p值,<拒
0.绝05备,择则假拒设绝,原接假收设原,假接设受。
备择假设; 描述性统计列联表检验-软件操作 :SPSSAnalyze—DescriptiveStatistics—Crosstabs :Excel第第12步步::输计入算数各据行、各列的和第第34步步::计计算算理检论验频统数计量第第56步步::计做算出p判值断(用函数CHITEST完成) 描述性统计列联表检验-软件操作 :
R >x<-matrix(c(683,1498,2537,8747),2,2)>x [,1][,2][
1,]6832537[
2,]14988747>chisq.test(x) Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:xX-squared=77.8851,df=1,p-value<2.2e-16 描述性统计计算演示:文化程度与收入数据 收入人(数元~()人文)化程度大以学上及中等初以等下及总计01500~15002000~20002500~25003000总以计上3000 186 38 227 54 219 78 355 112 653 285 1640 567 35 259 45 326 78 375 140 607 259
1197 5572764 描述性统计定性数据的相关性分析 若列联表检验结果显示两个变量独立,则相关性分析结束;若两列个联变表量结之果间显是示怎两样个相变关量的相呢?关,则需要继续分析:12、、计采算用行相或应列分百析分方比法查看,寻找规律 描述性统计文化程度与收入数据 收入(~文元化)程度大及上学以中等初及下等以总计01500~15002000~20002500~25003000总以计上3000 1863822754219783551126532851640567 35259453267837514060725911975572764 X-squared=47.8923,df=8,p-value=1.036e-07 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-12 描述性统计文化程度与收入数据:行百分比 文化程度人数(人)大以学上及中等初以等下及总计收入(元) ~0150071.8114.6713.51100.00~1500200069.6316.5613.80100.00~2000250058.4020.8020.80100.00~2500300058.4818.4523.06100.00以上300054.5523.8121.64100.00 总计59.3320.5120.15100.00 描述性统计文化程度与收入数据:列百分比 文化程度人数(人)大以学上及中等初以等下及总计收入(元) ~0150011.346.706.289.37~1500200013.849.528.0811.79~2000250013.3513.7614.0013.57~2500300021.6519.7525.1321.96以上300039.8250.2646.5043.31 总计100.00100.00100.00100.00 描述性统计 对照组肺癌患者 定性变量相关性分析的其他问题: 吸烟不吸烟 3211 603 例:吸烟与肺癌是否相关?Cornfield(1956) ——这是一个连统计学家之间都争论不休的问题! 对某些资料,列联表检验是吸烟与肺癌是相关的;对另一些资料,列联表检验显示二者不相关;甚至还有生物学家提出二者不直接相关,是基因作祟:因为吸烟与某种基因有关,而这种基因导致患肺癌几率更高! 描述性统计 一元一次线性回归 •问题:研究两个变量之间的关系 源起:•Regression • SirFrancisGalton 研究优生学1911)()eugenics (1822- •孩的是子平高的均还身值是高矮,总不是管趋父向母于的总身体高 描述性统计 一元一次线性回归 描述性统计 一元一次线性回归 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-13 描述性统计一元一次线性回归–模型 •记•号因变量(dependent),一variable •自般变记量为y(independent),一variable •模型般记为x •• y或•=ε者β表0表+示β示随1x为+机εE误(差y,|x均)=值β为+0β,x方差为σ
2 0
1 找描述性统计•β
0 和 β一1使元得
一 次 线性回 归 – 模 型 估 计 ∧ ∧ E(y|x)=β0+β1x 在某种意(义下最优)和(,•Legendre)提出最小二乘法(1821)method 1805 Gauss1809Leastsquares 其中∧ ∧ yi=β0+β1xi 描述性统计一元一次线性回归–模型估计•利用微积分极值定量,得到•其中•同时 描述性统计 一元一次线性回归 描述性统计 一元一次线性回归 Statistics,7/e 描述性统计一元一次线性回归–模型估计•R实现 bw<-c(25,25,25,27,27,27,24,30,30,31,30,31,30,28,32,32,32,32,34,34,34,35,35,34,35,36,37,38,40,39,43)estriol<-c(7,9,9,12,14,16,16,14,16,16,17,19,21,24,15,16,17,25,27,15,15,15,16,19,18,17,18,20,22,25,24)plot(bw~estriol,xlab="Estriol",ylab="BirthWeight")rf<-lm(bw~estriol)#modelfitlines(fitted(rf)~estriol)#addreg.linetext(12,40,expression(paste("y=21.52+.608x")))#annotation ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-14 描述性统计一元一次线性回归–拟合优度•对于每个观察点 yi−y=(yi−yˆi)+(yˆi−y) 描述性统计一元一次线性回归–拟合优度•对于所有的观察点的离差平方和 •• 总记平为方和SS=T回=归SS平R方+和SS+E残差平方和 •判别系数(coefficientof)determination •• R2R2 越=S接S近R于/S1S,T则拟合的越好 •在的一相元关一系次数线的性平回方归中,R2即为x与y 描述性统计一元一次线性回归–拟合优度 >rf<-lm(bw~estriol)#modelfit>summary(rf) Call:lm(formula=bw~estriol) Coefficients:EstimateStd.ErrortvaluePr(>|t|) (Intercept)21.52342.62048.2144.68e-09***estriol0.60820.14684.1430.000271***--Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’
1 Residualstandarderror:3.821on29degreesoffreedom MultipleR-squared:0.3718,AdjustedR-squared:0.3501 F-statistic:17.16on1and29DF,p-value:0.0002712 >cor(bw,estriol)^2[1]0.3717722 描述性统计一元一次线性回归–显著性检验••是检否验存在E显(著y的|x线)=性β0关+系β1x •检验统计量 F=SSR/1SSE/(n−2) •拒绝原假设,认为线性关系显著,如果 F>F1−α(1,n−2) 或者等价的对应的p值小于α 描述性统计一元一次线性回归–拟合优度 >res<-lm(e_cz~GDP)#modelfit>summary(res) Call:lm(formula=e_cz~GDP) Coefficients:EstimateStd.ErrortvaluePr(>|t|) (Intercept)8406.2361269.5736.6215.92e-05*** GDP22.7752.11110.7887.90e-07*** --Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’
1 Residualstandarderror:1884on10degreesoffreedomMultipleR-squared:0.9209,AdjustedR-squared:0.913 F-statistic:116.4on1and10DF,p-value:7.898e-07 描述性统计一元一次线性回归–预测 平均(期望)值的估计• E(yˆ|x)=βˆ+βˆx
0 1 •对应的标准差为 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-15 描述性统计一元一次线性回归–预测•单个值的估计 描述性统计一元一次线性回归–预测•平均(期望)值的区间估计 •对应的标准差为 •妇之的前雌出三生醇婴水儿平体为重10-雌,三则醇平例均中值,估若计某为一孕 •因为yn+1=E(yn+1|xn+1)+ε,估计值方差变大。
•为9955%%置)信为区[2间,5(05即,3估,0计19值].落入区间的概率 描述性统计一元一次线性回归–预测•单个个人值的区间估计 •妇之的前雌出三生醇婴水儿平体为重10-雌,三则醇该例单中个,估若计某与一前孕面的平均值估计相同,27.6053.•为9955%%置)信为区[1间,9(37即,估
3,计58值4]落.比入前区面间得的到概的率平均值的置信区间要宽。
描述性统计一元一次线性回归–预测 >rf<-lm(bw~estriol)#modelfit >predict(rf,new=data.frame(estriol=10),interval= "confidence") fitlwr upr 127.6053325.0212430.18942 > >predict(rf,new=data.frame(estriol=10),interval= "prediction") fitlwr upr 127.6053319.3741435.83652 描述性统计一元一次线性回归–诊断 •• 如是否何数消据除中它存们在的个影别响“坏点” 或“奇异 点” 描述性统计一元一次线性回归–诊断 •残•差残分差析e=y−yˆ i i i 标准化残差ei • std(e) i Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-16 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计 一元一次线性回归 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-17 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 •Rcode library(car)rf<-lm(bw~estriol)#modelfitplot(rstudent(rf)~alues(rf),xlab="pred.value",ylab="studentizedresidual",main="BirthweightvsEstriol")abline(h=0)text(alues(rf),rstudent(rf),1:31) 描述性统计 作业 补充题1: b对o1x1-c.8ox题变中换数,据使“之每更平符方合米正月态租分金布”。
做使适用当适的当
的方法变现,变换前后的变化。
补充题2:9.4补充题3:11.6 Statistics,7/e ©1997Prentice-Hall,Inc.
1 描述性第统计五章探索性数据分析 析偏前的态面内、讲容峰到度;的等反统映计集量中都趋属势于、探离索中性趋数势据、分析数内据容呈。
现的图、表也属于探索性数据分还有更多…… :--描S述P性统S计SAnalyzeDescriptiveStatisticsExploreDescriptives 月月月月 Mean 95%ConfidenceIntervalforMean LowerBoundUpperBound Statistic697.30630.35 764.26 Std.Error33.412 5%TrimmedMeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartileRangeSkewnessKurtosis 685.12 700.00 62514.433 250.029 99 1500 1401 300 .950 .319 2.494 .628 :
--描S述P性统S计SAnalyzeDescriptiveStatisticsExplore 月均支出Stem-and-LeafPlot FrequencyStem&Leaf 1.000.9.001..002. 1.003.04.004.000010.005.000000000511.006.000000000058.007.0000000011.008.000000000051.009.07.0010.00000002.00Extremes(>=1500) Stemwidth:100Eachleaf:1case(s) :--描S述P性统S计SAnalyzeDescriptiveStatisticsExplore 描述性第统计五章探索性数据分析 第一节数据变换第二节相关分析第三节(一元线性)回归分析 描述性统计 第一节数据变换
一.数据变换的定义
二.数据变换的作用
三.数据变换的方法 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
2 描述性统计
一.数据变换的定义 数据变换(datatransformation):通便过改某进种原方始法数将据原的始某数些据特进征行,重增新进表我达们对,数以据的理解和分析。
描述性统计
二.数据变换的作用 改善数据的对称性改善数据波动的稳定性改善不同指标的可比性及运算性 简化模型和分析方法适用于模型和分析方法便于理解和解释 描述性统计
三.数据变换的方法 线性变换幂变换 描述性统计 线性变换(lineartransformation) 原点的变换 y=x+a 如:分析剔除大盘影响后股票的走势 尺度的变换 y=bx 如:不同货币的兑换 原点和尺度的变换y=a+bx 如:标准化变换:y=xS−n−1x 描述性统计 幂变换 (exponentialtransformation) 变换Box-Cox ()xp−
1 y= p lnx ,p≠0,p=
0 改善正态性改善波动稳定性(方差齐性)使数据满足统计模型的假设和前提 描述性统计
三.数据变换的方法 线性变换幂变换注意:一般来说,变换需保持数据的顺序性! Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
3 描述性统计 数据变换的软件实现 据在变专换门的的功统能计软,件如如:
R,SAS、SPSS中都有数 数据标准化变换Box-Cox standardizeBox-Coxtransformation 描述性统计 第二节相关分析
一.变量相关的概念
二.相关系数及其计算 描述性统计 变量相关的概念 描述性统计 变量间的关系 函数关系相关关系 描述性统计 变量间的关系 (函数关系) 1.2. 是设随一有变一两量个对变应量的一确起x定和变关化y系,,变并量完 个y全取依数相赖值应于时的值,xx,,y则当依称变确量定是的x关取系某的y 函x数称,为记自为,变y量=称(inf为d(exy因p),en变其dxe量中nt variable)y 各观测点落在一条线上(dependentvariable)
3. x 描述性统计 变量间的关系 (函数关系) 函数关系的例子 某系可种表商示品为的销y=售p额x((py)为与单销价售)量(x)之间的关圆的面积(S)与半径之间的关系可表示为S= πR2 企量业消的耗原(x材)料、消原耗材额料(价y)与格产(x量)之(x间1)的、关单系位产可 表示为y
2 = x1 x2 x3
3 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
4 描述性统计 变量间的关系 (相关关系correlation)
1.变系精量确间表关达系不能用函数关y
2.一一个个变变量量唯的一取确值定不能由另
3.当量变y量的x取取值某可个能值有时几,个变(y 的取值有随机性)
4.各观测点分布在直线周围 x 描述性统计 变量间的关系 (相关关系) 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮温食度(亩x产)之量间(y的)与关施系肥量(x1)、降雨量(x2)、
3 收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系 描述性统计相关关系的类型 相关关系 线性相关非线性相关完全相关不相关正相关负相关正相关负相关 描述性统计相关关系的图示 完全正线性相关 完全负线性相关 非线性相关 正线性相关 负线性相关 不相关 描述性统计 相关系数及其计算 描述性统计 相关关系的测度: 相关系数coefficientofcorrelation
1.对变量之间关系密切程度的度量
2.对单相两关个系变数量之间线性相关程度的度量称为简
3.若为总相体关相系关数系是数根,据记总为体ρ全部数据计算的,称
4.系若数是,根记据为样本r数据计算的,则称为样本相关 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
5 描述性统计 相关关系的测度 (相关系数) 样本相关系数的计算公式 ∑n (xi−x)(yi−y) ∑∑r=i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 或化简为r= ∑∑∑n n n nxiyi−xiyi i=
1 i=1i=
1 ∑∑∑∑n n
2 nx2−x⋅ ii=
1 i=1i n n
2 ny2−y ii=
1 i=1i 描述性统计相关关系的测度 (相关系数取值及其意义) 1.r的取值范围是[-1,1] ∑n (xi−x)(yi−y) ∑∑r= i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义)
2.|r|=1的情况: |r|=1为完全线性相关r=
1,为完全正线性相关r=-
1,为完全负线性相关 ∑n(xi−x)(yi−y) ∑∑r= i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义) 3.r=0的情况: (xi−x)(yi−y)>0与(xi−x)(yi−y)<0相当 不存在线性相关关系相关 ∑n(xi−x)(yi−y) ∑∑r=i=
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义)
4.-1
2 i=
1 i=
1 描述性统计相关关系的测度 (相关系数取值及其意义) 5.0
1 n n (xi−x)2(yi−y)
2 i=
1 i=
1 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
6 描述性统计 相关关系的测度 (相关系数取值及其意义) 6表.示|r关|越系趋越于不1表密示切关系越密切;|r|越趋于
0 描述性统计 相关关系的测度 (相关系数取值及其意义) 习断惯上,按照|r|的取值大小,有如下的判标准:0~0.3不相关 000...358~~~001..58低显高度著度相相相关关关 描述性统计 相关关系的测度 (相关系数取值及其意义) 完全负线性相关无线性相关完全正线性相关 -1.0-0.5
0 +0.5+1.0 r 负相关程度增加正相关程度增加 描述性统计 相关关系的测度 (相关系数计算例) 【记例为】y,在把研人究均我国国民人收均入消记费为水x平。
的我问们题收中集,到把198全1~国1人99均3年消的费样额 本数据(xi
,yi),i=1,
2,…,,13数据见表
1,计算相关系数。
我国人均国民收入与人均消费金额数据单位:元 年份 人均人均国民收入消费金额 年份 人均人均国民收入消费金额 1981 393.8 249 1988 1068.8 643 1982 419.14 267 1989 1169.2 690 1983 460.86 289 1990 1250.7 713 1984 544.11 329 1991 1429.5 803 1985 668.29 406 1992 1725.9 947 1986 737.73 451 1993 2099.5 1148 1987 859.97 513 描述性统计 相关关系的测度 (计算结果) 解:根据样本相关系数的计算公式有 r
=n∑xy−∑x∑yn∑x2−(∑x)2⋅n∑y2−(∑y)
2 = 13×9156173.99−12827.5×7457 13×16073323.77−(12827.5)2⋅13×5226399−(7457)
2 =0.9987 系人均国民收入与人均消费金额之间的相关数为0.9987,高度相关。
描述性统计相关系数的显著性检验 (概念要点)
1.检验两个变量之间是否存在线性相关关系
2.等价于对回归系数β1的检验
3.采用t检验
4.检验的步骤为 提出假设:H0:ρ=0;H1:ρ≠
0 计算检验的统计量:t=rn−2~t(n−2) 确定显著性水平α,并作出1决−策r2 • 若,拒绝|t|>tα/2 H0 • 若,接受|t|
1.提出假设:H0:ρ=0;H1:ρ≠02.计算检验的统计量 根据显著性水平=,查分布表得t=0.998713−2=64.98091−0.99872
3. α0.05t tα/2(n- 2)=2.201 消由费于|金t|=额64与.98人09均>国tα/2民(1收3-2入)=之
2.间20的
1,相拒关绝关H系
0,显人著均 描述性统计相关系数的显著性检验 (相关系数检验表的使用)
1.若1%相|t|应大的于值表,上称的变α量=5x%与相y之应间的有值显,著小的于线表性上关α系=
2.若有十|t分|大显于著表的上线α性=关1%系相应的值,称变量x与y之间
3.若没有|t明|小显于的表线上性α关=系5%相应的值,称变量x与y之间
4.根明据人前均例消的费金|t|额=与64人.9均809国>民t0.0收1/2(入13之-2间)=3有.1十05分8显,表著 的线性相关关系 描述性统计相关系数的显著性检验 (软件输出结果的解读) 只需解读检验统计量P值: 若P值≤0.0,5则拒绝原假设,即认为 也H0:ρ=0;H1:ρ≠0中的H0:ρ=0不成立,就是说相关系数不为
0,二者相关 反之,则认为ρ=0成立,即认为二者不相关 描述母性统计亲月均收入与你们月均支出的相关关系 描述母性统计亲月均收入与你们月均支出的相关关系 Correlations 母母母母母母母母月月 PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)
N 母简母单相数母关系 母母母母母月月
1 .070 .621 52 52 简关..单系0672相数01
1 显检著验5性的
2 56 P值 描述性统计母亲年龄与其月均收入的相关关系 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
8 描述性统计母亲年龄与其月均收入的相关关系 描述性统计计算简单相关系数 函数:EXCEL:correl“工具”-“数据分析”-“相关系数” SP“S分S析”-“相关”-“二元相关” R: cor() 描述性统计列联定表性(数co据nt的ing相en关cy性ta分bl析e):检验
一、什么是列联表?
二、列联表的功能与应用
三、著名的Simpson悖论 描述性统计 类序别号对的政观策点1反对2反对3反对4反对5反对6反对7赞成8赞成9赞成10赞成11赞成12赞成
一、什么是列联表 收入程度性别频数低收入男5低收入女2中等收入男8中等收入女7高收入男10高收入女9低收入男20低收入女25中等收入男10中等收入女15高收入男5高收入女
7 此观表点记,录并了根据12他3个们人的对收某入项程政度策和的性别进行了分类,共12类。
这样的列联表更直观,而且行和列都有很明确的意义 收入程度 性别观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 描述性统计
二、列—联—表分的析功定能性与变应量用的相关性 定量变量之间的相关性分析:用相关系数、散点图等方法 定性变量之间的相关性分析:用列联表、相应分析等方法 描述性统计
二、列—联—表分的析功定能性与变应量用的相关性 同学们以前在选择是否继续升学时,可能会想到一个问题:文化程度真会影响收入吗?让我们来看一个例子。
收入与文化程度是否相关为了解居民文化程度和年收入之间是否存在关系,在某地区随机访问了2764人,要求他们回答收入状况与文化程度两项指标,具体结果列在表中。
Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-
9 描述性统计文化程度与收入数据 收入人(数元~()人文)化程度大以学上及中等初以等下及总计01500~15002000~20002500~25003000总以计上3000 186 38 227 54 219 78 355 112 653 285 1640 567 35 259 45 326 78 375 140 607 259
1197 5572764 描述性统计 列联表检验的假设: 例子的列联表检验结果:即检认验为的收p入值与小文于化
0.程05度,不拒独绝立原,假二设者,相关。
描述性统计 运用列联表检验方法需要注意:否每则个格,子结中果的不频一数定不可要靠小!于5!若1小、于增5加如样何本解量决?
2、合并某些变量值 描述性统计 高维列联表的分层与压缩 由此可见,列联表检验是针对两个定性变量相关性分析! 三——个解或决更方多案变是量:的分高层维或列压联缩表。
怎么分析? 收入程度 性别
观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 描述性统计 高维列联表的分层与压缩
1、分层 性别观点 男 反对赞成 女 反对赞成 收入程度收低入中收等入收高入
5 8 10 20 10
5 2
7 9 25 15
7 男性层: 观点 反对赞成 女性层: 观点 反对赞成 收入程度收低入中收等入收高入
5 8 10 20 10
5 收入程度收低入中收等入收高入
2 7
9 25 15
7 描述性统计 高维列联表的分层与压缩
2、压缩 收入程度 性别观点收低入中收等入收高入 男 反对赞成 520 810 105 女 反对赞成 225 715 97 将男性和女性合在一起 收入程度 观点收低入中收等入收高入 反对
7 15 19 赞成452512 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-10 描述性统计
三、著名的Simpson悖论 例:美国司法中是否存在种族歧视 下表是1976年至1977年美国佛罗里达州29个地区凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况。
凶手 死刑判决是否 死的刑比判例决 白人191410.119 黑人171490.102 可0.6以38,计因算此出应检接验受p原值假设为,即是可否以被认判为死凶刑手是的独肤立色的,与也时就不是会说因法为官凶在手进是行黑判人决就点更来倾看向,于是判没死有刑,种从族这歧一视的。
描述性统计 真是这样吗?继续看下表: 被人害 凶手 死刑判决是否 死决刑比判例 白人 白人黑人 1911 13252 12.6%17.5% 黑人 白人黑人 06 997 0.0%5.8% 无论被害人是白人还是黑人,白人凶手被判死刑的比例都比黑人凶手被判死刑的比例低。
这说明死刑判决与被害人的肤色有关:被害人是白人时,不论凶手是白人还是黑人,都判得严;而当被害人是黑人时,不论凶手是白人还是黑人,都判得不严。
法院判决有倾向性,这反映了种族歧视。
描述性统计 若不考虑被害人这一特征,数据显示没有种族歧视。
但由后面的表可知,被害人是白人时,白人凶手多;而当被害人是黑人时,黑人凶手多,所以合起来后,因被害人是白人的居多,白人凶手被判死刑的比例比黑人凶手被判死刑的比例高,尽管在被害人是白人或黑人时,白人凶手被判死刑的比例都比黑人凶手被判死刑的比例低。
令人费解的这类现象就是著名的悖论。
Simpson 像例子中,由于有“被害人”的混淆产生了偏差的情况,我们称之为有偏比较,将“被害人的肤色”这种混在其中的特征称为混杂因素。
在实际分析中,一定要注意全面分析,避免有偏比较! 描述性统计定性数据的相关性分析:列联表检验 数据: 描述性统计定性数据的相关性分析:列联表检验. 原假设与备择假设: 描述性统计定性数据的相关性分析:列联表检验 检验统计量:∑∑()χ2rsnij−Eij2 = i=1j=
1 Eij nij实际频数 理论频数Eij E=Ri⋅Lj⋅n=RiLj ij nn n Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-11 描述性统计定性数据的相关性分析:列联表检验 p值=P(X>χ2) 判断规则为:服的从随卡机方变分量布检验统计量否若则p值,<拒
0.绝05备,择则假拒设绝,原接假收设原,假接设受。
备择假设; 描述性统计列联表检验-软件操作 :SPSSAnalyze—DescriptiveStatistics—Crosstabs :Excel第第12步步::输计入算数各据行、各列的和第第34步步::计计算算理检论验频统数计量第第56步步::计做算出p判值断(用函数CHITEST完成) 描述性统计列联表检验-软件操作 :
R >x<-matrix(c(683,1498,2537,8747),2,2)>x [,1][,2][
1,]6832537[
2,]14988747>chisq.test(x) Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:xX-squared=77.8851,df=1,p-value<2.2e-16 描述性统计计算演示:文化程度与收入数据 收入人(数元~()人文)化程度大以学上及中等初以等下及总计01500~15002000~20002500~25003000总以计上3000 186 38 227 54 219 78 355 112 653 285 1640 567 35 259 45 326 78 375 140 607 259
1197 5572764 描述性统计定性数据的相关性分析 若列联表检验结果显示两个变量独立,则相关性分析结束;若两列个联变表量结之果间显是示怎两样个相变关量的相呢?关,则需要继续分析:12、、计采算用行相或应列分百析分方比法查看,寻找规律 描述性统计文化程度与收入数据 收入(~文元化)程度大及上学以中等初及下等以总计01500~15002000~20002500~25003000总以计上3000 1863822754219783551126532851640567 35259453267837514060725911975572764 X-squared=47.8923,df=8,p-value=1.036e-07 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-12 描述性统计文化程度与收入数据:行百分比 文化程度人数(人)大以学上及中等初以等下及总计收入(元) ~0150071.8114.6713.51100.00~1500200069.6316.5613.80100.00~2000250058.4020.8020.80100.00~2500300058.4818.4523.06100.00以上300054.5523.8121.64100.00 总计59.3320.5120.15100.00 描述性统计文化程度与收入数据:列百分比 文化程度人数(人)大以学上及中等初以等下及总计收入(元) ~0150011.346.706.289.37~1500200013.849.528.0811.79~2000250013.3513.7614.0013.57~2500300021.6519.7525.1321.96以上300039.8250.2646.5043.31 总计100.00100.00100.00100.00 描述性统计 对照组肺癌患者 定性变量相关性分析的其他问题: 吸烟不吸烟 3211 603 例:吸烟与肺癌是否相关?Cornfield(1956) ——这是一个连统计学家之间都争论不休的问题! 对某些资料,列联表检验是吸烟与肺癌是相关的;对另一些资料,列联表检验显示二者不相关;甚至还有生物学家提出二者不直接相关,是基因作祟:因为吸烟与某种基因有关,而这种基因导致患肺癌几率更高! 描述性统计 一元一次线性回归 •问题:研究两个变量之间的关系 源起:•Regression • SirFrancisGalton 研究优生学1911)()eugenics (1822- •孩的是子平高的均还身值是高矮,总不是管趋父向母于的总身体高 描述性统计 一元一次线性回归 描述性统计 一元一次线性回归 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-13 描述性统计一元一次线性回归–模型 •记•号因变量(dependent),一variable •自般变记量为y(independent),一variable •模型般记为x •• y或•=ε者β表0表+示β示随1x为+机εE误(差y,|x均)=值β为+0β,x方差为σ
2 0
1 找描述性统计•β
0 和 β一1使元得
一 次 线性回 归 – 模 型 估 计 ∧ ∧ E(y|x)=β0+β1x 在某种意(义下最优)和(,•Legendre)提出最小二乘法(1821)method 1805 Gauss1809Leastsquares 其中∧ ∧ yi=β0+β1xi 描述性统计一元一次线性回归–模型估计•利用微积分极值定量,得到•其中•同时 描述性统计 一元一次线性回归 描述性统计 一元一次线性回归 Statistics,7/e 描述性统计一元一次线性回归–模型估计•R实现 bw<-c(25,25,25,27,27,27,24,30,30,31,30,31,30,28,32,32,32,32,34,34,34,35,35,34,35,36,37,38,40,39,43)estriol<-c(7,9,9,12,14,16,16,14,16,16,17,19,21,24,15,16,17,25,27,15,15,15,16,19,18,17,18,20,22,25,24)plot(bw~estriol,xlab="Estriol",ylab="BirthWeight")rf<-lm(bw~estriol)#modelfitlines(fitted(rf)~estriol)#addreg.linetext(12,40,expression(paste("y=21.52+.608x")))#annotation ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-14 描述性统计一元一次线性回归–拟合优度•对于每个观察点 yi−y=(yi−yˆi)+(yˆi−y) 描述性统计一元一次线性回归–拟合优度•对于所有的观察点的离差平方和 •• 总记平为方和SS=T回=归SS平R方+和SS+E残差平方和 •判别系数(coefficientof)determination •• R2R2 越=S接S近R于/S1S,T则拟合的越好 •在的一相元关一系次数线的性平回方归中,R2即为x与y 描述性统计一元一次线性回归–拟合优度 >rf<-lm(bw~estriol)#modelfit>summary(rf) Call:lm(formula=bw~estriol) Coefficients:EstimateStd.ErrortvaluePr(>|t|) (Intercept)21.52342.62048.2144.68e-09***estriol0.60820.14684.1430.000271***--Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’
1 Residualstandarderror:3.821on29degreesoffreedom MultipleR-squared:0.3718,AdjustedR-squared:0.3501 F-statistic:17.16on1and29DF,p-value:0.0002712 >cor(bw,estriol)^2[1]0.3717722 描述性统计一元一次线性回归–显著性检验••是检否验存在E显(著y的|x线)=性β0关+系β1x •检验统计量 F=SSR/1SSE/(n−2) •拒绝原假设,认为线性关系显著,如果 F>F1−α(1,n−2) 或者等价的对应的p值小于α 描述性统计一元一次线性回归–拟合优度 >res<-lm(e_cz~GDP)#modelfit>summary(res) Call:lm(formula=e_cz~GDP) Coefficients:EstimateStd.ErrortvaluePr(>|t|) (Intercept)8406.2361269.5736.6215.92e-05*** GDP22.7752.11110.7887.90e-07*** --Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’
1 Residualstandarderror:1884on10degreesoffreedomMultipleR-squared:0.9209,AdjustedR-squared:0.913 F-statistic:116.4on1and10DF,p-value:7.898e-07 描述性统计一元一次线性回归–预测 平均(期望)值的估计• E(yˆ|x)=βˆ+βˆx
0 1 •对应的标准差为 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-15 描述性统计一元一次线性回归–预测•单个值的估计 描述性统计一元一次线性回归–预测•平均(期望)值的区间估计 •对应的标准差为 •妇之的前雌出三生醇婴水儿平体为重10-雌,三则醇平例均中值,估若计某为一孕 •因为yn+1=E(yn+1|xn+1)+ε,估计值方差变大。
•为9955%%置)信为区[2间,5(05即,3估,0计19值].落入区间的概率 描述性统计一元一次线性回归–预测•单个个人值的区间估计 •妇之的前雌出三生醇婴水儿平体为重10-雌,三则醇该例单中个,估若计某与一前孕面的平均值估计相同,27.6053.•为9955%%置)信为区[1间,9(37即,估
3,计58值4]落.比入前区面间得的到概的率平均值的置信区间要宽。
描述性统计一元一次线性回归–预测 >rf<-lm(bw~estriol)#modelfit >predict(rf,new=data.frame(estriol=10),interval= "confidence") fitlwr upr 127.6053325.0212430.18942 > >predict(rf,new=data.frame(estriol=10),interval= "prediction") fitlwr upr 127.6053319.3741435.83652 描述性统计一元一次线性回归–诊断 •• 如是否何数消据除中它存们在的个影别响“坏点” 或“奇异 点” 描述性统计一元一次线性回归–诊断 •残•差残分差析e=y−yˆ i i i 标准化残差ei • std(e) i Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-16 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计 一元一次线性回归 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 Statistics,7/e ©1997Prentice-Hall,Inc. Chapter11 StudentLectureNotes 11-17 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 描述性统计一元一次线性回归–诊断 •Rcode library(car)rf<-lm(bw~estriol)#modelfitplot(rstudent(rf)~alues(rf),xlab="pred.value",ylab="studentizedresidual",main="BirthweightvsEstriol")abline(h=0)text(alues(rf),rstudent(rf),1:31) 描述性统计 作业 补充题1: b对o1x1-c.8ox题变中换数,据使“之每更平符方合米正月态租分金布”。
做使适用当适的当
的方法变现,变换前后的变化。
补充题2:9.4补充题3:11.6 Statistics,7/e ©1997Prentice-Hall,Inc.
声明:
该资讯来自于互联网网友发布,如有侵犯您的权益请联系我们。