SPSSFORWINDOWS,vcf文件怎么打开

文件 3

SPSSFORWINDOWS简明教程 二○○二年三月
1 目 录 第一章SPSS的安装与概貌..........................................................................................................................


7 第一节SPSS的安装..............................................................................................................................


7 1.1.1SPSS简介...............................................................................................................................


7 1.1.2SPSS的安装...........................................................................................................................


7 第二节SPSS的界面初识......................................................................................................................

10 1.2.1SPSS的启动.........................................................................................................................

10 1.2.2SPSS的主窗口.....................................................................................................................

11 1.2.3SPSS的菜单.........................................................................................................................

11 1.2.4SPSS的其他窗口.................................................................................................................

12 1.2.5SPSS的退出.........................................................................................................................

12 1.2.6SPSS的求助系统.................................................................................................................

12 第二章SPSS的数据管理..............................................................................................................................

13 第一节数据的输入.............................................................................................................................

13 2.1.1变量的定义.........................................................................................................................

13 2.1.2数据格式化.........................................................................................................................

13 2.1.3数据的输入.........................................................................................................................

14 2.1.4缺失值处理.........................................................................................................................

15 2.1.5变量标签.............................................................................................................................

16 2.1.6数据管理器列宽定义.........................................................................................................

16 第二节数据的编辑.............................................................................................................................

17 2.2.1数据的增删.........................................................................................................................

17 2.2.2数据的整理.........................................................................................................................

18 2.2.3数据的算术处理.................................................................................................................

23 第三节数据文件的管理.....................................................................................................................

27 2.3.1数据文件的调用.................................................................................................................

27 2.3.2数据文件的连接.................................................................................................................

28 2.3.3数据文件的保存.................................................................................................................

29 第三章SPSS文本文件的编辑....................................................................................................................

30 第一节文本文件的管理.....................................................................................................................

31 3.1.1文件的生成.........................................................................................................................

31 3.1.2文件的保存.........................................................................................................................

32 3.1.3文件的调用.........................................................................................................................

32 3.1.4文件的打印.........................................................................................................................

32 第二节文本文件的编辑.....................................................................................................................

32 3.2.1文本中文字的增删与修改.................................................................................................

32 3.2.2文本的选择.........................................................................................................................

33 3.2.3文本块的删除、移动与复制.............................................................................................

33 3.2.4文本块的打印.....................................................................................................................

33 3.2.5文本中文字的查找.............................................................................................................

34 3.2.6文本中文字的替换.............................................................................................................

34 第四章摘要性分析.....................................................................................................................................

35 第一节Frequencies过程......................................................................................................................

35 4.1.1主要功能.............................................................................................................................

35 4.1.2实例操作.............................................................................................................................

35 第二节Descriptives过程.....................................................................................................................

39 4.2.1主要功能.............................................................................................................................

39 4.2.2实例操作.............................................................................................................................

40 第三节Explore过程............................................................................................................................

42 4.3.1主要功能.............................................................................................................................

42
2 4.3.2实例操作.............................................................................................................................

42第四节Crosstabs过程.........................................................................................................................

47 4.4.1主要功能.............................................................................................................................

474.4.2实例操作.............................................................................................................................

47第五章平均水平的比较.............................................................................................................................

51第一节Means过程..............................................................................................................................

525.1.1主要功能.............................................................................................................................

525.1.2实例操作.............................................................................................................................

52第二节Independent-SamplesTTest过程............................................................................................

555.2.1主要功能.............................................................................................................................

555.2.2实例操作.............................................................................................................................

55第三节Paired-SamplesTTest过程.....................................................................................................

575.3.1主要功能.............................................................................................................................

575.3.2实例操作.............................................................................................................................

57第四节One-WayANOVA过程...........................................................................................................

595.4.1主要功能.............................................................................................................................

595.4.2实例操作.............................................................................................................................

60第六章方差分析.........................................................................................................................................

63第一节SimpleFactorial过程..............................................................................................................

636.1.1主要功能.............................................................................................................................

636.1.2实例操作.............................................................................................................................

63第二节GeneralFactorial过程.............................................................................................................

666.2.1主要功能.............................................................................................................................

666.2.2实例操作.............................................................................................................................

66第三节Multivarite过程.......................................................................................................................

696.3.1主要功能.............................................................................................................................

696.3.2实例操作.............................................................................................................................

69第七章相关分析.......................................................................................................................................

78第一节Bivariate过程..........................................................................................................................

787.1.1主要功能.............................................................................................................................

787.1.2实例操作.............................................................................................................................

78第二节Partial过程..............................................................................................................................

817.2.1主要功能.............................................................................................................................

817.2.2实例操作.............................................................................................................................

81第三节Distances过程.........................................................................................................................

837.3.1主要功能.............................................................................................................................

837.3.2实例操作.............................................................................................................................

83第八章回归分析.........................................................................................................................................

87第一节Linear过程..............................................................................................................................

878.1.1主要功能.............................................................................................................................

878.1.2实例操作.............................................................................................................................

88第二节CurveEstimation过程.............................................................................................................

918.2.1主要功能.............................................................................................................................

918.2.2实例操作.............................................................................................................................

91第三节Logistic过程............................................................................................................................

948.3.1主要功能.............................................................................................................................

948.3.2实例操作.............................................................................................................................

94第四节Probit过程...............................................................................................................................

978.4.1主要功能.............................................................................................................................

978.4.2实例操作.............................................................................................................................

97第五节Nonlinear过程.......................................................................................................................

101
3 8.5.1主要功能...........................................................................................................................

1018.5.2实例操作...........................................................................................................................

102第九章对数线性模型...............................................................................................................................

105第一节General过程..........................................................................................................................

1069.1.1主要功能...........................................................................................................................

1069.1.2实例操作...........................................................................................................................

106第二节Hierarchical过程...................................................................................................................

1109.2.1主要功能...........................................................................................................................

1109.2.2实例操作...........................................................................................................................

110第三节Logit过程..............................................................................................................................

1179.3.1主要功能...........................................................................................................................

1179.3.2实例操作...........................................................................................................................

117第十章分类分析.......................................................................................................................................

122第一节K-MeansCluster过程............................................................................................................

12310.1.1主要功能.........................................................................................................................

12310.1.2实例操作.........................................................................................................................

123第二节HierarchicalCluster过程.......................................................................................................

12710.2.1主要功能.........................................................................................................................

12710.2.2实例操作.........................................................................................................................

127第三节Discriminant过程..................................................................................................................

13210.3.1主要功能.........................................................................................................................

13210.3.2实例操作.........................................................................................................................

132第十一章因子分析.................................................................................................................................

13811.1主要功能..................................................................................................................................

13811.2实例操作..................................................................................................................................

138第十二章可靠性分析.............................................................................................................................

14512.1主要功能..................................................................................................................................

14512.2实例操作..................................................................................................................................

145第十三章非参数检验...............................................................................................................................

150第一节Chi-Square过程.....................................................................................................................

15013.1.1主要功能.........................................................................................................................

15013.1.2实例操作.........................................................................................................................

150第二节Binomial过程........................................................................................................................

15313.2.1主要功能.........................................................................................................................

15313.2.2实例操作.........................................................................................................................

153第三节Runs过程...............................................................................................................................

15413.3.1主要功能.........................................................................................................................

15413.3.2实例操作.........................................................................................................................

154第四节1-SampleK-S过程................................................................................................................

15613.4.1主要功能.........................................................................................................................

15613.4.2实例操作.........................................................................................................................

156第五节2IndependentSamples过程..................................................................................................

15713.5.1主要功能.........................................................................................................................

15713.5.2实例操作.........................................................................................................................

157第六节kIndependentSamples过程..................................................................................................

15913.6.1主要功能.........................................................................................................................

15913.6.2实例操作.........................................................................................................................

159第七节2RelatedSamples过程.........................................................................................................

16013.7.1主要功能.........................................................................................................................

16013.7.2实例操作.........................................................................................................................

161第八节KRelatedSamples过程........................................................................................................

163
4 13.8.1主要功能.........................................................................................................................

16313.8.2实例操作.........................................................................................................................

163第十四章生存分析...................................................................................................................................

165第一节LifeTables过程.....................................................................................................................

16514.1.1主要功能.........................................................................................................................

16514.1.2实例操作.........................................................................................................................

165第二节Kaplan-Meier过程.................................................................................................................

16914.2.1主要功能.........................................................................................................................

16914.2.2实例操作.........................................................................................................................

169第三节CoxRegression过程..............................................................................................................

17314.3.1主要功能.........................................................................................................................

17314.3.2实例操作.........................................................................................................................

173第十五章统计图的绘制...........................................................................................................................

179第一节直条图...................................................................................................................................

17915.1.1主要功能.........................................................................................................................

17915.1.2实例操作.........................................................................................................................

179第二节线图.......................................................................................................................................

18115.2.1主要功能.........................................................................................................................

18115.2.2实例操作.........................................................................................................................

181第三节区域图...................................................................................................................................

18315.3.1主要功能.........................................................................................................................

18315.3.2实例操作.........................................................................................................................

183第四节构成图...................................................................................................................................

18515.4.1主要功能.........................................................................................................................

18515.4.2实例操作.........................................................................................................................

185第五节高低区域图...........................................................................................................................

18715.5.1主要功能.........................................................................................................................

18715.5.2实例操作.........................................................................................................................

187第六节直条构成线图.......................................................................................................................

18815.6.1主要功能.........................................................................................................................

18815.6.2实例操作.........................................................................................................................

189第七节质量控制图...........................................................................................................................

19015.7.1主要功能.........................................................................................................................

19015.7.2实例操作.........................................................................................................................

190第八节箱图.......................................................................................................................................

19315.8.1主要功能.........................................................................................................................

19315.8.2实例操作.........................................................................................................................

193第九节均值相关区间图...................................................................................................................

19515.9.1主要功能.........................................................................................................................

19515.9.2实例操作.........................................................................................................................

195第十节散点图...................................................................................................................................

19715.10.1主要功能.......................................................................................................................

19715.10.2实例操作.......................................................................................................................

197第十一节直方图...............................................................................................................................

19915.11.1主要功能.......................................................................................................................

19915.11.2实例操作.......................................................................................................................

199第十二节正态概率分布图...............................................................................................................

20115.12.1主要功能.......................................................................................................................

20115.12.2实例操作.......................................................................................................................

202第十三节正态概率单位分布图.......................................................................................................

20315.13.1主要功能.......................................................................................................................

203
5 15.13.2实例操作.......................................................................................................................

203第十四节普通序列图.......................................................................................................................

207 15.14.1主要功能.......................................................................................................................

20715.14.2实例操作.......................................................................................................................

207第十五节时间序列图.......................................................................................................................

20815.15.1主要功能.......................................................................................................................

20815.15.2实例操作.......................................................................................................................

208
6 第一章SPSS的安装与概貌 第一节SPSS的安装 1.1.1SPSS简介 SPSS的全称是:StatisticalProgramforSocialSciences,即社会科学统计程序。
该软件是公认的最优秀的统计分析软件包之
一。
SPSS原是为大型计算机开发的,其版本为SPSSx,80年代初,微机开始普及以后,它率先推出了微机版本(版本为SPSS/PC+x.x),占领了微机市场,大大地扩大了自己的用户量,我国目前正在使用的用户中,绝大部分是使用3.0—4.0版本。
80年代末,Microsoft发表Windows后,SPSS迅速向Windows移植。
至1993年6月,正式推出SPSSforWindows6.0版本。
该版本不仅修正了以前版本的错误,改写一些模块使运行速度大大提高。
而且根据统计理论与技术的发展,增加了许多新的统计分析方法,使之功能日臻完善。
与以往的SPSSforDOS版本相比,SPSSforWindows显得更加直观易用。
首先,它采用现今广为流行的电子表格形式作数据管理器,使用户变量命名、定义数据格式、数据输入与修改等过程一气呵成,免除了原DOS版本在文本方式下数据录入的诸多不便;其次,采用菜单方式选择统计分析命令,采用对话框方式选择子命令,简明快捷,无需死记大量繁冗的语法语句,这无疑是计算机操作的一次解放;第
三,采用对象连接和嵌入技术,使计算结果可方便地被其他软件调用,数据共享,提高工作效率。
作为统计分析工具,理论严谨、内容丰富,数据管理、统计分析、趋势研究、制表绘图、文字处理等功能,几乎无所不包。
本使用指导以SPSSforWindows6.0为蓝本,以医学领域的相关资料为例子,简单明了地介绍它的具体使用方法。
1.1.2SPSS的安装 SPSSforWindows6.0共有7个部分,包括:Base、Pro.Stats、Adv.Stats、Tables、Trends、Categeries和LISREL。
具体内容介绍如下,用户可根据自身需求选择性安装,这样既节省硬盘空间,又方便使用。
Basesystem(基本统计系统) ACF(时间序列研究中的自动相关分析) 97K Aggregate(数据文件的汇总) 106K Anova(方差分析) 137K Autorecode(变量自动赋值处理) 49K Correlations(相关分析) 73K
7 Crosstabs(列联表处理)Curvefit(11种曲线模型的拟合)Date(变量定义与数据录入)Descriptives(均数、标准差等的描述性统计及Z-分数转换)Examine(数值分布形式的探究)Fit(定义程序运行条件)Flip(数据行列转换)Frequencies(频数表分析)Graph(统计图制作)List(原始数据显示)MatrixData(数据的矩阵处理)Mconvert(矩阵转化)Means(均数及均数差别的显著性检验)MultResponse(多变量数据的处理)NonparCorr(非参数资料的相关分析)NparTests(非参数检验)Oneway(单因素方差分析)PartialCorr(偏相关分析)Plot(曲线绘制)Rank(等级排序、计算正态分数、百分比等分析)Regression(回归分析)Report(结果输出)Sort(数据排序)SPChart(高分辨率的统计制图)SysfileInfo(显示SPSS格式的系统文件信息)TSPlot(时间序列资料的统计制图)T-Test(t-检验)基本统计系统共需硬盘空间 302K125K155K79K290K94K44K121K219K52K81K42K140K90K80K199K160K90K118K57K453K226K43K94K35K190K77K4.1M ProfessionalStatisticsoption(专业统计系统) Alscal(利用最小二乘法处理多等级测量资料) 404K Cluster(聚类分析) 166K Discriminant(判别分析) 435K Factor(因子分析) 296K Proximities(资料相似性分析) 117K QuickCluster(快速聚类分析) 104K
8 Reliability(可靠性分析)2SLS(两级最小二乘法分析)WLS(加权最小二乘法分析)专业统计系统共需硬盘空间 164K107K94K1.9M AdvancedStatisticsoption(高级统计系统) CoxRegression(Cox回归模型)Hiloglinear(多因子系统模式的对数线性模型)Kaplan-Meier(Kaplan-Meier生存时间模型)Loglinear(对数线性模型及最优化检验)Logistic(Logistic模型)Manova(协方差分析)Matrix(高级矩阵转换)Nonlinear(非线性分析)Probit(依照所需概率作拟合最优化分析)Survival(寿命表方式的生存分析)高级统计系统共需硬盘空间 374K155K160K207K351K738K490K147K134K178K2.9M 共需硬盘空间 Tablesoption(制表系统) 1.0M Trendsoption(趋势分析系统)Arima(Arima时间序列分析)Exsmooth(指数平滑拟合)ModelName(定义程序运行过程需调用的模块)Season(季节模型)Spectra(光谱时间序列分析)X11Arima(X11Arima时间序列分析)趋势分析系统共需硬盘空间 332K123K58K60K138K435K1.1M Categoriesoption(项目分类分析系统)本系统只提供键盘录入式的语法命令,共需硬盘空间 0.99M LISRELoption(线性结构方程式模型分析系统) 本系统只提供键盘录入式的语法命令,共需硬盘空间 0.64M
9 SPSS的安装步骤:
1、启动Windows,在程序管理器中选“文件”菜单的“运行”项,弹出“运行”对话框,点击“浏览...”钮,根据安装盘所在的驱动器(A:或B:或光盘)及其路径,找到SPSSINST.EXE文件,点击“确定”钮返回“运行”对话框,再点击“确定”钮,即运行安装程序。

2、安装程序运行后,出现安装选项对话框(如图1.1所示)。
用户可根据自己的需要选择欲安装的模块:即在所需的模块名前“…”内点击,使“…”内出现“:”表明选中;若再点击使“:”转为“…”表明取消选择。
选择完毕后点击OK钮。

3、指定安装的目标盘和安装文件的路径。

4、输入软件系列号码、用户姓名和单位名称。

5、根据安装过程的提示,依次顺序插换原盘直至安装完成。
最小安装大约需要15M硬盘空间(含必需中心系统14.2M和求助系统1.2M),完全安装大约需要28M硬盘空间。
图1.1SPSSFORWINDOWS的安装选项 第二节SPSS的界面初识1.2.1SPSS的启动 在Windows的程序管理器中双击SPSSFORWINDOWS图标以打开SPSS程序组,选择SPSS图标并双击之,即可启动SPSS。
SPSS启动成功后出现SPSS的封面及主窗口,5秒钟后或点击鼠标左键,封面消失,呈现SPSS的预备工作状态(如图1.2所示)。
10 1.2.2SPSS的主窗口 SPSS的主窗口名为SPSSforWindows,此为窗口的标题栏,当它呈蓝底白字时,表示该窗口为活动窗口,意即用户可对之进行操作。
非活动窗口的标题栏呈白底黑字,用户对之不能操作。
激活窗口的方法是点击该窗口的标题栏。
标题栏的左侧(即窗口的左上角)为窗口控制钮,点击它选择窗口的还原、移动、大小变换、最小化、最大化、关闭和与其它窗口的切换。
标题栏右侧(即窗口右上角)的两个钮:箭头向下的为最小化钮,点击它使窗口缩小为图标(但不是关闭窗口);箭头向上的为最大化钮,点击它使窗口充满整个屏幕。
该窗口的底部为系统状态栏,显示系统即刻的工作状况,这对用户了解系统情况十分有益。
图1.2SPSS的启动窗口 1.2.3SPSS的菜单 菜单栏共有9个选项:
1、File:文件管理菜单,有关文件的调入、存储、显示和打印等;
2、Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等;
3、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等;
4、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;
5、Statistics:统计菜单,有关一系列统计方法的应用;
6、Graphs:作图菜单,有关统计图的制作;
7、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等; 11
8、Windows:窗口管理菜单,有关窗口的排列、选择、显示等;
9、Help:求助菜单,有关帮助文件的调用、查寻、显示等。
点击菜单选项即可激活菜单,这时弹出下拉式子菜单,用户可根据自己的需求再点击子菜单的选项,完成特定的功能。
1.2.4SPSS的其他窗口 在SPSS的主窗口中还有两个窗口,一个是数据管理窗口,其标题名称是“Newdata”,且默认为激活状态。
数据管理器是一种典型的电子表格形式,用户可通过定义变量名、格式化数据类型后输入原始数值,并可根据需要对数据进行增删、剪贴、修改、存储等操作。
另一个是结果输出窗口,标题名称是“!
Output1”,启动时为非活动窗口,只有当完成一项处理后,才在该窗口显示处理过程提示和计算结果。
当进行某项具体的统计方法操作时,可点击对话框的“Paste”钮激活命令编辑窗口,其标题名称是“!
Syntax1”,或选Window菜单的!
Syntax1项也可激活命令编辑窗口。
用户可利用该窗口进行SPSS命令的输入、编辑和运行,这对熟悉DOS版本的SPSS用户是十分方便的。
上述三个窗口在实际操作时,经常因为内容很多,一个窗口中无法看到全部内容。
有两种方法可帮助用户看到全部内容:
1、使用窗口的滚动条每个窗口的右侧有一个垂直滚动条,用鼠标点击滚动条上下两头的箭号钮或用鼠标按住滚动条中的方块上下拖动,可使窗口中的内容前后翻滚;底边有一个水平滚动条,用鼠标点击滚动条左右两头的箭号钮或用鼠标按住滚动条中的方块左右拖动,可使窗口中的内容左右移动。
如此,用户便可看清所有内容。

2、改变窗口的大小一般情况下,鼠标指针是一个朝左上方的箭头,当把鼠标指针指向窗口边界时,鼠标指针变成双向箭头形。
这时,若按住鼠标左键移动,可改变窗口的大小,同样可看清窗口内容。
1.2.5SPSS的退出 完成SPSS的统计分析后,退出该系统的方法是:选File菜单的Exit项,回答系统提出的有关是否需要存储原始数据、计算结果和SPSS命令之后,即退到Windows的程序管理器中。
1.2.6SPSS的求助系统 SPSS提供了丰富且详尽的在线帮助。
主要有下列几种方式:
1、主窗口的Help菜单:在软件运行的任何时候,点击Help菜单选相关的子菜单,可得到所需的各种帮助。

2、主窗口的Utilities菜单:在Utilities菜单中,有Commandindex...子菜单,它提供有关SPSS各项统计分析技术能解决什么问题的信息。

3、各种对话框中的Help钮:在具体操作过程中,当弹出某一对话框时,一般总有Help钮,点击该钮,用户可得到这一对话框选项内容的详细帮助。

4、结果输出窗口中的Grossary钮:当用户在浏览计算结果时,可点击结果输出窗的Grossary钮,它显示各种专用统计术语的解释信息以便用户理解。
12
5、命令编辑窗口中的Syntax钮:激活命令编辑窗,可见一Syntax钮,点击该钮,可得到与用户正在编辑的命令相关的命令语法提示。
第二章SPSS的数据管理 统计分析离不开数据,因此数据管理是SPSS的重要组成部分。
详细了解SPSS的数据管理方法,将有助于用户提高工作效率。
SPSS的数据管理是借助于数据管理窗口和主窗口的File、Data、Transform等菜单完成的。
第一节数据的输入2.1.1变量的定义 先激活数据管理窗口,然后选Data菜单的DefineVariable...命令项,弹出DefineVariable对话框(见图1.1),在VariableName:框内输入变量名,如本例为x1。
图1.1变量定义对话框 2.1.2数据格式化 在DefineVariable对话框中点击Type...钮,弹出DefineVariableType对话框(如图1.2所示),用户可根据具体资料的属性对数据进行格式化。
DefineVariableType对话框中列出如下7 13 种数据类型: 图1.2定义变量类型对话框
1、Numeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(DecimalPlaces),默认为2位。

2、Comma:加显逗号的数值型,即整数部分每3位数加一逗号,其余定义方式同数值型。

3、Dot:3位加点数值型,无论数值大小,均以整数形式显示,每3位加一小点(但不是小数点),可定义小数位置,但都显示
0,且小数点用逗号表示。
如1.2345显示为12.345,00(实际是12345E-4).4、Scientificnotation:科学记数型,同时定义数值宽度(Width)和小数位数(DecimalPlaces),在数据管理窗口中以指数形式显示。
如定义数值宽度为
9,小数位数为
2,则345.678显示为3.46E+02。

5、Date:日期型,用户可从系统提供的日期显示形式中选择自己需要的。
如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。

6、Dollar:货币型,用户可从系统提供的日期显示形式中选择自己需要的,并定义数值宽度和小数位数,显示形式为数值前有$。

7、Customcurrency:常用型,显示为整数部分每3位加一逗号,用户可定义数值宽度和小数位数。
如12345.678显示为12,345.678。

8、String:字符型,用户可定义字符长度(Characters)以便输入字符。
用户选择完毕可点击Continue钮返回DefineVariable对话框。
2.1.3数据的输入 定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。
数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以1、2、
3、……表示,即第1、2、
3、……行;纵方向为电子表格的列,其列头以var00001,var00002,var00003……表示变量名。
行列交叉处称为单元格,即保存数据的空格。
鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。
单元格被激活后,用户即可向其中输入新数据或修改已有的数据。
图1.3所示即为一个已输入数据的数据管理窗口。
为方便起见,用户亦可省略定义变量和数据格式化两个步骤,一启动SPSS即向数据管理窗口 14 中键入原始数据,这时,变量名默认为var00001,var00002,var00003…… 图1.3数据管理器 2.1.4缺失值处理 在实际工作中,因各种原因会出现数值缺失现象,为此,SPSS提供缺失值处理技术。
在DefineVariable对话框中点击MissingValue...钮,弹出DefineMissingValues对话框(图1.4),用户有4个可选项: 15 图1.4缺失值定义对话框
1、Nomissingvalues:没有缺失值;
2、Discretemissingvalues:可定义1-3个。
如测量身高(厘米)的资料,可定义999为缺失值;性别的资料(男为
1、女为2),可定义-1为缺失值;
3、Rangeofmissingvalues:可定义缺失值的范围。
如脉搏资料,可定义0—9为缺失值;
4、Rangeplusonediscretemissingvalue:可定义缺失值的范围,同时定义另外1个不是这一范围的缺失值。
如定义0—9为脉搏的缺失值,同时定义999为身高的缺失值。
2.1.5变量标签 在DefineVariable对话框中点击Labels...钮,弹出DefineLabels对话框(图1.5),用户可定义变量标签和特定变量值的标签。
如定义变量hb的标签为“血红蛋白值”,同时定义12.36为“正常”,则可在DefineLabels对话框中的VariableLabel处输入变量标签名,在ValueLabels框中的Value处指定变量值,在ValueLabel处输入变量值标签,点击Add钮表示加入这种标签定义,点击Change表示更改原有标签,用户重新定义,点击Remove钮表示取消原有标签。
图1.5定义标签对话框 2.1.6数据管理器列宽定义 在DefineVariable对话框中点击ColumnFormat...钮,弹出DefineColumnFormat对话框(图1.6),用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:Left表示靠左、Center表示居中、Right表示靠右(此为默认方式)。
16 图1.6列宽格式定义对话框 第二节数据的编辑 输入的原始数据,经常在统计分析前或统计分析过程中,需要作一些特殊的处理。
为此,系统提供了如下主要方法。
2.2.1数据的增删 2.2.1.1增加一个新的变量列例如要在第2列前增加一个新的列,使原来的第2列右移变成第3列,则可先激活第2列的任 一单元格,然后选Data菜单的InsertVariable命令项,系统自动为用户在第2列前插入一个新的变量列,原第2列自动向右移一列成为第3列。
2.2.1.2增加一个新的观察单位(即增加一个新的行)例如要在第6个观察单位前增加一个观察单位(亦即在第6行前增加一行,使原来的第6行下 移成为第7行),则可先激活第6行的任一单元格,然后选Data菜单的InsertCase命令项,系统自动为用户在第6行前插入一个新的行,原第6行列自动向下移一行成为第7行。
2.2.1.3增加一个新的观察值例如由于输入错误,造成第7个观察单位的第4个变量值漏输,结果第8个观察单位的第4个 变量值误为第7个观察单位的第4个变量值,这样的情形使得数据管理器中的第4个变量值从第7行起全部上移,而合计例数少一个。
于是希望在第7行的第4列处插入1个单元格,原有数据依次下移恢复正常。
可先将鼠标指向在第7行第4列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第4列从第7行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第8行第4列交叉处的单元格,选Edit菜单的Paste命令项,可将剪贴板中的原第7行起的所有数据下移自第8行开始,并空出第7行第4列的单元格以便补入漏输的数值。
2.2.1.4删除一个行例如要删除第9行(即删除这个观察单位的所有观察值),则可先点击第9行的行头,这时整个 第9行被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该行即被删除。
2.2.1.5删除一个变量列 17 例如要删除第4个变量列,则可先点击第4列的列头,这时整个第4列被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该列即被删除。
2.2.1.6删除一个观察值 例如由于输入错误,造成第6个观察单位的第2个变量值重复输入,结果第7个观察单位的第2个变量值误为第6个观察单位的第2个变量值,第8个观察单位的第2个变量值误为第7个观察单位的第2个变量值,……,这样的情形使得数据管理器中的第2个变量值从第7行起全部下移,而合计例数多一个。
于是希望将第7行第2列的单元格删除,原有数据依次上移恢复正常。
可先将鼠标指向在第8行第2列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第2列从第8行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第7行第2列交叉处的单元格,按Del键删除该单元格的数值,选Edit菜单的Paste命令项,可将剪贴板中的原第8行起的所有数据上移自第7行开始,既填补第7行第2列的单元格,又恢复原有下移的数值。
2.2.2数据的整理 2.2.2.1数据的排序用户可按要求对数据管理器的数据进行排序。
选Data菜单的SortCases...命令项,弹出Sort Cases...对话框(图1.7),在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击¾钮使之进入Sortby框,然后在SortOrder框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击OK钮即可。
图1.7排序对话框 2.2.2.2数据的行列互换有时,用户需要将数据管理器中原先按行(列)方向排列的数据转换成按列(行)方向排列的 数据,这时可选Data菜单的Transpose...命令项,弹出Transpose...对话框(图1.8),在变量名列框中选1个或多个需要转换的变量,点击¾钮使之进入Variable(s)框,再点击OK钮即可。
产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。
若要将数据再转换回原来的排列方式,方法与上述过程相同。
18 图1.8行列互换框 2.2.2.3数据的分组汇总用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总,汇总的形式十分多样。
例如,要对下列数据(图1.9)按变量group的大小,把变量x1作平均值汇总、把变量x2作求和汇总。
选Data菜单的Aggregate...命令项,弹出AggregateData对话框(图1.10),在变量名列框中选group变量,点击¾钮使之进入BreakVariable(s)框,选x1变量进入AggregateVariable(s)框,因x1欲作平均值汇总,故点击Function...钮弹出AggregateData:AggregateFunction对话框(图1.11)选Meanofvalues项点击Continue钮返回;选x2变量进入AggregateVariable(s)框,因x2变量欲作求和汇总,故点击Function...钮选Sumofvalues项点击Continue钮返回。
再点击OK钮即可。
结果如图1.12所示。
图1.9欲作分组汇总的原始数据 图1.10分组汇总对话框 19 图1.11分组汇总的函数功能对话框 图1.12分组汇总后的数据 分组汇总提供的函数形式有:
1、Meanofvalues:求该组的平均值;
2、Standarddeviation:求该组的标准差;
3、Firstvalue:只保留该组的第1个数值;
4、Minimumvalue:只保留该组的最小值;
5、Lastvalue:只保留该组的最后1个数值;
6、Maximumvalue:只保留该组的最大值;
7、Numberofcases:合计该组的观察例数;
8、Sumofvalues:求该组所有观察值的和。

9、Percentageabove:先确定1个数值,求大于该数值的所有例数占总例数的百分比(0-100%);10、Percentagebelow:先确定1个数值,求小于该数值的所有例数占总例数的百分比(0-100%);11、Fractionabove:先确定1个数值,求大于该数值的所有例数占总例数的百分比(0-1);12、Fractionbelow:先确定1个数值,求小于该数值的所有例数占总例数的百分比(0-1);13、Percentageinside:先确定1个下限,再确定1个上限,求数值在该区间内的例数占总例数的百分比(0-100%);14、Percentageoutside:先确定1个下限,再确定1个上限,求数值在该区间外的例数占总例数的百分比(0-100%); 20 15、Fractioninside:先确定1个下限,再确定1个上限,求数值在该区间内的例数占总例数的百分比(0-1); 16、Fractionoutside:先确定1个下限,再确定1个上限,求数值在该区间外的例数占总例数的百分比(0-1)。
2.2.2.4数据的分割 数据也可根据需要,事先按用户的指定作分组(这种分组是系统内定义的,在数据管理器中并不一定明确体现,故亦可称之为分割),此后的所有分析都将按这种分组进行,除非取消数据分割的命令。
选Data菜单的SplitFile...命令项,弹出SplitFile对话框(图1.13),选Repeatanalysisforeachgroup表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选1个或多个变量点击¾钮使之进入GroupsBasedon框来作分组的依据。
若在数据分割之后要取消这种分组,可选Analyzeallcases项,则系统恢复如初。
调用SplitFile命令完成定义后,SPSS将在主窗口的最下面状态行中显示SplitFileOn字样;若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示SplitFileOn字样,意味着数据分割命令依然有效。
图1.13数据分割对话框 2.2.2.5数据的选择除按要求作数据分组分别作分析外(但这依然是将所有的资料全部代入分析),还可从所有资料 中选择一些数据进行统计分析。
选Data菜单的SelectCases...命令项,弹出SelectCases对话框(图1.14),系统提供如下几种选择方法: 图1.14数据选择对话框 21
1、Allcases:表示所有的观察例数都被选择,该选项可用于解除先前的选择;
2、Ifconditionissatisfied:表示按指定条件选择,点击If...钮,弹出SelectCases:If对话框(图1.15),先选择变量,然后定义条件;
3、Randomsampleofcases:表示对观察单位进行随机抽样,点击Sample...钮,弹出SelectCases:RandomSample对话框,有两种选择分式,一是大概抽样(Approximately)即键入抽样比例后由系统随机抽取,另一是精确抽样(Exactly)即要求从第几个观察值起抽取多少个;
4、Basedontimeorcaserange:表示顺序抽样,点击Range...钮,弹出SelectCases:Range对话框,用户定义从第几个观察值抽到第几个观察值;
5、Usefiltervariable:表示用指定的变量作过滤,用户先选择1个变量,系统自动在数据管理器中将该变量值为0的观察单位标上删除标记,系统对有删除标记的观察单位不作分析。
若用户在SelectCases对话框的UnselectedCasesAre框中选Deleted项,则系统将删除所有被标上删除标记的观察单位。
调用SelectCases命令完成定义后,SPSS将在主窗口的最下面状态行中显示FilterOn字样;若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示FilterOn字样,意味着数据选择命令依然有效。
图1.15选择条件对话框 2.2.2.6观察单位的秩次确定为了解在指定条件下某个或某些变量值的大小顺序,可选Transform菜单的RankCases...命 令项,弹出RankCases对话框(图1.16),从变量名列框中选1个或多个变量点击¾钮使之进入Variable(s)框作为按该变量值大小排序的依据。
若选1个或多个变量使之进入By框,则系统在排序时将按进入By框的变量值分组排序。
排序的结果将在数据管理器中新建1个变量名为原排序变量前加一特定排序类型字母(如原变量为x,则普通排序时变量为rx)的变量用于放置秩次。
用户可在RankCases对话框的AssignRank1to框中指定秩次排列方式:Smallestvalue表示最小值用1标注,之后为2、3、4……;Largestvalue表示最大值用1标注,之后为2、3、4……。
22 图1.16观察单位排序对话框 若点击RankCases对话框的RankTypes...钮,可选择排序类型(图1.17):
1、Rank:普通秩次,排序类型字母r;
2、FractionalRankaspercent;累积百分秩次,排序类型字母p;
3、Savagescore:以指数分布为基础的原始分秩次,排序类型字母s;
4、Sumofcaseweights:分组例数之和的权重秩次,排序类型字母n;
5、FractionalRank:分组例数之和占总例数累积百分比秩次,排序类型字母r;
6、Ntiles:先给定一个大于1的整数,系统按此数范围确定排序的秩次,排序类型字母n。
图1.17观察单位排序类型对话框 2.2.3数据的算术处理 2.2.3.1变量的加权选Data菜单的WeightCases...命令项,可对指定的数值变量进行加权。
在弹出的WeightCases 对话框中(图1.18),Donotweightcases表示不做加权,这可用于对做过加权的变量取消加权;Weightcasesby表示选择1个变量做加权。
在加权操作中,系统只对数值变量进行有效加权,即大于0的数按变量的实际值加权,
0、负数和缺失值加权为
0。
加权操作在χ2检验中是必不可少的,且一旦该变量做过加权操作,那么,一方面系统自动根据用户对已加权变量值的修改做加权变换,另一方面用户除非取消加权,否则即使改变变量名,系统依然对该变量进行加权操作。
调用WeightCases命令完成定义后,SPSS将在主窗口的最下面状态行中显示WeightOn字样; 23 若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示WeightOn字样,意味着数据加权命令依然有效。
图1.18数据加权对话框 2.2.3.2数据的运算与新变量的生成选Transform菜单的Compute...命令项,既可对选定的变量进行运算操作,又可通过运算操作 让系统生成新的变量。
在弹出的ComputeVariable对话框中(图1.19),用户首先在TargetVariable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击Type&Label...钮确定是数值型变量,还是字符型变量,或加上变量标签。
在NumericExpression框中键入运算公式,系统提供计算器和82种函数(在Functions框内)让用户使用;若点击If...钮会弹出ComputeVariable:IfCases对话框(类似于图1.15的选择条件对话框),用户可指定符合条件的变量参与运算。
如本例是要求系统生成一个新变量x1,x1=x的绝对值+y-0.123×z。
点击OK钮即可。
结果在数据管理器中产生一个新变量x1。
图1.19数据运算对话框 2.2.3.3变量值个数的清点对于数值型变量,某个或某些值在各观察单位中的出现次数可以作清点。
选Transform菜单的 24 Count...命令项,在弹出的CounturrencesofValuewithinCases对话框中(图1.20),先在TargetVariable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后指定需要清点的变量,即在变量名列中选择1个或多个变量点击¾钮使之进入NumericVariable(s)框,再点击DefineValues...钮,弹出CountValuewithinCases:ValuetoCount对话框,确定哪些数值作为清点对象。
选Value表示单一数值为清点对象;选System-missing或System-orusermissing表示系统或用户指定的缺失值为清点对象;选Range表示指定数值范围为清点对象。
还可点击If...钮指定条件来确定参与清点的观察单位。
图1.20数值清点对话框 2.2.3.4变量的重新赋值在数据管理器中,用户可对各单元的数值重新赋予新值。
这种操作只适用于数值型变量。
选 Transform菜单的Recode命令项,此时有两种选择:一是对变量自身重新赋值(IntoSameVariables...),一是对其它变量或新生成的变量进行赋值(IntoDifferentVariables...)。
若选第一种赋值方法,在弹出的RecodeintoSameVariables对话框中(图1.21),先在变量名列中选1个或多个变量点击¾钮使之进入NumericVariables框,然后点击OldandNewValues...钮弹出RecodeintoSameVariables:OldandNewValue对话框,用户根据实际情况确定旧值和新值,点击Continue钮返回,再点击OK钮即可。
若选第二种赋值方法,在弹出的RecodeintoDifferentVariables对话框中(图1.22),先在变量名列中选1个或多个变量点击¾钮使之进入NumericVariableÆOutputVariable框,同时在OutputVariable框确定一赋值变量(可以是数据管理器中已有的变量,也可以是用户要求生成的新变量),然后点击OldandNewValues...钮弹出RecodeintoDifferentVariables:OldandNewValue对话框,用户根据实际情况确定旧值和新值,点击Continue钮返回,再点击OK钮即可。
在两种赋值情况下,用户均可点击If...钮指定条件来确定参与清点的观察单位。
与Compute方法不同的是:Recode方法不能进行运算,只能根据指定变量值作数值转换,且这种转换是单一数值的转换。
25 图1.21自身变量赋值对话框 图1.22非自身变量赋值对话框 2.2.3.5缺失值的替代对于缺失值,可采取多种手段进行科学替代。
选Transform菜单的ReplaceMissingValues... 命令项,在弹出的ReplaceMissingValues对话框中(图1.23),先在变量名列中选1个或多个存在缺失值的变量点击¾钮使之进入NewVariable(s)框,这时系统自动产生用于替代缺失值的新变量,用户也可在Name框处自己定义替代缺失值的新变量名。
然后点击Method的下箭头选择缺失值的替代方式: 26 图1.23数值清点对话框
1、Seriesmean:用该变量的所有非缺失值的均数做替代;
2、Meanofnearbypoints:用缺失值相邻点的非缺失值的均数做替代,取多少个相邻点可任意定义;
3、Medianofnearbypoints:用缺失值相邻点的非缺失值的中位数做替代,取多少个相邻点可任意定义;
4、Linearinterpolation:用缺失值相邻两点非缺失值的中点值做替代;
5、Lineartrendatpoint:用线性拟合方式确定替代值。
第三节数据文件的管理 2.3.1数据文件的调用 选File菜单的Open命令项,再选Data...项,弹出OpenDataFile对话框,用户确定盘符、路径、文件名后点击OK钮,即可调入数据文件。
系统支持如下格式的数据文件:
1、SPSS:SPSSforWINDOWS版本的数据文件,后缀为.sav;
2、SPSS/PC+:SPSSforDOS版本的数据文件,后缀为.sys;
3、SPSSportable:SPSS的ASCII格式的机器码,可用于网络传输,后缀为.por;
4、Excel:微软公司电子表格的数据文件,后缀为.xls;
5、Lotus:莲花公司电子表格的数据文件,后缀为.w*;
6、SYLK:扩展格式电子表格的ASCII格式,后缀为.slk;7、dBASE:数据库的数据文件,后缀为.dbf;
8、Tab-delimited:以空格为分隔的ASCII格式的数据文件,后缀为.dat。
27 2.3.2数据文件的连接 2.3.2.1纵向连接——观察单位的追加利用数据连接功能可以将两个或两个以上的具有相同变量格式的数据文件连在一起。
选Data菜 单的MergeFiles命令项,选AddCases...项,弹出AddCases:ReadFile对话框(类似于图1.24),用户确定盘符、路径、文件名后点击OK钮,即完成连接。
如本例有两个数据文件:data1.sav和data3.sav(图1.25),它们具有共同的变量name、x1、x2,将之连接后如图1.26所示。
图1.24数据文件调用对话框 图1.25待连接的数据文件 (A) (B) 图1.26连接后的数据文件28 2.3.2.2横向连接——变量值的合并利用数据连接功能还可以将两个或两个以上的具有相同观察单位的数据文件连在一起。
选Data 菜单的MergeFiles命令项,选AddVariables...项,弹出AddVariables:ReadFile对话框(类似于图1.24),用户确定盘符、路径、文件名后点击OK钮,即完成连接。
如本例有两个数据文件:data1.sav和data2.sav(图1.27),它们具有共同的观察单位zhangsan、lisi、wanwu、maliu,将之连接后如图1.28所示。
图1.27待连接的数据文件 (A) (B) 图1.28连接后的数据文件 2.3.3数据文件的保存 输入数据管理器中的数据,无论什么时候(完成统计后或未作任何分析前或数据尚未输完,等),用户均可对之进行保存,以便于再使用(可以用于下次再追加数据、或作其他统计处理、或转成其 29 他格式的数据文件供别的软件使用,等)都可以将数据文件保存起来。
选File菜单的SaveAs...命令项,弹出Newdata:SaveDataAs对话框(图1.29),用户确 定盘符、路径、文件名以及文件格式后点击OK钮,即可保存数据文件。
图1.29数据文件保存对话框 系统可由用户通过点击SaveFileasType框的下箭头,选择确定完成下列格式数据文件的存放:
1、SPSS(*.sav):SPSSforWINDOWS版本的数据格式;
2、SPSS/PC+(*.sys):SPSSforDOS版本的数据格式;
3、SPSSPortable(*.por):SPSSforWINDOWS版本的ASCII码数据格式;
4、Tab-delimited(*.dat):用空格分割的ASCII码数据格式;
5、FixedASCII(*.dat):混合ASCII码数据格式;
6、Excel(*.xls):Excel的数据格式;7、1-2-3Rel3.0(*.wk3):Lotus3.0版本的数据格式;8、1-2-3Rel2.0(*.wk1):Lotus2.0版本的数据格式;9、1-2-3Rel1.0(*.wks):Lotus1.0版本的数据格式;10、SYLK(*.slk):扩展方式电子表格的数据格式;11、dBASEⅣ(*.dbf):dBASEⅣ版本的数据格式;12、dBASEⅢ(*.dbf):dBASEⅢ版本的数据格式;13、dBASEⅡ(*.dbf):dBASEⅡ版本的数据格式。
第三章SPSS文本文件的编辑 上一章介绍了SPSS数据管理窗口的使用方法。
在第一章中,我们还提到过SPSS的其他窗口, 30 如结果输出窗口(图3.1)和命令编辑窗口(图3.2),这两个窗口是系统用于接收或输出文本的。
用户经常在实际工作中需要对之进行必要的编辑。
SPSS的文本编辑是借助于主窗口的File、Edit等菜单完成的,本章介绍SPSS的文本编辑方法。
图3.1结果输出窗口(对变量x进行Descriptives统计过程分析的结果) 图3.2命令编辑窗口(对变量x进行Descriptives统计过程分析的语法) 第一节文本文件的管理3.1.1文件的生成 SPSS文本文件主要有两种生成方法:
1、在进行统计分析时,系统会将出错信息、数据转换情况、统计运算的中间环节和最终结果送到结果输出窗口中,这就是结果文本的内容;
2、在调用Statistics菜单的统计过程命令项时,会弹出统计过程对话框,这时若点击Paste钮就会出现命令编辑窗口,在该窗口中显示了与SPSSForDOS相类似的SPSS语法命令,这就是命令文本的内容。
无论是结果文本还是命令文本,用户都可以对之进行必要的编辑。
31 3.1.2文件的保存 对于出现在结果输出窗口和命令编辑窗口的文本内容,用户可以将之保存起来以便日后查阅。
方法是:先激活该窗口(窗口标题栏为蓝底白字时,即为活动窗口),然后选File菜单的SaveAs...命令项,弹出SaveAs对话框,用户指定盘符、路径和文件名后点击OK钮即可保存文件。
系统对结果文本的文件名默认后缀为.lst,对命令文本的文件名默认后缀为.sps。
3.1.3文件的调用 对存盘的文本文件,可以在需要时调用它。
选File菜单的Open命令项,再选SPSSSyntax...项,弹出OpenSPSSSyntax对话框,用户指定盘符、路径和文件名后点击OK钮即可调用后缀为.lst的结果文本文件;若选File菜单的Open命令项,再选SPSSOutput...项,弹出OpenOutput对话框,用户指定盘符、路径和文件名后点击OK钮即可调用后缀为.sps的语法文本文件。
3.1.4文件的打印 用户还可将文本打印出来以便阅读或保存。
先激活需要打印的窗口,然后选File菜单的Print...命令项,弹出Print对话框,用户确定是全部打印(All)还是选择部分打印(Selection),并确定打印份数(Copies)后,点击OK钮即可将文本内容送往打印机。
系统在File菜单中还提供PrinterSetup...命令项,选择命令项可对打印机类型、纸张尺寸、打印边界、打印输出方向、打印分辩率和打印颜色深浅度进行设定。
第二节文本文件的编辑 显示在结果输出窗口和命令编辑窗口的文本内容,就象任何显示在文字处理器中的文字内容一样,可以按用户的需要做修改、增删、移动、查找、替换等操作。
但SPSS毕竟不是专门的文字处理器,而是统计分析软件,因此,其文本编辑的功能相对有限。
对其文本内容,尤其是运算结果的有关内容,用户经常需将之体现在专业报告中。
如果用户想仅仅依靠SPSS有限的文本编辑功能直接就着输出的结果进行文章撰写,那么会发现其排版功能的不足让人捉襟见肘。
本节介绍SPSS的文本编辑的功能,旨在让用户对输出结果或统计命令作必要的编辑,以便直接打印或通过WINDOWS的剪贴板剪切或拷贝后供其他文字处理器(如Word、Wordperfect等)使用。
3.2.1文本中文字的增删与修改 激活结果输出窗口或命令编辑窗口后,用户可使用方向键和Home、End、PageUp、PageDown键或直接用鼠标(在文本区内,鼠标呈“I”状)移动和确定光标位置,以便进行文字的增删与修改。
其中Å键为光标左移;Æ键为光标右移;Ç键为光标上移;È键为光标下移;Home键为光标移至行头;End键为光标移至行尾;Ctrl+Home键为光标移至篇头;Ctrl+End键为光标移至篇尾;PageUp键为上翻一页;PageDown键为下翻一页。
32 移动光标至所需位置时,即可进行文字的增删与修改。
在默认情况下,编辑处于插入状态,用户在光标位置上击键即可插入文字;若想覆盖原有的文字,可先按Insert键关闭插入状态,这时键入的文字将逐一取代光标位置之后的原有文字;若想删除文字,则可使用Delete键和Backpace键,用Delete键可删除光标后面的文字,用Backpace键可删除光标前面的文字。
在结果输出窗口中,每隔几行文字,其最左边会显示一个a符号,这是打印分页符(有的是◊符号,两个◊之间的内容为一次完整统计过程的结果输出块)。
对于一般的打印纸,当保留系统提供的分页符时,会出现每打印十数行就换页的情况,这样十分浪费纸张。
故一般需要将分页符删除:即将光标移至分页符后按Backpace键即可消除分页符。
必要时,用户可重新对文本加入a符号和◊符号。
选Edit菜单的AddPageBreak命令项可加入a符号;选Edit菜单的AddOutputBreak命令项可加入◊符号。
3.2.2文本的选择 上面所讲的方法用于少数几个文字的删除是很方便的,但实际工作中需要对几行或数段文字(即文本块)进行删除或移动,这时就需要应用文本选择方法。
将鼠标移至需选择的文本块之首,按住鼠标左键拖动鼠标,直至所需文本块全部选中后放开鼠标左键,被选中的文本块呈黑底白字;若感到拖动鼠标的操作有困难,也可改用键盘选择方式,即先将光标移至需选择的文本块之首,然后按住Shift键不放,再同时按方向键移动光标,便可选择所需的文本块。
还可调用Edit菜单的Select命令项进行文本块选择,它有几个选项:
1、All:窗口里的内容全部选择,可用于结果文本也可用于命令文本;
2、Page:窗口里当前区域内显示的一个页面的内容(即两个分页符之间的内容)被选择,只适用于结果文本;
3、OutputBlock:窗口里当前区域内显示的一个输出块的内容(即两个◊符之间的内容)被选择,只适用于结果文本;
4、Command:窗口里当前区域内显示的一个命令段的内容被选择,只适用于命令文本。
3.2.3文本块的删除、移动与复制 完成文本块的选择之后,就可以进行所需的删除、移动或复制操作了。

1、删除:选好文本块后,按Del键或选Edit菜单的Clear命令项,即可将选好的文本块删除;
2、移动:已有的文本可能需要移到另一处,这时可先选好需要移到别处的文本块,再选Edit菜单的Cut命令项,将该文本块剪切送入Windows的剪贴板中(该文本块从原处消失),然后将光标移到所需的位置,选Edit菜单的Paste命令项,即完成文本块的移动;
3、复制:已有的文本可能在另一处也需要,这时可先选好该文本块,再选Edit菜单的Copy命令项,将该文本块拷入Windows的剪贴板中(该文本块在原处仍保留),然后将光标移到所需的位置,选Edit菜单的Paste命令项,即完成文本块的复制。
3.2.4文本块的打印 被选取的文本块,可直接送打印机输出。
选File菜单的Print...命令项,弹出Print对话框, 33 系统默认选Selection项,用户确定打印份数后点击OK钮即可。
3.2.5文本中文字的查找 激活结果输出窗口或命令编辑窗口,选Edit菜单的SearchForText...命令项,弹出SerachForText对话框(图3.3),用户在Serachfor框中输入需要查找的文字,然后确定是否忽略字母的大小写(Ignorecase),点击SerachForward钮可要求系统向后查找,点击SearchBackward钮可要求系统向前查找。
图3.3文本文字查找对话框 3.2.6文本中文字的替换 激活结果输出窗口或命令编辑窗口,选Edit菜单的ReplaceText...命令项,弹出ReplaceText对话框(图3.4),用户在Serachfor框中输入替换前的文字,在Replacewith框中输入替换后的文字,确定是否忽略字母的大小写(Ignorecase),并确定系统的查找方向(向后为SerachForward,向前为SearchBackward)。
点击Search钮,系统找到替换处时会暂停询问用户是否做替换操作,若要点击ReplacethenSearch钮,系统替换后继续再查找;若不要可点击Search钮再查找或点击Close钮结束替换操作。
用户在十分肯定的情况下可点击ReplaceAll钮,系统将不做任何询问快速自动地全部替换。
图3.4文本文字替换对话框 34 第四章摘要性分析 摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。
统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。
通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2检验。
本章将介绍其操作方法。
第一节Frequencies过程 4.1.1主要功能 调用此过程可进行频数分布表的分析。
频数分布表是描述性统计中最常用的方法之
一,此外还可对数据的分布趋势进行初步分析。
4.1.2实例操作 [例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。
7.437.886.887.807.048.056.977.127.358.057.957.567.507.887.207.207.207.437.127.207.507.357.887.437.586.507.437.126.976.807.357.507.206.437.588.036.977.437.357.357.587.586.887.657.047.128.127.507.046.807.047.207.657.437.657.766.737.207.507.437.357.957.357.476.507.658.167.547.277.276.727.657.277.047.726.886.736.736.737.277.587.357.507.277.357.357.278.167.037.437.357.957.047.657.277.728.437.507.657.04 4.1.2.1数据准备激活数据管理窗口,定义血清总蛋白含量的变量名为
X,然后输入血清总蛋白含量的原始数据, 结果见图4.1。
35 图4.1输入血清总蛋白含量值 4.1.2.2统计分析激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框 (图4.2)。
现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框。
同时可点击Format...钮弹出Frequencies:Format对话框,在Orderby栏中有四个选项:Ascendingvalues为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。
在PageFormal栏中可定义结果输出的格式。
本例选Ascendingvalues项后点击Continue钮返回Frequencies对话框。
图4.2频数表分析对话框 点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。
本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(
S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。
36 图4.3频数表分析的统计指标对话框 点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Barchart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。
本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(Withnormalcurve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。
4.1.2.3结果解释在输出结果窗口中将看到如下统计数据:系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组 频数占总例数的百分比、Validpercent为各组频数占总例数的有效百分比、CumPercent为各组频数占总例数的累积百分比。
XValueLabel Value6.436.506.726.736.806.886.977.037.047.127.207.277.357.437.477.507.547.567.58 Frequency121423317477 11817115 Percent1.02.01.04.02.03.03.01.07.04.07.07.0 11.08.01.07.01.01.05.0 ValidPercent 1.02.01.04.02.03.03.01.07.04.07.07.011.08.01.07.01.01.05.0 CumPercent 1.03.04.08.010.013.016.017.024.028.035.042.053.061.062.069.070.071.076.0 37 7.657.727.767.807.887.958.038.058.128.168.43 Total 72113312121-----100 7.02.01.01.03.03.01.02.01.02.01.0------100.0 7.02.01.01.03.03.01.02.01.02.01.0------100.0 83.085.086.087.090.093.094.096.097.099.0100.0 接着输出各基本统计指标,其中均数为7.366,标准误为0.039,中位数为7.350,众数为7.350,标准差为0.394,方差为0.155,峰度系数为0.034,峰度系数的标准误为0.478,偏度系数为0.06,偏度系数的标准误为0.241,全距为2.000,最小值为6.430,最大值为8.430,25%位数为7.120,50%位数为7.350,75%位数为7.580,共100个观察值,无缺失值。
MeanModeKurtosisSESkewMaximum 7.3667.350.034.2418.430 Percentile25.00 Value7.120 Validcases 100 StderrStddevSEKurtRange .039.394.4782.000 MedianVarianceSkewnessMinimum 7.350.155.060 6.430 Percentile50.00 Value7.350 Missingcases
0 Percentile75.00 Value7.580 最后系统输出带有正态曲线的直方图(图4.4),由图中可见,数据基本呈现正态分布形状。
Histogram 30 20 Frequency 10 Std.Dev=.39 Mean=7.37
0 N=100.00 6.506.757.007.257.507.758.008.258.50
X 38 图4.4频数分布的直方图 从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。
为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。
选Transform菜单Recode项的IntoDifferentVariable...命令项,在弹出的RecodeIntoDifferentVariable对话框中选x点击钮使之进入NumericVariable→OutputVariable框,在OutputVariable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。
点击OldandNewValues钮弹出RecodeIntoDifferentVariable:OldandNewValues对话框,在Oldvalue栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在Newvalue栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回RecodeIntoDifferentVariable对话框,再点击OK钮即完成。
系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。
X1ValueLabel Value6.406.606.807.007.207.407.607.808.008.40 Total Frequency358 12252310 761------100 Percent3.05.08.0 12.025.023.010.0 7.06.01.0------100.0 ValidPercent 3.05.08.012.025.023.010.07.06.01.0------100.0 CumPercent 3.08.016.028.053.076.086.093.099.0100.0 Validcases 100 Missingcases
0 第二节Descriptives过程 4.2.1主要功能 调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。
39 4.2.2实例操作 [例4-2]调查20名男婴的出生体重(克)资料如下,试作描述性统计。
27702915279529952860297030873126312546542272350334183921266942183707231025733881 4.2.2.1数据准备激活数据管理窗口,定义男婴出生体重的变量名为
X,然后输入男婴出生体重的原始数据。
4.2.2.2统计分析激活Statistics菜单选Summarize中的Descriptives...命令项,弹出Descriptives对话框 (图4.5)。
现欲对男婴出生体重进行描述性分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框;本例要求将原始数据转换成z分值,故选Savestandardizedvalueasvariables项。
图4.5描述性统计对话框 点击Options...钮,弹出Descriptives:Options对话框(图4.6)。
框中各指标的意义请读者参阅本章第一节。
选好项目后点击Continue钮返回Descriptives对话框,再点击OK钮即可。
40 图4.6描述性统计指标对话框 4.2.2.3结果解释在结果输出窗口中将看到如下统计数据:均数为3188.450,标准误为140.681,标准差为 629.146,方差为395824.997,峰度系数为0.118,峰度系数的标准误为0.992,偏度系数为0.732,偏度系数的标准误为0.512,全距为2382.000,最小值为2272,最大值为4654,有效例数为100,无缺失值。
Numberofvalidobservations(listwise)=VariableX 20.00 MeanStdDevKurtosisSkewnessRangeMaximum 3188.450629.146 .118.7322382.0004654
S.E.MeanVarianceS.E.KurtS.E.SkewMinimumSum 140.681395824.997 .992.512227263769.000 Validobservations- 20 Missingobservations-
0 此外,系统以zx为变量名将原始数据转换成标准z分值,存放在原数据库中(图4.7)。
例如,2770−3188.45 已知均数为3188.450,标准差为629.146,故原始值2770的Z分值为629.146=-0.66511;3881−3188.45 原始值2770的Z分值为629.146=1.10078。
新变量具有均值为
0、标准差为1的特征,亦即变量的标准化过程。
41 图4.7原始数据及其标准Z分值 第三节Explore过程 4.3.1主要功能 调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。
4.3.2实例操作 [例4-3]下表为30名10岁少儿的身高(cm)资料,试作探索性分析。
编身高 编身高 号男孩女孩号男孩 女孩 1121.4133.49128.22131.5132.710137.43132.6130.111135.54129.2136.712129.05134.1139.713132.26135.8133.014140.97140.4140.315129.38136.0124.0 125.4137.5120.9138.8138.6141.4137.5 4.3.2.1数据准备激活数据管理窗口,定义少儿身高的变量名为
X,然后再定义一个变质为SEX,用于作性别分组。
顺序输入少儿身高的原始数据,在变量SEX中,男孩输入
1、女孩输入
2。
4.3.2.2统计分析 42 激活Statistics菜单选Summarize中的Explore...项,弹出Explore对话框(如图4.8),现欲对少儿身高资料进行分组的探索性分析,故在对话框左侧的变量列表中选x点击钮使之进入DependentList框,再选sex点击钮使之进入FactorList框。
图4.8探索性分析对话框 点击Statistics...钮,弹出Explore:Statistics对话框(图4.9),有如下选项:
1、Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;
2、M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;
3、Outliers:输出五个最大值与五个最小值;
4、Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数;
5、GroupedFrequencytables:输出分组的例数与数值范围表。
本例全部选择,之后点击Continue钮返回Explore对话框。
图4.9探索性分析统计对话框 点击Plot...钮弹出Explore:Plot对话框(图4.10),在Boxplot栏内选Factorlevelstogether项要求按组别进行箱图绘制;在Descriptive栏内选Stem-and-leaf项要求作茎叶情形描述。
之后点击Continue钮返回Explore对话框,再点击OK钮即可。
43 图4.10探索性分析绘图对话框 4.3.2.3结果解释在结果输出窗口中将看到如下统计数据:先输出男孩的数据。
共15例,无缺失值,其均数为132.9,中位数为132.6,5%修正均数为 133.0944,均数的95%置信区间为130.0706~135.7294,标准误为1.3192,方差为26.1043,标准差为5.1092,最小值为121.4,最大值为140.9,全距为19.5,四分位全距为6.8,偏度系数为-0.4239,偏度系数的标准误为0.5801,峰度系数为0.4961,峰度系数的标准误为1.1209。
接着输出四个不同权重下作中心趋势的粗略最大似然确定数,对于伴有长拖尾的对称分布数据或带有个别极端数值的数据,用粗略最大似然确定数替代均数或中位数,结果更准确。
系统还进行数据的茎叶情形描述。
如系统指出男孩的身高资料中,有一个数值是茎为12,叶为
1,其实该数值是121.4;有四个数值是茎为12,叶为8999,其实这些数值是129.2、128.2、190.0、129.3。
再接着输出百分位数:第5%位数是121.4,第10%数是125.48,第25%位数是129.2,第50%位数是132.6,第75%位数是136,第90%位数是140.6。
并输出最大五个数和最小五个数:最大五个数是140.9,140.4,137.4,136.0,135.8;最小五个数是121.4,128.2,129.0,129.2,129.3。
最后输出频数分布表。
XBySEXValidcases: 15.0 1Missingcases:.0 Percentmissing:.0 Mean 132.9000StdErr 1.3192 Median132.6000Variance26.1043 5%Trim133.0944StdDev 5.1092 95%CIforMean(130.0706,135.7294) MinMaxRangeIQR 121.4000140.9000 19.50006.8000 SkewnessSESkewKurtosisSEKurt -.4239.5801.49611.1209 M-Estimators ------------ Huber(1.339) 132.9127Tukey(4.685) Hampel(1.700,3.400,8.500)133.0153Andrew(1.340*pi) 133.0901133.0904 Frequency1.004.00 Stem&12*12. Leaf18999 44 4.004.002.00Stemwidth:Eachleaf: 13*122413.556714*00 10.01case(s) Percentiles5.0000Haverage121.4000Tukey'sHinges 10.0000125.4800 Percentiles----------25.000050.0000129.2000132.6000129.2500132.6000 75.0000136.0000135.9000 90.0000140.6000 95.0000 5Highest140.9140.4137.4136.0135.8 Case#Case:14Case:7Case:10Case:8Case:
6 ExtremeValues-------------
5 Lowest121.4128.2129.0129.2129.3 Case#Case:1Case:9Case:12Case:4Case:15 BinCenter126.4136.4 FrequencyTable-------------- Freq5.0010.00 Pct33.3366.67 ValidPct 33.3366.67 CumPct33.33100.00 下一部分为系统输出的女孩资料分析结果,其意义同上述。
XBySEXValidcases: 15.0 2Missingcases:.0 Percentmissing:.0 Mean 134.0000StdErr1.6428 Median136.7000Variance40.4829 5%Trim134.3167StdDev6.3626 95%CIforMean(130.4765,137.5235) MinMaxRangeIQR 120.9000141.4000 20.50008.7000 SkewnessSESkewKurtosisSEKurt -.8937.5801-.27471.1209 Huber(1.339) M-Estimators-----------135.4183Tukey (4.685) 136.2104 45 Hampel(1.700,3.400,8.500)135.1852Andrew(1.340*pi) 136.2327 Frequency2.001.004.006.002.00 Stemwidth:Eachleaf: Stem&Leaf12*0412.513*023313.67788914*0110.01case(s) Percentiles5.0000Haverage120.9000Tukey'sHinges 10.0000122.7600 Percentiles----------25.000050.0000130.1000136.7000131.4000136.7000 75.0000138.8000138.7000 90.0000140.7400 95.0000 5Highest141.4140.3139.7138.8138.6 Case#Case:29Case:22Case:20Case:27Case:28 ExtremeValues-------------
5 Lowest120.9124.0125.4130.1132.7 Case#Case:26Case:23Case:24Case:18Case:17 BinCenter125.9135.9145.9 FrequencyTable-------------- Freq4.00 10.001.00 Pct26.6766.676.67 ValidPct 26.6766.67 6.67 CumPct26.6793.33100.00 此外,按用户要求,系统输出箱图。
图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值。
46 150 140 130 120 X 110
1 2 SEX图4.11性别分组少儿身高资料的箱图 第四节Crosstabs过程 4.4.1主要功能 调用此过程可进行计数资料和某些等级资料的列联表分析,在分析中,可对二维至n维列联表(RC表)资料进行统计描述和χ2检验,并计算相应的百分数指标。
此外,还可计算四格表确切概率(Fisher’sExactTest)且有单双侧(One-Tail、Two-Tail),对数似然比检验(LikelihoodRatio)以及线性关系的Mantel-Haenszelχ2检验。
4.4.2实例操作 [例4-4]用两组大白鼠诱发鼻咽癌的动物实验中,一组单纯用亚硝胺鼻注,另一组附加维生素B12,生癌率如下表,问两组生癌率有无差别? 动物分组 生癌鼠数 未生癌鼠数合计 生癌率(%) 亚硝胺组 52 19 亚硝胺+B12组 39
3 71 73.2 42 92.9 合计 91 22 113 80.5 4.4.2.1数据准备激活数据管理窗口,定义变量名:count为频数变量(行列对应的频数值),group为组变量(行), test为试验结果变量(列)。
按顺序输入相应的变量(图4.12)。
47 图4.12原始数据的输入 4.4.2.2统计分析在进行计数资料的分析前,应对频数变量的值进行加权处理。
先激活Data菜单,选Weight Cases...项,弹出WeightCases对话框,选Weightcasesby,再选变量count点击钮使之进入FrequenceVariable框中,点击OK钮完成加权。
激活Statistics菜单,选Summarize中的Crosstabs...项,弹出Crosstabs对话框(如图4.13示)。
在Crosstabs对话框中,选group点击钮使之进入Row(s)框,选test点击钮使之进入Column(s)框。
点击Statistics...钮,弹出Crosstabs:Statistics对话框(图4.14),其中Chi-square即为读者所熟悉的χ2检验。
由于在实际研究中,变量间的依赖强度和特征也是需要考虑的,χ2值不是列联强度的好的度量,故用户可根据实际需要选择其他相关的指标: 图4.13列联表分析对话框 图4.14列联表统计方法对话框
1、定距变量的关联指标Correlations:可作列联表行、列两变量的Pearson相关系数或作伴随组秩次的Spearman相关系数。

2、定类变量的关联指标 χ
2 Contingencycoefficient:列联系数,其值=例数; χ2+
N,界于0~1之间,其中N为总 48 PhiandCramer'sV:ψ系数= χ2N,用于描述相关程度,在四格表χ2检验中界于-1~ χ
2 1之间,在RC表χ2检验中界于0~1之间;Cramer'sV=N(k-1),界于0~1之间,其中k 为行数和列数较小的实际数; Lambda:λ值,在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好, 为0时表明自变量预测应变量差; Uncertaintycoefficient:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后
变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

3、定序变量的关联指标 P−
Q Gamma:γ值=P+
Q,P为同序对子数,Q为异序对子数,界于0~1之间,所有观察实际 数集中于左上角和右下角时,其值为1; P−
Q Somers'D:Somers'D值=P+Q+Tvd,Tvd为独立变量上不存在同分的偶对中,同序对子 数超过异序对子数的比例; P−
Q Kendall'stau-b:Kendallτb=(p+Q+Tv1)(P+Q+Tv2),Tv1为在V1变量上是 同序在V2变量上不是的对子数,Tv2为在V2变量上是同序在V1变量上不是的对子数,Kendallτ b值界于-1~1之间;Kendall'stau-c:Kendallτc= 2m(P−Q)N2(m+1),m为行数和列数较小的实际数,Kendallτ c值界于-1~1之间。

4、其他指标Kappa:内部一致性系数;Eta:Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;Risk:相对危险度。
点击Cells...钮,弹出Crosstabs:Cells对话框(图4.15),用于定义列联表单元格中需要计算 的指标。
Observed为实际观察数,Expected为理论数,Row为行百分数,Column为列百分数,Total为合计百分数,Raw为实际数与理论数的差值,Standardized为实际数与理论数的差值除理论数,Adj.Standardized为由标准误确立的单元格残差。
选择后点击Continue钮返回Crosstabs对话框,再点击OK钮即可。
49 图4.15列联表单元对话框 4.4.2.3结果解释在结果输出窗中,系统先输出四格表资料,包括实际观察数、理论数、行百分数、列百分数和 合计百分数。
TESTbyGROUP GROUP Count| ExpVal| RowPct| ColPct| Row TotPct| 1| 2|Total TEST --------+--------+--------+ 1|52|39|91 |57.2|33.8|80.5% |57.1%|42.9%| |73.2%|92.9%| |46.0%|34.5%| +--------+--------+ 2|19| 3|22 |13.8|8.2|19.5% |86.4%|13.6%| |26.8%|7.1%| |16.8%|2.7%| +--------+--------+ Column 71 42 113 Total62.8%37.2%100.0% 接着输入有关统计数据,Pearsonχ2值为6.47766,P值为0.01092,可认为亚硝胺+B12组的生癌率较高;校正χ2值为5.28685,P值为0.02149;M-T检验χ2值为6.42034,P值为0.01128;最小理论数为8.177,故不需作精确概率计算。
(如果四格表中有理论频数小于5时,Crosstabs命令会自动进行Fisher精确概率计算)。
内部一致性系数为-0.21731,Pearson相关系数和Spearman相关系数均为0.23943。
第一组对第二组的相对危险性RR值为21%左右(0.21053),即可认为第二组生癌的相对危险性为第一组的4.75倍。
50 Chi-Square Value DF -------------------- ----------- ---- Pearson 6.47766
1 ContinuityCorrection 5.28685
1 LikelihoodRatio 7.31007
1 Mantel-Haenszeltestfor6.42034
1 linearassociation Significance------------ .01092.02149.00686.01128 MinimumExpectedFrequency-8.177 Statistic-------------------KappaPearson'sRSpearmanCorrelation Value--------- -.21731-.23943-.23943 ASE1------- .07083.07447.07447 Val/ASE0--------2.54513-2.59807-2.59807 ApproximateSignificance------------ .01065*4.01065*
4 *4VAL/ASE0isat-valuebasedonanormalapproximation,asisthesignificance Statistic Value -------------------- -------- RelativeRiskEstimate(TEST1/TEST2): casecontrol .21053 cohort(GROUP1Risk) .66165 cohort(GROUP2Risk)3.14286 95%ConfidenceBounds----------------------- .05816.518721.06940 .76211.843979.23654 NumberofMissingObservations:
0 第五章平均水平的比较 在正态或近似正态分布的计量资料中(如临床常见的体温、血压、脉搏、身高、体重等测量值,几乎均为此类资料),经常在使用前一章计量资料描述过程分析后,还要进行组与组之间平均水平的比较。
本章将分四节分别介绍这一统计方法:即常用的t检验和单因素方差分析。
51 第一节Means过程 5.1.1主要功能 与第四章中Descriptives过程相比,若仅仅计算单一组别的均数和标准差,Means过程并无特别之处;但若用户要求按指定条件分组计算均数和标准差,如分性别同时分年龄计算各组的均数和标准差,则用Means过程更显简单快捷。
5.1.2实例操作 [例5.1]某医师测得如下血红蛋白值(g%),试作基本的描述性统计分析: 对象编号性别 年龄血红蛋白值对象编号性别 年龄血红蛋白值
1 女 18 12.83 21 女 16 11.36
2 男 16 15.50 22 男 16 12.78
3 女 18 12.25 23 男 18 15.09
4 女 17 10.06 24 女 18 8.67
5 男 16 10.88 25 女 17 8.56
6 男 18 9.65 26 女 18 12.56
7 女 16 8.36 27 女 17 11.56
8 男 18 11.66 28 男 16 14.67
9 女 18 8.54 29 男 16 7.88 10 女 17 7.78 30 男 18 12.35 11 男 18 13.66 31 男 16 13.65 12 男 18 10.57 32 女 16 9.87 13 男 16 12.56 33 女 18 10.09 14 女 17 9.87 34 女 18 12.55 15 女 17 8.99 35 男 18 16.04 16 女 17 11.35 36 男 18 13.78 17 男 17 14.56 37 男 17 11.67 18 男 16 12.40 38 男 17 10.98 19 女 16 8.05 39 女 16 8.78 20 男 18 14.03 40 男 16 11.35 5.1.2.1数据准备激活数据管理窗口,定义变量名:性别为sex,年龄为age,血红蛋白值为hb。
按顺序输入数据 (sex变量中,男为
1,女为2),结果见图5.1。
52 图5.1原始数据的输入 5.1.2.2统计分析激活Statistics菜单选CompareMeans中的Means...项,弹出Means对话框(如图5.2示)。
今欲 分性别同时分年龄求血红蛋白值的均数和标准差,故在对话框左侧的变量列表中选hb,点击¾钮使之进入DependentList框,选sex点击¾钮使之进入IndependentList框,点击Next,可选定分组的第二层次(Layer2of2),选age点击¾钮亦使之进入IndependentList框。
点击Options...可选统计项目:在CellDisplays项中,Mean为均数、Standarddeviation为标准差、Variance为方差、Count为观察单位数、Sum为观察值总和,在StatisticsforFirstLayer项中,将为第一层次的分组计算方差分析(ANOVAtableandeta)和线性检验(Testoflinearity)。
选好后点击Continue钮返回Means对话框,点击OK钮即可。
图5.2Means对话框 5.1.2.3结果解释在结果输出窗口中将看到如下统计数据: 53 --DescriptionofSubpopulations-- SummariesofHB Bylevelsof SEX AGE VariableValueLabel ForEntirePopulation SEX
1 AGE 16 AGE 17 AGE 18 Sum457.79265.71111.6737.21116.83 Mean11.444812.652912.407812.403312.9811 StdDev2.26902.05312.24551.89932.0933 Variance5.14844.21545.04233.60744.3821 Cases4021939 SEX
2 AGE 16 AGE 17 AGE 18 192.0810.1095 1.6989 2.8863 19 46.42 9.2840 1.3494 1.8209
5 68.17 9.7386 1.4036 1.9700
7 77.4911.0700 1.9158 3.6703
7 TotalCases=40 ForEntirePopulation一行表示40个观察值合计为457.79,均数为11.4448,标准差为2.2690,方差为5.1484,例数为40;接下去各行分别表示先按性别分组(分男性与女性),再按年龄分组(16,17,18岁三组)的观察值合计、均数、标准差、方差和例数。
若在IndependentList中未分层次,即sex和age一起放在Layer1of1中,则结果是分别计算男性与女性(不作年龄分组)、16,17,18岁三组(不作性别分组)的观察值合计、均数、标准差、方差和例数(如下所示)。
--DescriptionofSubpopulations-- SummariesofHB Bylevelsof SEX VariableValueLabel ForEntirePopulation SEX
1 SEX
2 TotalCases=40 Sum457.79265.71192.08 Mean11.444712.652910.1095 StdDev2.26902.05311.6989 Variance5.14844.21542.8863 Cases402119 SummariesofHB Bylevelsof AGE VariableValueLabel ForEntirePopulation AGE 16 AGE 17 Sum457.79158.09105.38 Mean11.444811.292110.5380 StdDev2.26902.46491.9421 Variance5.14846.07593.7719 Cases401410 54 AGE 18 TotalCases=40 194.3212.14502.18274.7640 16 第二节Independent-SamplesTTest过程 5.2.1主要功能 调用此过程可完成两样本均数差别的显著性检验,即通常所说的两组资料的t检验。
5.2.2实例操作 [例5.2]分别测得14例老年性慢性支气管炎病人及11例健康人的尿中17酮类固醇排出量(mg/dl)如下,试比较两组均数有无差别。
病人2.905.415.484.604.035.104.974.244.362.722.372.097.105.92健康人5.188.793.146.463.726.645.604.577.714.994.015.2.2.1数据准备 激活数据管理窗口,定义变量名:把实际观察值定义为x,再定义一个变量group来区分病人与健康人。
输入原始数据,在变量group中,病人输入
1,健康人输入
2。
结果如图5.3所示。
图5.3两组资料t检验的原始数据55 5.2.2.2统计分析激活Statistics菜单选CompareMeans中的Independent-samplesTTest...项,弹出Independent- samplesTTest对话框(如图5.4示)。
从对话框左侧的变量列表中选x,点击¾钮使之进入TestVariable(s)框,选group点击¾钮使之进入GroupingVariable框,点击DefineGroups...钮弹出DefineGroups定义框,在Group1中输入
1,在Group2中输入
2,点击Continue钮,返回Independent-samplesTTest对话框,点击OK钮即完成分析。
图5.4Independent-samplesTTest对话框 5.2.2.3结果解释在结果输出窗口中将看到如下统计数据: t-tests forindependentsamplesofGROUP Number Variable ofCasesMean SD SEofMean ---------------------------------------------------------------
X GROUP1 14 4.3779 1.450 .387 GROUP2 11 5.5282 1.735 .523 --------------------------------------------------------------- MeanDifference=-1.1503 Levene'sTestforEqualityofVariances:F=.440P=.514 这一部分显示两组资料的例数(Numbersofcases)、均数(Mean)、标准差(SD)和标准误(SEofMean),显示两均数差值为1.1503,经方差齐性检验:F=.440P=.514,即两方差齐。
t-testforEqualityofMeansVariancest-valuedf2-TailSig SEofDiff 95%CIforDiff 56 ----------------------------------------------------------------------- Equal -1.81 23 .084 .637 (-2.468,.167) Unequal-1.7719.47 .093 .651 (-2.513,.213) ----------------------------------------------------------------------- 这一部分显示t检验的结果,第一行表示方差齐情况下的t检验的结果,第二行表示方差不齐情况下的t检验的结果。
依次显示值(t-value)、自由度(df)、双侧检验概率(2-TailSig)、差值的标准误(SEofDiff)及其95%可信区间(ClforDiff)。
因本例属方差齐性,故采用第一行(即Equal)结果:t=1.81,P=0.084,差别有显著性意义,即老年性慢性支气管炎病人的尿中17酮类固醇排出量低于健康人。
第三节Paired-SamplesTTest过程 5.3.1主要功能 调用此过程可完成配对资料的显著性检验,即配对t检验。
在医学领域中,主要的配对资料包括:同对(年龄、性别、体重、病况等非处理因素相同或相似者)或同一研究对象分别给予两种不同处理的效果比较,以及同一研究对象处理前后的效果比较。
前者推断两种效果有无差别,后者推断某种处理是否有效。
5.3.2实例操作 [例5.2]某单位研究饲料中缺乏维生素E与肝中维生素A含量的关系,将大白鼠按性别、体重等配为8对,每对中两只大白鼠分别喂给正常饲料和维生素E缺乏饲料,一段时期后将之宰杀,测定其肝中维生素A含量(μmol/L)如下,问饲料中缺乏维生素E对鼠肝中维生素A含量有无影响? 大白鼠对别 12345678 肝中维生素A含量(μmol/L) 正常饲料组 维生素E缺乏饲料组 37.2 25.7 20.9 25.1 31.4 18.8 41.4 33.5 39.8 34.0 39.3 28.3 36.1 26.2 31.9 18.3 57 5.3.2.1数据准备激活数据管理窗口,定义变量名:正常饲料组测定值为x1,维生素E缺乏饲料组测定值为x2, 数据输入后结果如图5.5所示。
图5.5配对t检验的原始数据 5.3.2.2统计分析激活Statistics菜单选CompareMeans中的Paired-samplesTTest...项,弹出Paried-samplesTTest 对话框(如图5.6示)。
从对话框左侧的变量列表中点击x1,这时在左下方的CurrentSelections框中Variable1处出现x1,再从变量列表中点击x2,左下方的CurrentSelections框中Variable2处出现x2。
点击¾钮使x1、x2进入Variables框,点击OK钮即完成分析。
图5.6Paried-samplesTTest对话框58 5.3.2.3结果解释在结果输出窗口中将看到如下统计数据: ---t-testsforpairedsamples--- Numberof 2-tail Variable pairsCorrSig Mean SDSEofMean -------------------------------------------------------------------------------------------------------------- X1 34.7500 6.649 2.351
8 .586.127 X2 26.2375 5.821 2.058 ------------------------------------------------------------------------------- 这段结果显示本例共有8对观察值,相关系数(C)为0.586,相关系数的显著性检验表明P=0.127;变量x1的均数(Mean)、标准差(SD)、标准误(SEofMean)分别为34.7500、6.649、2.351,变量x2的均数、标准差、标准误分别为26.2375、5.821、2.058。
PairedDifferences | Mean SD SEofMean| t-value df2-tailSig ----------------------------------------------------|-------------------------------------------------- 8.5125 5.719 2.022 | 4.21
7 .004 95%CI(3.730,13.295) | 这段结果显示变量x1、x2两两相减的差值均数、标准差、标准误95%可信区间(95%Cl)分别为8.5125、5.719、2.022,95%可信区间(95%Cl)为3.730,13.295。
配对检验结果为:t=4.21,P=0.004,差别具高度显著性意义,即饲料中缺乏维生素E对鼠肝中维生素A含量确有影响。
第四节One-WayANOVA过程 5.4.1主要功能 在实际研究中,经常需要比较两组以上样本均数的差别,这时不能使用t检验方法作两两间的比较(如有人对四组均数的比较,作6次两两间的t检验),这势必增加两类错误的可能性(如原先α定为0.05,这样作多次的t检验将使最终推断时的α>0.05)。
故对于两组以上的均数比较,必须使用方差分析的方法,当然方差分析方法亦适用于两组均数的比较。
方差分析可调用此过程可完成。
本过程只能进行单因素方差分析,即完全随机设计资料的方差分析。
对于随机区组设计资料方差分析的方法,将在第五章介绍。
59 5.4.2实例操作 [例5.4]某单位研究两种不同制剂治疗钩虫的效果,用大白鼠作试验。
11只大白鼠随机分配于3组:一组为对照组、另外二组分别为使用甲、乙制剂的实验组。
试验方法是:用药前每鼠人工感染500条钩蚴,感染后第8天实验组分别给予甲、乙制剂,对照组不给药,第10天全部解剖检查鼠体内活虫数,结果如下,问两制剂是否有效? 对照组 279334303338298 甲制剂组 129174110 乙制剂组 210285117 5.4.2.1数据准备激活数据管理窗口,定义变量名:实际观察值定义为x,组别用变量range表示:其中对照组 的值为、甲制剂实验组的值为、乙制剂实验组的值为,输入后的结果如图5.7所示。
图5.7单因素方差分析的原始数据 5.4.2.2统计分析激活Statistics菜单选CompareMeans中的One-WayANOVA...项,弹出One-WayANOVA对话 框(如图5.8示)。
从对话框左侧的变量列表中选x,点击¾钮使之进入DependentList框,选range点击¾钮使之进入Factor框,点击DefineRange钮打开One-WayANOVA:DefineRange对话框,因本例为3组比较,故在Minimum处输入
1,在Maximum处输入
3,点击Continue钮返回One-WayANOVA对话框。
如果欲作多个样本均数间两两比较,可点击该点击对话框的PostHoc...钮打开 60 One-WayANOVA:PostHocMultipleComparisons对话框(如图5.9所示),这时可见在Tests框中有7种比较方法供选择: 图5.8One-WayANOVA对话框 图5.9One-WayANOVA:PostHocMultipleComparisons对话框 Least-significantdifference:最小显著差法。
α可指定0~1之间任何显著性水平,默认值为0.05;Bonferroni:Bonferroni修正差别检验法。
α可指定0~1之间任何显著性水平,默认值为0.05;Duncan’smultiplerangetest:Duncan多范围检验。
只能指定α为0.05或0.01或0.1,默认值为0.05;Student-Newman-Keuls:Student-Newman-Keuls检验,简称N-K检验,亦即q检验。
α只能为0.05;Tukey’shonestlysignificantdifference:Tukey显著性检验。
α只能为0.05;Tukey’sb:Tukey另一种显著性检验。
α只能为0.05;Scheffe:Scheffe差别检验法。
α可指定0~1之间任何显著性水平,默认值为0.05。
本例选用Student-Newman-Keuls显著性检验法。
在SampleSizeEstimate框中有Harmonicaverageof 61 pairs和Harmonicaverageofallgroups两选项,前者表示仅采用相互比较两组的调和均数,后者表示采用所有组(含比较的两组和尚未比较的其他组)的调和均数,本例选用前者,点击Continue钮返回One-WayANOVA对话框后,再点击OK钮即完成分析。
5.4.2.3结果解释在结果输出窗口中将看到如下统计数据: -----ONEWAY----VariableX ByVariableRANGE AnalysisofVariance SourceBetweenGroupsWithinGroupsTotal SumofD.F.Squares 259724.3152818839.86671078564.1818 MeanSquares29862.15762354.9833 FRatio12.6804 FProb..0033 上述结果显示组间、组内(实际上本例应称之为“剩余”)和合计的自由度(
D.F.)、离均差平方和(SumofSquares,即SS)、均方(MeansSquares,即SS)、F值(FRatio)和P值(FProb.),本例F=12.6804,P=0.0033,表明甲、乙两种制剂中必有一种制剂治疗钩虫是有效的。
为了解哪一种制剂是有效的,本例采用SNK两两比较法,结果如下: -----ONEWAY----VariableX ByVariableRANGE MultipleRangeTests:Student-Newman-Keulstestwithsignificancelevel.050 ThedifferencebetweentwomeansissignificantifMEAN(J)-MEAN(I)>=34.3146*RANGE*SQRT(1/N(I)+1/N(J))withthefollowingvalue(s)forRANGE: Step
2 3 RANGE3.274.04 (*)Indicatessignificantdifferenceswhichareshowninthelowertriangle GGG rrr ppp 231 Mean RANGE 137.6667Grp2 62 204.0000Grp3 310.4000Grp1 ** 上述结果显示:如果两均数的差值≥34.3146×RANGE× 1n1 + 1n2 ,则差别有显著性意义。
上 面已用“*”标出2、3两组与1组比较均有显著性差异。
具体作法是:以甲制剂与对照组的比较为 例,均数差值=310.4000-137.6667=172.7333,已知RANGE为4.04,n1=5,n2=
3,按上式求 得101.2418,因172.7333>101.2418,故甲制剂有效;余同。
即甲、乙制剂治疗钩虫均有效。
因 甲制剂与乙制剂比较,均数差值为66.3333,按上式求得界值为91.6180,故尚无证据表明甲、乙制 剂间效果有差别。
第六章方差分析 方差分析是
R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析的基本思想是:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
方差分析主要用于:
1、均数差别的显著性检验,
2、分离各有关因素并估计其对总变异的作用,
3、分析因素间的交互作用,
4、方差齐性检验。
第一节SimpleFactorial过程6.1.1主要功能 调用此过程可对资料进行方差分析或协方差分析。
在方差分析中可按用户需要作单因素方差分析(其结果将与第五章第四节相同)或多因素方差分析(包括医学中常用的配伍组方差分析);当观察因素中存在有很难或无法人为控制的因素时,则可对之加以指定以便进行协方差分析。
6.1.2实例操作 [例6-1]下表为运动员与大学生的身高(cm)与肺活量(cm3)的数据,考虑到身高与肺活量有关,而一般运动员的身高高于大学生,为进一步分析肺活量的差异是否由于体育锻炼所致,试作控制身高变量的协方差分析。
运动员 大学生 63 身高 184.9167.9171.0171.0188.0179.0177.0179.5187.0187.0169.0188.0176.7179.0183.0180.5179.0178.0164.0174.0 肺活量 43003850410043004800400054004000480048004500478037005250425048005000370036004050 身高 168.7170.8165.0169.7171.5166.5165.0165.0173.0169.0173.8174.0170.5176.0169.5176.3163.0172.5177.0173.0 肺活量 34504100380033003450325036003200395040004150345032504100365039503500390034503850 6.1.2.1数据准备激活数据管理窗口,定义变量名:组变量为group(运动员=
1,大学生=2),身高为x,肺活量 为y,按顺序输入相应数值,建立数据库,结果见图6.1。
6.1.2.2统计分析 图6.1原始数据的输入 64 激活Statistics菜单选ANOVAModels中的SimpleFactorial...项,弹出SimpleFactorialANOVA对话框(图6.2)。
在变量列表中选变量y,点击¾钮使之进入Dependent框;选分组变量group,点击¾钮使之进入Factor(s)框中,并点击DefineRange...钮在弹出的SimpleFactorialANOVA:DefineRange框中确定分组变量group的起止值(1,2);选协变量x,点击¾钮使之进入Covariate(s)框中。
图6.2协方差分析对话框 点击Options...框,弹出SimpleFactorialANOVA:Options对话框。
系统在协方差分析的方法(Method)上有三种选项:
1、Unique:同时评价所有的效应;
2、Hierarchical:除主效应外,逐一评价各因素的效应;
3、Experimental:评价因素干预之前的主效应。
本例选Unique方法,之后点击Continue钮返回SimpleFactorialANOVA对话框,再点击OK钮即可。
6.1.2.3结果解释在结果输出窗口中可见如下统计数据:先输出肺活量总均数和两组的肺活量均数,总均数为4033.25,运用员组均数为4399.00,大学生组为3667.50。
接着协方差分析表明,混杂因素X(身高)两组间是有差异的(F=10.679,P=0.002),控制其影响后,两组间肺活量的差别依然存在(F=9.220,P=0.004),故可以认为两组间肺活量的均数在消除了身高因素的影响之后仍有差别,运动员的肺活量大于大学生,即体育锻炼会提高肺活量。
最后系统输出公共回归系数,bc=36.002,该值可用于求修正均数:Yi'=Yi-bc(Xi-X)本例为Y运'动员=4399.00-36.002×(178.175-174.3325)=4260.6623Y大'学生=3667.50-36.002×(170.49-174.3325)=3805.8377 YbyGROUPTotalPopulation 65 4033.25(40) GROUP1
2 4399.003667.50 (20)(20) YbyGROUP withX UNIQUEsumsofsquares Alleffectsenteredsimultaneously Sumof Mean Sig SourceofVariation Squares DF Square FofF Covariates 1630763 11630762.63510.679.002
X 1630763 11630762.63510.679.002 MainEffects 1407847 11407847.095 9.220.004 GROUP 1407847 11407847.0959.220.004 Explained 6981685 23490842.56822.860.000 Residual 5649992 37152702.496 Total 12631678 39323889.167 40caseswereprocessed. 0cases(.0pct)weremissing. CovariateRawRegressionCoefficient
X 36.002 第二节GeneralFactorial过程6.2.1主要功能 调用此过程可对完全随机设计资料、配伍设计资料、析因设计资料、正交设计资料等等进行多因素方差分析或协方差分析。
6.2.2实例操作 [例6-2]下表为三因素析因实验的资料,请用方差分析说明不同基础液与不同血清种类对钩端螺旋体的培养计数的影响。
66 基础液(A)缓冲液 蒸馏水 自来水 血清种类(B) 兔血清浓度(C) 5% 8% 64812461398909 1144187716711845 1763124113812421 1447188318961926 58010261026830 1789121514341651 胎盘血清浓度(C) 5% 8% 8308534411030 5786696431002 920 933 709 1024 848 1092 574 742 1126 685 1176 546 1280 595 1212 566 6.2.2.1数据准备激活数据管理窗口,定义变量名:基础液为base,血清种类为sero,血清浓度为pct,钩端螺旋 体的培养计数为
X,按顺序输入相应数值,建立数据库。
6.2.2.2统计分析激活Statistics菜单选ANOVAModels中的GeneralFactorial...项,弹出GeneralFactorialANOVA 对话框(图6.3)。
在对话框左侧的变量列表中选变量x,点击¾钮使之进入DependentVariable框;选要控制的分组变量base、sero和pct,点¾钮使之进入Factor(s)框中,并分别点击DefineRange钮,在弹出的GeneralFactorialANOVA:DefineRange对话框中确定各变量的起止值,本例变量base的起止值为1、
3,变量sero的起止值为1、
2,变量pct的起止值为1、
2。
之后点击OK钮即可。
图6.3析因方差分析对话框67 6.2.2.3结果解释在结果输出窗口中,系统显示48个观察值进入统计,三个因素按其各自水平共产生12种组合。
分析表明,模型总效应的F值为10.55,P值<0.001,说明三因素间存在有交互作用。
单因素 效应和交互效应导致的组间差别比较结果是:单因素组间比较:A:基础液(BASE)F=4.98,P=0.012,说明三种培养基培养钩体的计数有差别;B:血清种类(SERO)F=61.265,P<0.001,说明两种血清培养钩体的计数有差别;C:血清浓度(PCT)F=3.49,P=0.070,说明两种血清浓度培养钩体的计数无差别。
两因素构成的一级交互作用:A×B:基础液(BASE)×血清种类(SERO)F=5.16,P=0.011,交互作用明显;B×C:血清种类(SERO)×血清浓度(PCT)F=15.96,P<0.001,交互作用明显;A×C:基础液(BASE)×血清浓度(PCT)F=0.78,P=0.465,交互作用不明显。
三因素构成的二级交互作用:A×B×C:基础液(BASE)×血清种类(SERO)×血清浓度(PCT)F=6.75,P=0.003,交互作用明显。
48casesepted. 0casesrejectedbecauseofout-of-rangefactorvalues. 0casesrejectedbecauseofmissingdata. 12non-emptycells. 1designwillbeprocessed. ------------------------------------- UnivariateHomogeneityofVarianceTests Variable..X CochransC(3,12)= .34004, P=.036(approx.) Bartlett-BoxF(11,897)=1.69822, P=.069 ------------------------------------- ******AnalysisofVariance--design1****** TestsofSignificanceforXusingUNIQUEsumsofsquares SourceofVariation SS DF MS
F SigofF WITHIN+RESIDUAL 2459233.75 3668312.05 BASE 679967.38 2339983.69 4.98 .012 PCT 238713.02 1238713.02 3.49 .070 SERO 4184873.52 14184873.5 61.26 .000 BASEBYPCT 107005.54 253502.77 .78 .465 BASEBYSERO 705473.04 2352736.52 5.16 .011 PCTBYSERO 1089922.69 11089922.7 15.96 .000 BASEBYPCTBYSERO922307.37 2461153.69 6.75 .003 68 (Model)(Total) 7928262.56 11720751.14 10.55 .000 10387496.31 47221010.56 R-Squared= .763 AdjustedR-Squared=.691 第三节Multivarite过程 6.3.1主要功能 调用此过程可进行多元方差分析。
此外,对于一元设计,如涉及混合模型的设计、分割设计(又称列区设计)、重复测量设计、嵌套设计、因子与协变量交互效应设计等,此过程均能适用。
6.3.2实例操作 [例6-3]甲地区为大城市,乙地区为县城,丙地区为农村。
某地分别调查了上述三类地区8岁男生三项身体生长发育指标:身高、体重和胸围,数据见下表,问:三类地区之间男生三项身体生长发育指标的差异有无显著性? 学生编号 123456789101112131415161718 甲地区 身高 119.80121.70121.40124.40120.00117.00118.10118.80124.20124.90124.70123.00125.30124.20127.40128.20126.10128.70 体重 22.6021.5019.1021.8021.4020.1018.8022.0021.3024.0023.3022.5022.9019.5022.9022.3022.7023.50 胸围 60.5055.5056.5060.5057.7057.0057.1061.7058.4060.8060.0060.0065.2053.8059.5060.0057.4060.40 乙地区 身高 125.10127.00125.70114.90124.90117.60124.20117.90120.40115.00126.20125.10114.90121.50114.00118.70120.60122.90 体重 23.0021.5023.4017.5023.5018.9020.8020.3020.0019.7021.2022.1019.7022.0019.0019.1020.0018.50 胸围 62.0059.0061.5052.5058.5057.0058.5061.0056.0056.5056.5058.5056.0057.0054.5054.5055.5056.00 丙地区 身高 118.30121.30121.80124.20123.50123.00134.90123.70105.20112.20118.60112.00121.50124.50119.50122.50115.50122.50 体重 20.4020.0026.6022.1023.2022.9032.3022.7020.2020.8021.0023.2024.0021.5020.5023.0019.0022.50 胸围 54.4054.3061.1058.6060.2058.2064.8059.9054.5057.5057.6058.2060.3055.6055.5056.7054.2057.60 69 19 129.5024.5051.00119.6019.5059.50124.5025.0057.90 20 126.9025.5061.50112.3020.0058.00125.0025.5060.30 21 126.5025.0063.90121.3020.0058.00117.5023.0059.00 22 128.2026.1063.00121.2021.2059.00127.3022.5058.90 23 131.4027.9063.10120.2023.1059.50122.3022.0058.20 24 130.8026.8061.50120.3021.0059.50121.3021.0055.60 25 133.9027.2065.80120.0022.2059.50120.5022.0055.10 26 130.4024.4062.60123.3020.1056.50116.0019.0053.50 27 131.3024.4059.50122.1021.0057.50120.5020.0054.40 28 130.2023.0062.60123.3021.5061.00114.5019.0053.40 29 136.0026.3060.00109.9017.8056.50131.0025.5058.30 30 141.0031.9063.70125.6023.3060.50122.5024.5058.70 6.3.2.1数据准备激活数据管理窗口,定义变量名:地区为
G,身高为X1,体重为X2,胸围为X3,按顺序输入 相应数值,变量G的数值是:甲地区为
1,乙地区为
2,丙地区为
3。
6.3.2.2统计分析激活Statistics菜单选ANOVAModels中的Multivarite...项,弹出MultivariteANOVA对话框(图 6.8)。
首先指定供分析用的变量x1、x2、x3,故在对话框左侧的变量列表中选变量x1、x2、x3,点击¾钮使之进入DependentVariable框;然后选变量g(分组变量)点击¾钮使之进入Factor(s)框中,并点击DefineRange钮,确定g的起始值和终止值。
图6.4多元方差分析对话框 点击Options...钮,弹出MultivariteANOVA:Options对话框,选择需要计算的指标。
在Factor(s)栏内选变量g,点击¾钮使之进入DisplayMeansfor框,要求计算平均值指标;在MatricedWithinCell栏内选Correlation、Covariance、SSCP项,要求计算单元内的相关矩阵、方差协方差矩阵和离均差平方和交叉乘积矩阵;在ErrorMatrices栏内也选上述三项,要求计算误差的相关矩阵、方差协方差矩阵和离均差平方和交叉乘积矩阵;在Diagnostics栏内选Homogeneitytest项,要求作变量的方差齐性检验。
之后点击Continue钮返回MultivariteANOVA对话框,最后点击OK钮即可。
70 6.3.2.3结果解释在结果输出窗口中将看到如下分析结果:系统首先显示共90个观察值进入统计分析,因分组变量g为三个地区,故分析的单元数为
3。
然后输出3个应变量(x1、x2、x3)的方差齐性检验结果,分别输出了CochranC检验值及其显著性水平P值、Bartlett-BoxF检验值及其显著性水平P值。
其中 身高:C=0.39825,P=0.540;F=1.01272,P=0.363;体重:C=0.43787,P=0.227;F=4.48624,P=0.011;胸围:C=0.47239,P=0.089;F=2.06585,P=0.127;可见3项指标的方差基本整齐(P值均大于0.05)。
90casesepted.0casesrejectedbecauseofout-of-rangefactorvalues.0casesrejectedbecauseofmissingdata.3non-emptycells. 1designwillbeprocessed. VariableG CELLNUMBER123 123 UnivariateHomogeneityofVarianceTestsVariable..X1 CochransC(29,3)=.39825,Bartlett-BoxF(2,17030)=1.01272,Variable..X2CochransC(29,3)=.43787,Bartlett-BoxF(2,17030)=4.48624,Variable..X3CochransC(29,3)=.47239,Bartlett-BoxF(2,17030)=2.06585, P=.540(approx.)P=.363 P=.227(approx.)P=.011 P=.089(approx.)P=.127 CochranC检验和Bartlett-BoxF检验对考查协方差矩阵的相等性比较方便,但还不够。
于是系统接着分别输出了三类地区(即各个单元)各生长发育指标的离均差平方和交叉乘积矩阵和方差协方差矩阵。
之后作BoxM检验,BoxM检验提供矩阵一致性的多元测试,本例BoxsM=36.93910,在基于方差分析的显著性检验中F=2.92393;在基于χ2的显著性检验中χ2=35.09922,两者P<0.001,故认为矩阵一致性不佳。
CellNumber..1SumofSquaresandCross-Productsmatrix 71 X1 X2 X3 X1 861.187 X2 380.137230.519 X3 215.937156.559314.859 Variance-Covariancematrix X1 X1 29.696 X2 13.108 X3 7.446 X2 X3 7.9495.399 10.857 CellNumber..1(Cont.) CorrelationmatrixwithStandardDeviationsonDiagonal X1 X2 X3 X1 5.449 X2 .853 2.819 X3 .415 .581 3.295 DeterminantofCovariancematrixofdependentvariables=LOG(Determinant)= CellNumber..2 SumofSquaresandCross-Productsmatrix X1 X2 X3 X1 565.368 X2 147.22278.910 X3 139.43079.337147.967 Variance-Covariancematrix X1 X1 19.495 X2 5.077 X3 4.808 X2 2.7212.736 X35.102 CorrelationmatrixwithStandardDeviationsonDiagonal X1 X2 X3 X1 4.415 X2 .697 1.650 X3 .482 .734 2.259 DeterminantofCovariancematrixofdependentvariables=LOG(Determinant)= CellNumber..3 444.983546.09804 63.906404.15742 72 SumofSquaresandCross-Productsmatrix X1 X2 X3 X1 944.128 X2 307.722217.030 X3 261.130186.252203.702 Variance-Covariancematrix X1 X1 32.556 X2 10.611 X3 9.004 X2 7.4846.422 X37.024 CorrelationmatrixwithStandardDeviationsonDiagonal X1 X2 X3 X1 5.706 X2 .680 2.736 X3 .595 .886 2.650 DeterminantofCovariancematrixofdependentvariables=LOG(Determinant)= 198.135075.28895 Pooledwithin-cellsVariance-Covariancematrix X1 X2 X3 X1 27.249 X2 9.599 6.051 X3 7.086 4.852 7.661 DeterminantofpooledCovariancematrixofdependentvars.=LOG(Determinant)= 272.069065.60606 MultivariatetestforHomogeneityofDispersionmatrices BoxsM=FWITH(12,36680)DF=Chi-Squarewith12DF= 36.939102.92393,P=.000(Approx.)35.09922,P=.000(Approx.) 下面系统输出将三类地区看成一个大样本时的离均差平方和交叉乘积矩阵。
如X1、X2和X3的离均差平方和分别为662.884、121.562和114.902。
在此基础上,进行多元差异的检验。
通常有四种方法: Σs1
1、Pillai轨迹:V=i=11+λi 73 Πs1
2、Wilksλ值:W=i=11+λi Σs1
3、Hotelling轨迹:T=i=11+λi Σ
4、Roy最大根:R= sλmaxi=11+λmax 式中λmax为最大特征值,λi为第i个特征值,s为非零特征值个数。
根据这些值变换的F检验均有 显著性(P<0.001),说明三类地区各生长发育指标之间的差别有高度显著性。
这一计算结果对上述三项生长发育指标进行了单因素的方差分析,可见: X1:SS=662.88356,F=12.16335 X2:SS=121.56200,F=10.04439 X3:SS=114.90200,F=7.49893差别均有显著性,说明三项生长发育指标各地区间的差别均有显著性。
CombinedObservedMeansforG Variable..X1
G 1 WGT.126.46667 UNWGT.126.46667
2 WGT.120.52000 UNWGT.120.52000
3 WGT.120.92000 UNWGT.120.92000 ------------------------------------- Variable..X2
G 1 WGT.23.50667 UNWGT.23.50667
2 WGT.20.69667 UNWGT.20.69667
3 WGT.22.49667 UNWGT.22.49667 ------------------------------------- Variable..X3
G 1 WGT.60.00667 UNWGT.60.00667
2 WGT.57.86667 UNWGT.57.86667
3 WGT.57.41667 UNWGT.57.41667 74 ------------------------------------- WITHIN+RESIDUALCorrelationswithStd.Devs.onDiagonal X1 X2 X3 X1 5.220 X2 .747 2.460 X3 .490 .713 2.768 ------------------------------------- StatisticsforWITHIN+RESIDUALcorrelations Log(Determinant)=.00000 Bartletttestofsphericity=. with3D.F. Significance=. F(max)criterion=4.50308with(3,87)
D.F. WITHIN+RESIDUALVariancesandCovariances X1 X2 X3 X1 27.249 X2 9.599 6.051 X3 7.086 4.852 7.661 ------------------------------------- WITHIN+RESIDUALSum-of-SquaresandCross-Products X1 X2 X3 X1 2370.683 X2 835.081526.458 X3 616.497422.147666.527 ------------------------------------- EFFECT..G AdjustedHypothesisSum-of-SquaresandCross-Products X1 X2 X3 X1 662.884 X2 230.323121.562 X3 269.117 78.193114.902 ------------------------------------- MultivariateTestsofSignificance(S=
2,M=
0,N=411/2) TestName ValueApprox.FHypoth.DFErrorDFSig.ofF Pillais .512279.87080 6.00172.00 .000 Hotellings .704279.85978 6.00168.00 .000 Wilks .550149.86643 6.00170.00 .000 Roys .31265 Note..FstatisticforWILKS'Lambdaisexact. ------------------------------------- EFFECT..G(Cont.) UnivariateF-testswith(2,87)
D.F. VariableHypoth.SSErrorSSHypoth.MSErrorMS
F Sig.ofF X1 662.883562370.68267331.4417827.2492312.16335 .000 75 X2 121.56200526.4580060.781006.0512410.04439 .000 X3 114.90200666.5270057.451007.661237.49893 .001 之后按单元输出各项指标的观察值均数(Obs.Mean)、调整均数(Adj.Mean)、估计均数(Est.Mean)、粗误差(RawResid)、标准化误差(Std.Resid)以及不分地区的总均数(CominedAdjustedMeansforG)。
AdjustedandEstimatedMeans Variable..X1 CELL Obs.MeanAdj.MeanEst.Mean
1 126.467126.467126.467
2 120.520120.520120.520
3 120.920120.920120.920 ------------------------------------- AdjustedandEstimatedMeans(Cont.) Variable..X2 CELL Obs.MeanAdj.MeanEst.Mean
1 23.507 23.507 23.507
2 20.697 20.697 20.697
3 22.497 22.497 22.497 ------------------------------------- AdjustedandEstimatedMeans(Cont.) Variable..X3 CELL Obs.MeanAdj.MeanEst.Mean
1 60.007 60.007 60.007
2 57.867 57.867 57.867
3 57.417 57.417 57.417 ------------------------------------- CombinedAdjustedMeansforG Variable..X1
G 1 UNWGT.126.46667
2 UNWGT.120.52000
3 UNWGT.120.92000 ------------------------------------- Variable..X2
G 1 UNWGT.23.50667
2 UNWGT.20.69667
3 UNWGT.22.49667 ------------------------------------- Variable..X3 RawResid.Std.Resid. .000 .000 .000 .000 .000 .000 RawResid.Std.Resid. .000 .000 .000 .000 .000 .000 RawResid.Std.Resid. .000 .000 .000 .000 .000 .000 76
G 1 UNWGT.60.00667
2 UNWGT.57.86667
3 UNWGT.57.41667 最后,系统输出各变量的离差参数。
用户可据此计算预测值,预测值Y=总均数+该变量离差参数+变量间交互效应的离差参数如本例因无变量间交互效应的离差参数,故甲地区8岁男生的身高预测值为Y=126.46667+(-1.71555551)=124.7511145。
上式中126.46667可从系统输出的CombinedAdjustedMeansforG一栏中得到,离差参数-1.71555551=0-3.83111111-(-2.1155556),这是因为离差参数的合计总为0的缘故。
余同,在此不作赘述。
EstimatesforX1 ---Individualunivariate.9500confidenceintervals
G Parameter Coeff.Std.Err.t-ValueSig.tLower-95%CL-Upper 23.83111111 .778164.92327.000002.284435.37780 3-2.1155556 .77816-2.71865.00791-3.66224-.56887 ------------------------------------- EstimatesforX2 ---Individualunivariate.9500confidenceintervals
G Parameter Coeff.Std.Err.t-ValueSig.tLower-95%CL-Upper 21.27333333 .366703.47237.00081 .544472.00220 3-1.5366667 .36670-4.19048.00007-2.26553-.80780 ------------------------------------- EstimatesforX3 ---Individualunivariate.9500confidenceintervals
G Parameter Coeff.Std.Err.t-ValueSig.tLower-95%CL-Upper 21.57666667 .412613.82117.00025 .756552.39678 3-.56333333 .41261-1.36528.17568-1.38345 .25678 77 第七章相关分析 任何事物的存在都不是孤立的,而是相互联系、相互制约的。
在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。
说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。
但如果事物之间有因果关系,则两者必然相关。
SPSS的相关分析是借助于Statistics菜单的Correlate选项完成的。
第一节Bivariate过程 7.1.1主要功能 调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。
调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。
7.1.2实例操作 [例7-1]某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,试作发硒与血硒的相关分析。
编号 发硒 血硒
1 74 13
2 66 10
3 88 13
4 69 11
5 91 16
6 73
9 7 66
7 8 96 14
9 58
5 10 73 10 7.1.2.1数据准备激活数据管理窗口,定义变量名:发硒为
X,血硒为
Y,按顺序输入相应数值,建立数据库(图 7.1)。
78 图7.1原始数据的输入 7.1.2.2统计分析激活Statistics菜单选Correlate中的Bivariate...命令项,弹出BivariateCorrelation对话框(图7.2)。
在对话框左侧的变量列表中选x、y,点击¾钮使之进入Variables框;再在CorrelationCoefficients框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数(r),Kendell’stau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在TestofSignificance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。
图7.2相关分析对话框 点击Options...钮弹出BivariateCorrelation:Options对话框(图7.3),可选有关统计项目。
本例要求输出
X、Y的均数与标准差以及XY交叉乘积的标准差与协方差,故选Meansandstandarddeviations 79 和Cross-productdeviationsandcovariances项,而后点击Continue钮返回BivariateCorrelation对话框,再点击OK钮即可。
图7.3相关分析统计对话框 7.1.2.3结果解释:在结果输出窗口中将看到如下统计数据:变量
X、Y的例数、均数与标准差,变量
X、Y交叉 乘积的例数、标准差与协方差;XY两两对应的相关系数及其双侧检验的概率,本例r=0.8715,P=0.001。
VariableXY Cases1010 Mean75.400010.8000 StdDev12.29453.3267 Variables
X Y CasesCross-ProdDevVariance-Covar 10 320.8000 35.6444
X Y
X 1.0000 .8715 (10)(10) P=. P=.001
Y .8715 1.0000 (10)(10) P=.001P=. (Coefficient/(Cases)/2-tailedSignificance) "."isprintedifacoefficientcannotputed 80 第二节Partial过程 7.2.1主要功能 调用此过程可对变量进行偏相关分析。
在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。
7.2.2实例操作 [例7-2]某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对该资料作控制体重影响作用的身高与肺活量相关分析。
编号身高(cm)体重(kg)肺活量(ml)编号身高(cm)体重(kg)肺活量(ml)
1 135.1
2 139.9
3 163.6
4 146.5
5 156.2
6 156.4
7 167.8
8 149.7
9 145.0 10 148.5 11 165.5 12 135.0 13 153.3 14 152.0 15 160.5 32.0 1750 30.4 2000 46.2 2750 33.5 2500 37.1 2750 35.5 2000 41.5 2750 31.0 1500 33.0 2500 37.2 2250 49.5 3000 27.6 1250 41.0 2750 32.0 1750 47.2 2250 16 153.0 17 147.6 18 157.5 19 155.1 20 160.5 21 143.0 22 149.4 23 160.8 24 159.0 25 158.2 26 150.0 27 144.5 28 154.6 29 156.5 47.2 1750 40.5 2000 43.3 2250 44.7 2750 37.5 2000 31.5 1750 33.9 2250 40.4 2750 38.5 2500 37.5 2000 36.0 1750 34.7 2250 39.5 2500 32.0 1750 7.2.2.1数据准备激活数据管理窗口,定义变量名:身高为height,体重为weight,肺活量为vc,按顺序输入相 应数值,建立数据库。
7.2.2.2统计分析激活Statistics菜单选Correlate中的Partial...命令项,弹出PartialCorrelations对话框(图7.4)。
现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height、vc,点击¾钮使之进入Variables框,选要控制的变量weight,点击¾钮使之进入Controllingfor框中,在TestofSignificance框中选双侧检验,然后点击OK钮即可。
81 图7.4偏相关分析对话框 7.2.2.3结果解释 在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数为 0.0926,经检验P=0.639,故身高与肺活量的线性相关不存在。
(如果不控制体重的影响,则身高与肺活量的相关系数为0.5884,P为0.001。
在有控制的情况下,身高与肺活量的决定系数=r2=0.00857,而无控制的身高与肺活量决定系数=r2=0.34621,可见身高与肺活量的相关有33.764%是由体重协同作用而产生的。
) Controllingfor..WEIGHT HEIGHT VC HEIGHT 1.0000 .0926
(0)(26) P=. P=.639 VC .0926 1.0000 (26)
(0) P=.639P=. (Coefficient/(
D.F.)/2-tailedSignificance) "."isprintedifacoefficientcannotputed 如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验P=0.002,故体重与肺活量的线性相关存在。
可见,尽管肺活量与身高和体重均有关系,但如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。
Controllingfor.. VC( HEIGHTVC 1.00000)( WEIGHT.552826) 82 WEIGHT P=..5528 (26)P=.002 P=.0021.0000
(0)P=. (Coefficient/(
D.F.)/2-tailedSignificance) "."isprintedifacoefficientcannotputed 第三节Distances过程 7.3.1主要功能 调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合程度。
7.3.2实例操作 [例7-3]某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一致? 样品号 第一次第二次第三次 1 12.3612.4012.18 2 12.1412.2012.22 3 12.3112.2812.35 4 12.3212.2512.21 5 12.1212.2212.10 6 12.2812.3412.25 7 12.2412.3112.20 8 12.4112.3012.46 9 12.3312.2212.36 10 12.1712.2412.11 7.3.2.1数据准备激活数据管理窗口,定义变量名:第一次测量值为HB1,第二次测量值为HB2,第三次测量值 为HB3,输入相应数值即完成。
7.3.2.2统计分析激活Statistics菜单选Correlate中的Distance...命令项,弹出Distance对话框(图7.5)。
在对话 框左侧的变量列表中选变量hb1、hb2、hb3,点击¾钮使之进入Variables框。
在ComputeDistances框中有两个选项,Betweencases表示作变量内部观察值之间的距离相关分析,Betweenvariables表示作变量之间的距离相关分析,在本例中,因三次平行测量结果分别置于三个变量中,故选择后者。
83 图7.5距离相关分析对话框 在Measure栏中有两种测距方式:Dissimilarities为不相似性测距,Similarities为相似性测距。
若选Dissimilarties并点击Measure...钮,弹出Distance:DissimilarityMeasure对话框(图7.6),用户可根据数据特征选用测距方法: 图7.6距离相关中不相似性距离测量对话框
1、计量资料Euclideandistance:以两变量差值平方和的平方根为距离;SquaredEuclideandistance:以两变量差值平方和为距离;Chebychev:以两变量绝对差值的最大值为距离;Block:以两变量绝对差值之和为距离;Minkowski:以两变量绝对差值p次幂之和的p次根为距离;Customized:以两变量绝对差值p次幂之和的r次根为距离。

2、计数资料Chi-squaremeasure:χ2值测距;Phi-squaremeasure:ψ2值测距,即将χ2测距值除合计频数的平方根。

3、二分字符变量 84 Euclideandistance:二分差平方和的平方根,最小为
0,最大无限;SquaredEuclideandistance:二分差平方和,最小为
0,最大无限;Sizedifference:最小距离为
0,最大无限;Patterndifference:从0至1的无级测距;Variance:以方差为距,最小为
0,最大无限;LanceandWilliams:Bray-Curtis非等距系数,界于0至1之间。
若选Similarties并点击Measure...钮,弹出Distance:SimilarityMeasure对话框(图7.7),用户可根据数据特征选用测距方法: 图7.7距离相关中相似性距离测量对话框
1、计量资料Pearsoncorrelation:以Pearson相关系数为距离;Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。

2、二分字符变量RussellandRao:以二分点乘积为配对系数;Simplematching:以配对数与总对数的比例为配对系数;ard:相似比例,分子与分母中的配对数与非配对数给予相同的权重;Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;RogersandTanimoto:RogersandTanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;SokalandSneath1:SokalandSneathⅠ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;SokalandSneath2:SokalandSneathⅡ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;SokalandSneath3:SokalandSneathⅢ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;Kulczynski1:KulczynskiⅠ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;Kulczynski2:Kulczynski平均条件概率;SokalandSneath4:SokalandSneath条件概率;Hamann:Hamann概率;Lambda:Goodman-Kruskai相似测量的λ值; 85 Anderberg'sD:以一个变量状态预测另一个变量状态;Yule'sY:Yule综合系数,属于2×2四格表的列联比例函数;Yule'sQ:Goodman-Kruskalγ值,属于2×2四格表的列联比例函数。

3、其他型变量Ochiai:Ochiai二分余弦测量;SokalandSneath5:SokalandSneathⅤ型相似测量;Phi4pointcorrelation:Pearson相关系数的平方值;Dispersion:Dispersion相似测量。
同时,还可以选择数据转换形式:None:不作数据转换;Z-Scores:作标准Z分值转换;Range-1to1:作-1至+1之间的标准化转换;Range0to1:作0至1之间的标准化转换;Maximummagnitudeof1:作最大量值1的标准转换;Meanof1:作均数单位转换;Standarddeviationof1:作标准差单位转换。
本例选Similarties项,并以Pearsoncorrelation为测量距离。
点击Continue钮返回Distance对话框,再点击OK钮即可。
7.3.2.3结果解释在结果输出窗口可看到三次测量结果的相关系数矩阵。
第一次测量与第二次测量结果的r= 0.5734,第一次测量与第三次测量结果的r=0.7309,第二次测量与第三次测量结果的r=0.0878,由此可见,后两次测量的结果一致性较差,这意味着第一次恰好是后两次的“均值”,故对该指标作重复测量意义不大。
DataInformation10unweightedcasesepted.0casesrejectedbecauseofmissingvalue. Correlationmeasureused. CorrelationSimilarityCoefficientMatrix VariableHB2HB3 HB1.5734.7309 HB2.0878 如果对变量内部各观察值间的一致性进行考核(假定本例HB1变量中的数据为对一个标准试样的十次平行测定),那么需在Distance对话框中选Betweencases项,并选Dissimilarities项的Euclideandistance测距方法,运算结果如下: 在不相似性测量系数矩阵中,最大值为第五个观察值与第八个观察值间的仅为0.2900,其余的值均较之更小,最小的为第三个观察值与第四个观察值间的仅为0.0100,可见观察值间的不相似性 86 差(不相似性系数愈接近
1,不相似性愈好;不相似性系数愈接近
0,不相似性愈差),则意味着测定结果的一致性好。
DataInformation10unweightedcasesepted.0casesrejectedbecauseofmissingvalue. Euclideanmeasureused. EuclideanDissimilarityCoefficientMatrixCase1Case2Case3Case4 Case2.2200Case3.0500.1700Case4.0400.1800.0100Case5.2400.0200.1900.2000Case6.0800.1400.0300.0400Case7.1200.1000.0700.0800Case8.0500.2700.1000.0900Case9.0300.1900.0200.0100Case10.1900.0300.1400.1500 Case5 .1600.1200.2900.2100.0500 Case6 .0400.1300.0500.1100 Case7 .1700.0900.0700 Case8 .0800.2400 Case9.1600 第八章回归分析 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。
在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。
回归分析就是用于说明这种依存变化的数学关系。
第一节Linear过程 8.1.1主要功能 调用此过程可完成二元或多元的线性回归分析。
在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。
87 8.1.2实例操作 [例8.1]某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。
试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。
儿童编号 12345678910 体表面积(Y) 5.3825.2995.3585.2925.6026.0145.8306.1026.0756.411 身高(X1) 88.087.688.589.087.789.588.890.490.691.2 体重(X2) 11.011.812.012.313.113.714.414.915.216.0 8.1.2.1数据准备激活数据管理窗口,定义变量名:体表面积为
Y,保留3位小数;身高、体重分别为X1、X2, 1位小数。
输入原始数据,结果如图8.1所示。
图8.1原始数据的输入 8.1.2.2统计分析激活Statistics菜单选Regression中的Linear...项,弹出LinearRegression对话框(如图8.2示)。
从对话框左侧的变量列表中选y,点击¾钮使之进入Dependent框,选x1、x2,点击¾钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。
本例选用Enter法。
点击OK钮即完成分析。
88 图8.2线性回归分析对话框 用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。
8.1.2.3结果解释在结果输出窗口中将看到如下统计数据: ****MULTIPLEREGRESSION**** ListwiseDeletionofMissingData EquationNumber1DependentVariable..Y BlockNumber1.Method:Enter X1 X2 Variable(s)EnteredonStepNumber1..X22..X1 MultipleRRSquareAdjustedRSquareStandardErrorAnalysisofVariance Regression Residual F= 32.14499 .94964.90181.87376.14335 DF SumofSquares
2 1.32104
7 .14384 SignifF=.0003 MeanSquare.66052.02055 89 ------------------VariablesintheEquation------------------ Variable
B SEB Beta X1 .068701.074768.215256 X2 .183756.056816.757660 (Constant) -2.8564766.017776 TSigT.919.38873.234.0144-.475.6495 EndBlockNumber1Allrequestedvariablesentered. 结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。
回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。
回归方程为Y=0.0687101X1+0.183756X2-2.856476。
本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为
0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。
系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。
图8.3计算结果的保存 本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向ChartCarousel窗口,双击该窗口可见下图显示结果。
90 Histogram DependentVariable:Y 3.5 3.0 2.5 2.0 1.5 Frequency 1.0 .5 0.0 -1.50 -1.00 -.50 0.00 .50 RegressionStandardizedResidual 图8.4对标准化Y预测值所作的正态分布图 Std.Dev=.88 Mean=0.00 N=10.00 1.00 1.50 第二节CurveEstimation过程 8.2.1主要功能 调用此过程可完成下列有关曲线拟合的功能:
1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y=b0+b1X);
2、Quadratic:拟合二次方程(Y=b0+b1X+b2X2);
3、Compound:拟合复合曲线模型(Y=b0×b1X);
4、Growth:拟合等比级数曲线模型(Y=e(b0+b1X));
5、Logarithmic:拟合对数方程(Y=b0+b1lnX)
6、Cubic:拟合三次方程(Y=b0+b1X+b2X2+b3X3);
7、S:拟合S形曲线(Y=e(b0+b1/X));
8、Exponential:拟合指数方程(Y=b0eb1X);
9、Inverse:数据按Y=b0+b1/X进行变换;10、Power:拟合乘幂曲线模型(Y=b0Xb1);11、Logistic:拟合Logistic曲线模型(Y=1/(1/u+b0×b1X)。
8.2.2实例操作 [例8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。
91 年龄(岁)X 1234567 锡克试验阴性率(%)Y 57.176.090.993.096.795.696.2 8.2.2.1数据准备激活数据管理窗口,定义变量名:锡克试验阴性率为
Y,年龄为
X,输入原始数据。
8.2.2.2统计分析激活Statistics菜单选Regression中的CurveEstimation...项,弹出CurveEstimation对话框(如图 8.5示)。
从对话框左侧的变量列表中选y,点击¾钮使之进入Dependent框,选x,点击¾钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plotmodels项要求绘制曲线拟合图;点击Save...钮,弹出CurveEstimation:Save对话框,选择Predictedvalue项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回CurveEstimation对话框,再点击OK钮即可。
图8.5曲线拟合对话框 8.2.2.3结果解释在结果输出窗口中将看到如下统计数据: ndependent:XDependentMth Rsqd.f.
F Sigf b0 b1 92
Y LOG.913552.32.001 61.325920.6704 在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。
本例要求绘制曲线拟合图,结果如图8.6所示。
Y 110 100 90 80 70 60Observed 50 Logarithmic
0 1
2 3
4 5
6 7
8 X 图8.6对数曲线拟合情形 根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7。
图8.7计算结果的保存93 第三节Logistic过程 8.3.1主要功能 调用此过程可完成Logistic回归的运算。
所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。
此类问题的解决均可借助逻辑回归来完成。
特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。
用户如果要拟合Logistic曲线模型,可调用本章第二节CurveEstimation过程,系统提供11种曲线模型,其中含有Logistic曲线模型(参见上节)。
在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+…+bkXk,但用该方程计算时,常会出现P>1或P<0的不合理情形。
为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为: eb0+b1X1+b2X2+…+bkXkP=——————————— 1+eb0+b1X1+b2X2+…+bkXk 8.3.2实例操作 [例8.3]某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。
术后感染(有无)
Y 有有无无无有无有有无无无无 年龄(岁)X1 69725741326558545559643642 手术创伤程度(5等级)X2 4531133421213 营养状态(3等级)X3 2321132221211 术前预防性抗菌(有无)X4 无无无有有有有无有有无有有 白细胞数(×109/L)X5 5.64.49.711.210.47.03.16.67.96.09.18.45.3 癌肿病理分度(TNM得分总和)X6 9645556674686 94 无 48
4 无 50
1 2 有
2 有 4.6
5 12.8
4 8.3.2.1数据准备激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入
Y、无输入N),年龄为X1, 手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入
Y、无输入N),白细胞数为X5,癌肿病理分度为X6。
按要求输入原始数据。
8.3.2.2统计分析激活Statistics菜单选Regression中的Logistic...项,弹出LogisticRegression对话框(如图8.8示)。
从对话框左侧的变量列表中选y,点击¾钮使之进入Dependent框,选x1、x2、x3、x4、x5和x6,点击¾钮使之进入Covariates框;点击Method处的下拉按钮,系统提供7种方法: 图8.8逻辑回归对话框
1、Enter:所有自变量强制进入回归方程;
2、Forward:Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;
3、Forward:LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;
4、Forward:Wald:作Wald概率统计法,向前逐步选择自变量;
5、Backward:Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;
6、Backward:LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;
7、Backward:Wald:作Wald概率统计法,向后逐步选择自变量。
本例选用Forward:Conditional法,以便选择有主要作用的影响因素;点击Options...钮,弹出LogisticRegression:Options对话框,在Display框中选取Atlaststep项,要求只显示最终计算结果,点击Continue钮返回LogisticRegression对话框,再点击OK钮即可。
8.3.2.3结果解释在结果输出窗口中将看到如下统计数据: DependentVariableEncoding: 95 OriginalValueyn X4 InternalValue01 Value ny ParameterFreqCoding (1)51.00010-1.000 系统先对字符变量进行重新赋值,对于应变量
Y,回答是(Y)的赋值为
0,回答否(X)的赋值为1;对于应变量X4,回答是(Y)的赋值为-
1,回答否(X)的赋值为
1。
DependentVariable..YBeginningBlockNumber0.InitialLogLikelihoodFunction-2LogLikelihood19.095425*Constantisincludedinthemodel. BeginningBlockNumber1. Improv. StepChi-Sq.dfsig
1 8.5101.004
2 6.7661.009 Method:ForwardStepwise(COND) Model Correct Chi-Sq.dfsigClass%Variable 8.5101.00480.00 IN:X3 15.2762.00093.33 IN:X6 Nomorevariablescanbedeletedoradded. EndBlockNumber1PIN=FinalEquationforBlock1 .0500Limitsreached. Estimationterminatedatiterationnumber12because LogLikelihooddecreasedbylessthan.01percent. -2LogLikelihood 3.819 GoodnessofFit 3.000 ModelChi-SquareImprovement Chi-Squaredf15.27626.7661 Significance.0005.0093 ClassificationTableforY Predicted y n y|n PercentCorrect 96 Observed y y n n +———+———+ |4|1|+———+———+ |0|10|+———+———+ 80.00%100.00% Overall93.33% ----------------------VariablesintheEquation----------------------- Variable
B S.E. Walddf Sig X3 -30.5171298.0526.0105 1.9184 X6 -10.2797107.9559.0091 1.9241 Constant 123.40531155.1065.0114 1.9149 R.0000.0000 Exp(B).0000.0000 结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经χ2检验,χ2=15.276,P=0.0005。
Logistic回归的分类概率方程为:e123.4053-30.5171X3-10.2797X6 P=——————————————1+e123.4053-30.5171X3-10.2797X6 根据该方程,若一胃癌患者营养状态评分(X3)为
3,癌肿病理分度(X6)为
9,则其P=4.5×10-27≈
0,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为
1,癌肿病理分度(X6)为
4,则其P=0.98105≈
1,这意味着术后将不会发生院内感染。
第四节Probit过程 8.4.1主要功能 调用此过程可完成剂量-效应关系的分析。
通过概率单位使剂量-效应的S型曲线关系转化成直线,从而利用回归方程推算各效应水平的相应剂量值。
8.4.2实例操作 [例8.4]研究抗疟药环氯胍对小白鼠的毒性,试验结果如下表所示。
试计算环氯胍的半数致死剂量。
剂量(mg/kg) 动物数 死亡数 12
5 5
9 7
6 7 19 11
6 34 17
5 38 12 97
4 12
2 3
5 0 8.4.2.1数据准备激活数据管理窗口,定义变量名:剂量为DOSE、试验动物数为OBSERVE、死亡动物数为DEATH。
然后输入原始数据。
8.4.2.2统计分析激活Statistics菜单选Regression中的Probit...项,弹出ProbitAnalysis对话框(如图8.9示)。
从 对话框左侧的变量列表中选death,点击¾钮使之进入ResponseFrequency框;选observe,点击¾钮使之进入TotalObserved框;选dose,点击¾钮使之进入Covariate(s)框,并下拉Transform菜单,选Logbase10项(即要求对剂量进行以10为底的对数转换)。
图8.9剂量-效应关系分析对话框 系统在Model栏中提供两种模型,一是概率单位模型(Probit),另一是比数比自然对数模型(Logit)。
本例选用概率单位模型。
点击Options...钮,弹出ProbitAnalysis:Options对话框,在NaturalResponseRate栏选Calculatefromdata项,要求计算各剂量组的实际反应率。
之后点击Continue钮返回ProbitAnalysis对话框,再点击OK钮即可。
8.4.2.3结果解释在结果输出窗口中将看到如下统计数据:系统首先显示,共有7组原始数据采概率单位模型进行分析。
回归方程的各参数在经过14次叠 代运算后确定,即PROBIT=5.95215-4.66313X。
该方程拟合优度χ2检验结果,χ2=0.833,P=0.934,拟合良好。
DATAInformation7unweightedcasesepted. 98 0casesrejectedbecauseofmissingdata.0casesareinthecontrolgroup.0casesrejectedbecauseLOG-transformcan'tbedone.MODELInformationONLYNormalSigmoidisrequested. NaturalResponseratetobeestimated CONTROLgroupisnotprovided. Parameterestimatesconvergedafter14iterations.Optimalsolutionfound. ParameterEstimates(PROBITmodel:(PROBIT(p))=Intercept+BX): DOSE RegressionCoeff.5.95215 StandardError2.39832 Coeff./S.E.2.48180 Intercept-4.66313 StandardError2.19942 Intercept/S.E.-2.12017 EstimateofNaturalResponseRate=.000000withS.E.=.26448 PearsonGoodness-of-FitChiSquare=.833DF=4P=.934 SinceGoodness-of-FitChisquareisNOTsignificant,noheterogeneityfactorisusedinthecalculationofconfidencelimits. Covariance(below)andCorrelation(above)MatricesofParameterEstimates DOSENATRESP DOSE 5.75192.82927 NATRESP .52601.06995 接着,系统显示剂量对数值(DOSE)、实际观察例数(NumberofSubjects)、试验动物反应数(ObservedResponses)、预期反应数(ExpectedResponses)、残差(Residual)和效应的概率(Prob)。
之后,显示各效应概率水平的剂量值及其95%可信区间值,按本例要求,环氯胍的半数致死剂量(即Prob=0.50时)为6.07347,其95%可信区间为1.86305—7.54282。
ObservedandExpectedFrequencies NumberofObservedExpected DOSESubjects ResponsesResponsesResidual Prob 99 1.08 5.0 .95 7.0 .85 19.0 .78 34.0 .70 38.0 .60 12.0 .48 5.0 5.0 4.804 6.0 5.917 11.0 12.221 17.0 16.573 12.0 11.688 2.0 1.682 .0 .171 ConfidenceLimitsforEffectiveDOSE Prob DOSE .01 2.46942 .02 2.74406 .03 2.93394 .04 3.08539 .05 3.21433 .06 3.32832 .07 3.43158 .08 3.52676 .09 3.61561 .10 3.69937 .15 4.06733 .20 4.38570 .25 4.67862 .30 4.95831 .35 5.23239 .40 5.50646 .45 5.78528 .50 6.07347 .55 6.37600 .60 6.69886 .65 7.04974 .70 7.43943 .75 7.88416 .80 8.41075 .85 9.06910 .90 9.97116 .91 10.20216 .92 10.45919 .93 10.74928 .94 11.08278 .95 11.47580 .96 11.95538 95%ConfidenceLimits Lower Upper .02752 4.27407 .04534 4.54351 .06223 4.72430 .07895 4.86574 .09580 4.98445 .11294 5.08821 .13047 5.18134 .14845 5.26651 .16694 5.34550 .18597 5.41954 .29060 5.74092 .41395 6.01572 .56021 6.26792 .73436 6.51010 .94261 6.75084 1.19286 6.99754 1.49529 7.25814 1.86305 7.54282 2.31299 7.86673 2.86587 8.25522 3.54438 8.75565 4.36394 9.46545 5.30688 10.59748 6.29069 12.60617 7.21514 16.40564 8.09412 24.20725 8.27760 26.73478 8.46892 29.82525 8.67177 33.68627 8.89128 38.64769 9.13511 45.27000 9.41572 54.59759 .196.083-1.221.427.312.318-.171 .96082.84534.64320.48745.30757.14016.03413 100 .97 12.57252 9.75590 68.85554 .98 13.44250 10.20577 93.92908 .99 14.93751 10.92195 153.73112 最后,系统输出以剂量对数值为自变量
X、以概率单位为应变量Y的回归直线散点图,从图中各点的分布状态亦可看出,回归直线的拟合程度是很好的。
ProbitTransformedResponses 1.5 1.0 .5 0.0 -.5 Probit -1.0 .5 .6 .7 .8 .9 1.0 LogofDOSE 图8.10剂量-效应关系回归直线散点图 第五节Nonlinear过程 8.5.1主要功能 调用此过程可完成非线性回归的运算。
所谓非线性回归,即为曲线型的回归分析,一些曲线模 型我们已在本章第二节中述及。
但在医学研究中经,还经常会遇到除本章第二节中述及的曲线模型, 对此,SPSS提供Nonlinear过程让用户根据实际需要,建立各种曲线模型以用于研究变量间的相互 关系。
在医学中,如细菌繁殖与培养时间关系的研究即可借助Nonlinear过程完成。
下面一些曲线模型是在论文中较常见的,提供给用户应用时作参考: 模型名称 模型表达式 Asympt.Regression1 Y=b1+b2×exp(b3X) Asympt.Regression2 Y=b1-(b2×(b3X)) Density Y=(b1+b2×X)(-1/b3) Gauss Y=b1×(1-b3×exp(-b2×X2)) Gompertz Y=b1×exp(-b2×exp(-b3×X)) Johnson-Schumacher Y=b1×exp(-b2/(X+b3)) 101 LogModifiedLog-LogisticMetcherlichLawofDim.Ret.MichaelisMentenan-Mercer-FlorinPeal-ReedRatioofCubicsRatioofQuadraticsRichardsVerhulstVonBertalanffyWeibullYieldDensity Y=(b1+b3×X)b2Y=b1-ln(1+b2×exp(-b3×X))Y=b1+b2×exp(-b3×X)Y=b1×X/(X+b2)Y=(b1×b2+b3×Xb4)/(b2+Xb4)Y=b1/(1+b2×exp(-(b3×X+b4×X2+b5×X3)))Y=(b1+b2×X+b3×X2+b4×X3)/(b5×X3)Y=(b1+b2×X+b3×X2)/(b4×X2)Y=b1/((1+b3×exp(-b2×X))(1/b4))Y=b1/(1+b3×exp(-b2×X))Y=(b1(1-b4)-b2×exp(-b3×X))(1/(1-b4))Y=b1-b2×exp(-b3×Xb4)Y=(b1+b2×X+b3×X2)(-1) 8.5.2实例操作 [例8.5]选取某地某年寿命表中40-80岁各年龄组的尚存人数资料如下表,请就该资料试拟合Gompertz曲线(Y=b1×b2(b3X))。
年龄组(岁) 404550556065707580 年龄简化值(X) 012345678 尚存人数(Y) 812777925876532728506756859911508003932528074 8.5.2.1数据准备激活数据管理窗口,定义变量名:年龄简化值为
X,尚存人数为
Y。
输入原始数据。
8.5.2.2统计分析激活Statistics菜单选Regression中的Nonlinear...项,弹出NonlinearRegression对话框(如图8.11 示)。
从对话框左侧的变量列表中选y,点击¾钮使之进入Dependent框。
由于SPSS系统尚无法智能地自动拟合用户所需的曲线,故一方面要求用户估计方程中常数项和各系数项进行叠代运算的起始值,另一方面要求用户列出方程模型。
对此,可首先点击NonlinearRegression对话框的Parameters...钮,弹出NonlinearRegression:Parameters对话框(图8.12),在Name处定义系数名,在StartValue处输入起始值(这项工作是十分重要的,否则系统可能无法运算,甚至会因叠代次数过大导致SPSS系统的崩溃),本例定义b1=8500、b2=1、b3=1.5,每定义一个系数,即点击Add钮加以确定;若在后面的运算中出错,则还可修改系数项的起始值,修改后点击Change钮加以确定;然后点击Continue钮返回NonlinearRegression对话框。
在ModelExpression处写出曲线方程表达式,用户可借助系统 102 提供的数码盘和函数列表写出方程。
本例要求计算根据回归方程求出的预测值,可点击Save钮,在NonlinearRegression:SaveNewVariables对话框中选Predictedvalue项。
最后点击OK钮即可。
图8.11非线性回归对话框 图8.12系数项定义对话框 8.5.2.3结果解释在结果输出窗口中将看到如下统计数据: Iteration11.122.12.23 ResidualSS283271934633.8505E+11800135019.6800135019.6 B18500.0000080175.342780175.3427194572.01383185.804683185.8046 B21.00000000 .739240551.739240551.006502086.842994797.842994797 B31.500000001.500000001.50000000-.216290771.198524301.19852430 103 3.11285737878881201.8322 3.2550558275.1 85774.2528
4 550558275.185774.2528 4.1205793117.690637.3496
5 205793117.6 90637.3496 5.149937888.6592251.6832
6 49937888.6592251.6832 6.1438492814.3 83503.5809 6.214165723.6591420.4568
7 14165723.6591420.4568 7.18227661.248 89440.0706
8 8227661.24889440.0706 8.117416856.8685916.5498 8.24600297.866 88467.6768
9 4600297.86688467.6768 9.12761649.685 86538.9357 10 2761649.68586538.9357 10.1644830.076585633.9620 11 644830.076585633.9620 11.1475140.368485680.9561 12 475140.368485680.9561 12.1475135.426585679.2273 13 475135.426585679.2273 13.1475135.426285679.2477 1.01579267.850493197.850493197.859429212.859429212.905992700.905992700.966421043.909112694.909112694.923463315.923463315.948299986.930296397.930296397.943736707.943736707.949714917.949714917.949325567.949325567.949338713.949338713.949338590 1.429277911.214331271.214331271.252769321.252769321.339425361.339425361.463656021.360831151.360831151.388989401.388989401.450054981.407977241.407977241.444194081.444194081.468966601.468966601.468980441.468980441.469036831.469036831.46903640 Runpedafter30modelevaluationsand13derivativeevaluations.IterationshavebeenpedbecausetherelativereductionbetweenessiveresidualsumsofsquaresisatmostSSCON=1.000E-08 NonlinearRegressionSummaryStatistics DependentVariableY SourceRegressionResidualUncorrectedTotal(CorrectedTotal) DFSumofSquaresMeanSquare337121583327.612373861109.26475135.4262479189.23771937122058463.082823635793.56 Rsquared=1-ResidualSS/CorrectedSS=.99983 ParameterB1B2 Estimate85679.247671 .949338590 AsymptoticStd.Error383.76368720.002336270 Asymptotic95% ConfidenceInterval Lower Upper 84740.211757 86618.283585 .943621944 .955055236 104 B3 1.469036403.0089089761.447236923 AsymptoticCorrelationMatrixoftheParameterEstimates B1 B2 B3 B1 1.0000-.9245-.8880 B2 -.92451.0000.9902 B3 -.8880 .99021.0000 1.490835883 经30次叠代运算后,相邻两次的方程剩余均方差值不大于规定的1×10-
8,满足要求;回归方程的决定系数R2=0.99983,Gompertz曲线方程为: Y=85679.247671×0.94933859(1.469036403X)本例要求计算预测值,系统将结果存入原始数据库中(图8.13),系统以pred_作为预测值的变量名。
由结果可见,预测值与实际值十分接近。
图8.13原始数据及其预测值 第九章对数线性模型 对数线性模型是用于离散型数据或整理成列联表格式的计数资料的统计分析工具。
在对数线性模型中,所有用作的分类的因素均为独立变量,列联表各单元中的例数为应变量。
对于列联表资料,通常作χ2检验,但χ2检验无法系统地评价变量间的联系,也无法估计变量间相互作用的大小,而对数线性模型是处理这些问题的最佳方法。
105 第一节General过程 9.1.1主要功能 调用该过程可对一个或多个二维列联表资料进行非层次对数线性分析。
它只能拟合全饱和模型,即分类变量各自效应及其相互间效应均包含在对数线性模型中。
9.1.2实例操作 [例9-1]在住院病人中,研究其受教育程度与对保健服务满意程度的关系,资料整理成列联表后如下所示。
对保健服务满意程度(%) 满意不满意 受教育程度高 65(91.5)6(8.5) 中 272(93.8)18(6.2) 低 41(97.6)1(2.4) 按一般情形作χ2检验,结果显示不同受教育程度的住院病人其对保健服务满意程度无差别。
但从百分比分析中可见,随受教育程度的提高,满意程度有下降的趋势;且我们还想了解受教育程度与满意程度有无交互作用和交互作用的大小。
对此,必须采用对数线性模型加以分析。
9.1.2.1数据准备激活数据管理窗口,定义变量名:实际观察频数的变量名为freq,受教育程度和满意程度作为 行、列分类变量(即独立变量),变量名分别为educ、care。
输入原始数据,结果如图9.1所示。
如同第四章Crosstab过程中所述,为使列联表的频数有效,应选Data菜单的WeightCases...项,弹出WeightCases对话框(图9.2),激活Weightcasesby项,从变量列表中选freq点击¾钮使之进入FrequencyVariable框,点击OK钮即可。
106 图9.1原始数据的输入 图9.2频数的加权定义 9.1.2.2统计分析激活Statistics菜单选Loglinear中的General...项,弹出GeneralLoglinearAnalysis对话框(图9.3)。
从对话框左侧的变量列表中选care,点击¾钮使之进入Factor(s)框,点击DefineRange...钮,弹出GeneralLoglinearAnalysis:DefineRange对话框,定义分类变量care的范围,本例为1、
2,故可在Minimum处键入
1,在Maximum处键入
2,点击Continue钮返回GeneralLoglinearAnalysis对话框。
同法将变量educ选入Factor(s)框,并定义其范围为1、
3。
本例要求计算各分类变量主效应和交互作用的参数估计,故点击Contrast...钮,弹出GeneralLoglinearAnalysis:Contrasts对话框,选择Displayparameterestimates项,点击Continue钮返回GeneralLoglinearAnalysis对话框,最后点击OK钮即完成分析。
图9.3非层次对数线性模型分析对话框 9.1.2.3结果解释在结果输出窗口中将看到如下统计数据:首先显示系统对403例资料进行分析,共有二个分类变量:CARE为2水平,EDUC为3水平。
分析的效应有三类:满意程度(CARE)、教育程度(EDUC)和两者的交互作用(CAREBYEDUC)。
107 系统经2次叠代后即达到相邻二次估计之差不大于规定的0.001。
DATA Information6unweightedcasesepted.0casesrejectedbecauseofout-of-rangefactorvalues.0casesrejectedbecauseofmissingdata. 403weightedcaseswillbeusedintheanalysis. FACTORInformation Factor Level CARE
2 EDUC
3 Label DESIGNInformation1Design/Modelwillbeprocessed. CorrespondenceBetweenEffectsandColumnsofDesign/Model1 StartingEnding ColumnColumnEffectName
1 1 CARE
2 3 EDUC
4 5 CAREBYEDUC Note:forsaturatedmodels.500hasbeenaddedtoallobservedcells. ThisvaluemaybechangedbyusingtheCRITERIA=DELTAmand. ***MLconvergedatiteration2.Maximumdifferencebetweenessiveiterations=.00000 由于本例对Mode(l模型)未作定义,故系统采用默认的全饱和模型,因而期望例数(EXP.count)与实际例数(OBS.count)相同,进而残差(Residual)、标准化残差(Std.Resid)和校正残差(Adj.Resid)均为
0。
Observed,ExpectedFrequenciesandResiduals FactorCodeOBS.count&PCT.EXP.count&PCT. CARE1 EDUC165.50(16.13) 65.50(16.13) EDUC2272.50(67.12) 272.50(67.12) EDUC341.50(10.22) 41.50(10.22) CARE2 EDUC16.50(1.60) 6.50(1.60) EDUC218.50(4.56) 18.50(4.56) EDUC31.50(.37) 1.50(.37) Residual .0000.0000.0000 .0000.0000.0000 Std.Resid. .0000.0000.0000 .0000.0000.0000 Adj.Resid. .0000.0000.0000 .0000.0000.0000 108 最后输出参数估计的结果。
为了唯一地估计参数,系统强行限定同一分类变量的各水平参数之和为
0,故根据下列结果可推得各参数为: λ满意=1.386724028 λ不满意=-1.386724028 λ高教育程度=-0.091477207 λ中教育程度=1.144301306 λ低教育程度=-1.052824099 λ满意.高教育程度=-0.231600045λ满意.中高教育程度=-0.041790087λ满意.低教育程度=0.273390132λ不满意.高教育程度=0.231600045λ不满意.中教育程度=0.041790087λ不满意.低教育程度=-0.273390132λ值为正,表示正效应;反之为负效应;零为无效应。
分析提供的信息是:①对保健服务的满意程度高于不满意程度;②中等教育程度者的满意程度>高等教育程度者的满意程度>低等教育程度者的满意程度;③通过受教育程度与对保健服务满意程度的交互作用研究,结果表明高、中等教育未能增加人们对现有保健服务状况的满意程度。
EstimatesforParameters CARE Parameter Coeff.
1 1.386724028 EDUC Parameter Coeff. 2-.091477207
3 1.144301306 CAREBYEDUC Parameter Coeff. 4-.231600045 5-.041790087 Std.Err..15965 Std.Err..19895.17407 Std.Err..19895.17407 Z-Value8.68589 Lower95CI1.07381 Upper95CI1.69964 Z-Value-.459806.57393 Lower95CI-.48142.80313 Upper95CI.298471.48547 Z-Value-1.16410-.24008 Lower95CI-.62154-.38296 Upper95CI.15834.29938 109 第二节Hierarchical过程 9.2.1主要功能 调用该过程可对多维列联表资料进行分层对数线性分析。
所谓分层即并可根据用户指定的条件,对某一或某些主效应与交互作用进行剔除,从而形成包含特定层次阶项的各种模型。
9.2.2实例操作 [例9-2]为了研究Colles骨折在不同性别中的年龄分布情况,以说明不同性别者骨折的年龄差异及其年度变化,某地收集了1978--1981年的骨折资料,数据见下表。
请作对数线性模型的分析。
年龄1978 男 女 0—1955 17 20--59165 260 60--8950 94 1979 男 女 43
9 101 233 29 115 1980 男 女 89 20 104 202 56 95 1981 男 女 140 41 137 278 54 153 9.2.2.1数据准备激活数据管理窗口,定义变量名:实际观察频数的变量名为freq,年份、性别和年龄为分类变 量,变量名分别为year、sex和age。
输入原始数据,其中年份1978至1981依次为1、2、3、
4,性别男为
1、女为
2,年龄分组依次为1、2、
3。
之后选Data菜单的WeightCases...项,在WeightCases对话框中激活Weightcasesby项,从变量列表中选freq点击¾钮使之进入FrequencyVariable框,点击OK钮完成对频数的权重定义。
9.2.2.2统计分析激活Statistics菜单选Loglinear中的Hierarchical...项,弹出HierarchicalLoglinearAnalysis对话框 (图9.4)。
从对话框左侧的变量列表中选age,点击¾钮使之进入Factor(s)框,点击DefineRange...钮,弹出HierarchicalLoglinearAnalysis:DefineRange对话框,定义分类变量age的范围,在Minimum处键入
1,在Maximum处键入
9,点击Continue钮返回HierarchicalLoglinearAnalysis对话框。
同法将变量sex选入Factor(s)框,定义其范围为1、2;将变量year选入Factor(s)框,定义其范围为1、
4。
110 图9.4层次对数线性模型分析对话框 为了更好地拟合数据,并尽可能的简单和易于解释,本例选择向后剔除法建立模型,即从所有效应均在模型中开始,然后消除那些不满足保留判据的效应。
点击Model...钮,弹出HierarchicalLoglinearAnalysis:Model对话框,在ModelBuilding栏中选Usebackwardelimination项,点击Continue钮返回HierarchicalLoglinearAnalysis对话框。
本例要求作参数估计,故点击Options...钮,弹出HierarchicalLoglinearAnalysis:Options对话框,在DisplayforSaturatedModel栏中选Parameterestimates项,点击Continue钮返回HierarchicalLoglinearAnalysis对话框,之后点击OK钮即完成分析。
9.2.2.3结果解释在结果输出窗口中将看到如下统计数据:首先显示,共有2540个观察例数进入分析,其中分类变量AGE为3水平,SEX为2水平,YEAR 为4水平。
采用全饱和模型,高阶项为年龄、性别和年份三者的交互作用。
(在层次对数线性模型分析中,当指定高阶项时,即意味着包含其所属变量所有可能组合的低阶项;如本例,即包含年龄和性别的交互作用、年龄和年份的交互作用、性别和年份的交互作用、年龄的主效应、性别的主效应、年份的主效应。
从最高阶到最低阶共为3阶。
) DATA Information24unweightedcasesepted.0casesrejectedbecauseofout-of-rangefactorvalues.3casesrejectedbecauseofmissingdata.2540weightedcaseswillbeusedintheanalysis. FACTORInformation Factor Level AGE
3 SEX
2 YEAR
4 Label DESIGN1hasgeneratingclassAGE*SEX*YEAR 111 Note:Forsaturatedmodels.500hasbeenaddedtoallobservedcells.ThisvaluemaybechangedbyusingtheCRITERIA=DELTAmand. TheIterativeProportionalFitalgorithmconvergedatiteration1. Themaximumdifferencebetweenobservedandfittedmarginaltotalsis .000 andtheconvergencecriterionis.278 系统以全饱和模型为起始,故显示各变量的实际例数、期望例数、残差和标准化残差,因期望例数与实际例数相同,进而残差、标准化残差均为
0。
Observed,ExpectedFrequenciesandResiduals. Factor Code OBScountEXPcount AGE
1 SEX
1 YEAR1 55.5 55.5 YEAR2 43.5 43.5 YEAR3 89.5 89.5 YEAR4 140.5 140.5 SEX
2 YEAR1 17.5 17.5 YEAR2 9.5 9.5 YEAR3 20.5 20.5 YEAR4 41.5 41.5 AGE
2 SEX
1 YEAR1 165.5 165.5 YEAR2 101.5 101.5 YEAR3 104.5 104.5 YEAR4 137.5 137.5 SEX
2 YEAR1 260.5 260.5 YEAR2 233.5 233.5 YEAR3 202.5 202.5 YEAR4 278.5 278.5 AGE
3 SEX
1 YEAR1 50.5 50.5 YEAR2 29.5 29.5 YEAR3 56.5 56.5 YEAR4 54.5 54.5 SEX
2 Residual .00.00.00.00 .00.00.00.00 .00.00.00.00 .00.00.00.00 .00.00.00.00 StdResid .00.00.00.00 .00.00.00.00 .00.00.00.00 .00.00.00.00 .00.00.00.00 112 YEAR1YEAR2YEAR3YEAR4 94.5 94.5 .00 .00 115.5 115.5 .00 .00 95.5 95.5 .00 .00 153.5 153.5 .00 .00 Goodness-of-fitteststatisticsLikelihoodratiochisquare=Pearsonchisquare= .00000.00000 DF=0P=1.000DF=0P=1.000 下面,系统先显示某一阶及其更高阶交互效应为0时的似然比χ2检验概率值,因K为3时的概率值=0.1964>0.05,故认为年龄、性别、年份三者的交互作用为
0,亦即含1阶(单一变量主效应)及2阶(变量两两交互效应)的模型就能恰当地表述数据。
接着,系统又显示特定阶交互效应为0时的似然比χ2检验概率值,结果表明,单纯含1阶(单一变量主效应)或单纯含2阶(变量两两交互效应)的模型也能恰当地表述数据。
TeststhatK-wayandhigherordereffectsarezero.
K DFL.R.ChisqProb
3 6 8.615 .1964 217 404.424 .0000
1 23 1279.591 .0000 PearsonChisq8.547 425.1681293.594 Prob.2007.0000.0000 Iteration420 TeststhatK-wayeffectsarezero.
K DFL.R.Chisq
1 6 875.167 211 395.809
3 6 8.615 Prob.0000.0000.1964 PearsonChisq868.426416.6218.547 Prob.0000.0000.2007 Iteration000 Note:Forsaturatedmodels.500hasbeenaddedtoallobservedcells.ThisvaluemaybechangedbyusingtheCRITERIA=DELTAmand. 系统所确定的模型中各参数值如下所示,由于内容较多,各λ值如何推算及其所表示的意义,请读者参阅本章第一节。
EstimatesforParameters. AGE*SEX*YEAR Parameter Coeff.
1 -.1412276052
2 .1674922915 3-.0169870288
4 .0577506145 5-.0069187948 Std.Err..08417.10130.07921.05557.06504 Z-Value-1.677841.65335 -.214471.03925-.10637 Lower95CI-.30621-.03106-.17223-.05117-.13440 Upper95CI.02375.36605.13826.16667.12057 113 6-.0817851831.05570 -1.46819 -.19097 .02740 AGE*SEX Parameter Coeff.
1 .7059980126
2 -.2968871102 Std.

Err..04848.03276 Z-Value14.56319-9.06301 Lower95CI.61098-.36109 Upper95CI.80102 -.23268 AGE*YEAR Parameter Coeff. 1-.1762097434 2-.3051792054
3 .1339590237
4 .1990874838
5 .1982170140 6-.1646071030 Std.Err..08417.10130.07921.05557.06504.05570 Z-Value-2.09344-3.012491.691273.582693.04744-2.95499 Lower95CI-.34119-.50374-.02129.09017.07073-.27379 Upper95CI-.01123-.10662.28920.30800.32570-.05543 SEX*YEAR Parameter Coeff.
1 .0471962901
2 -.0778801067
3 .0827715134 Std.

标签: #文件夹 #文件 #文件夹 #回收站 #文件 #文件 #c盘怎么清理 #christmas