IBMSPSSModelerServer14.2,怎么看python安装成功

怎么看 1
i IBMSPSSModelerServer14.2管理和性能指南 注意:使用本信息以及其支持的产品之前,请阅读注意事项第页码下的常规信息。
本文件包含SPSSInc,IBMCompany的专利信息。
本文件依照许可证协议提供并受版权法保护。
本出版物中包含的任何信息不包括任何产品保证,同时本手册中提供的任何声明不应被解释为保证。
当您发送信息给IBM或SPSS时,您将授予非独占权利给IBM和SPSS,允许它以其认为合适的任何方式使用或分发这些信息而不承担任何责任。
CopyrightIBMCorporation1994,2011.. 前言 IBM®SPSS®Modeler是IBMCorp.企业级数据挖掘工作平台。
SPSSModeler通过深入的数据分析帮助组织改进与客户和市民的关系。
组织通过借助源自SPSSModeler的洞察力可以留住优质客户,识别交叉销售机遇,吸引新客户,检测欺诈,降低风险,促进政府服务交付。
SPSSModeler’的可视化界面让用户可以应用他们自己的业务专长,这将生成更强有力的预测模型,缩减实现解决方案所需的时间。
SPSSModeler提供了多种建模技术,例如预测、分类、细分和关联检测算法。
模型创建成功后,通过IBM®SPSS®ModelerSolutionPublisher,在广泛的企业内交付给决策者,或通过数据库交付。
关于IBMBusinessAnalytics IBMBusinessAnalytics软件为决策者提供可信赖的完整、一致和准确信息,以帮助其提升业务绩效。
这一涵盖商务智能、预测分析、财务绩效与战略管理以及分析应用程序的全面组合可提供有关当前业务表现的清晰、立即和切实可行的深入见解,并能够有效预测未来结果。
其中整合了丰富的行业解决方案、经过验证的做法与专业服务,以帮助各种规模的组织提升生产效率、自动化决策并取得卓越成果。
作为该软件组合的一部分,IBMSPSSPredictiveAnalytics软件能够帮助各类组织有效地预测未来事件,并针对所得到的深入见解提前采取行动,以取得更优秀的业务成果。
全球企业、政府和学院客户依赖IBMSPSS技术作为吸引、留住和增加客户数量的竞争优势,并降低欺诈和转移风险。
通过将IBMSPSS软件融入其日常运营中,这些组织将成为“预测型”企业,即能够指引并自动化决策,以实现业务目标和取得可衡量的竞争优势。
有关详细信息,或联系我们的代表,请访问/spss。
技术支持 我们提供有技术支持服务以维护客户。
客户可就IBMCorp.产品使用或某一受支持硬件环境的安装帮助寻求技术支持。
要获得技术支持,请访问IBMCorp.网站/support。
在请求帮助时,请做好准备,以便识别您自己、您的组织以及您的支持协议。
CopyrightIBMCorporation1994,2011. iii 内容 1关于IBMSPSSModeler
1 IBMSPSSModelerServer.......................1IBMSPSSModeler选项.......................1IBMSPSSTextAnalytics.......................2IBMSPSSModeler文档.......................2应用程序示例..........................3Demos文件夹..........................4 2基础架构和硬件建议
5 IBMSPSSModeler基础架构.....................5基础架构描述..........................5硬件建议............................7 对临时磁盘空间和RAM的要求..................8数据访问............................9 引用数据文件.........................10IBMSPSSStatistics数据文件的导入................11安装说明............................11 3IBMSPSSModeler支持度 12 连接到IBMSPSSModelerServer...................12添加并编辑IBMSPSSModelerServer连接..............14搜索IBMSPSSCollaborationandDeploymentServices中的服务器....15 数据和文件系统.........................16用户验证............................16 文件创建...........................16不同的结果...........................17 4IBMSPSSModelerServer管理 18 启动和停止IBMSPSSModelerServer..................18在Windows中启动、停止和检查状态................18在UNIX中启动、停止和检查状态.................18 处理不响应服务器进程(UNIX系统).................19 iv 管理..............................20 使用IBMSPSSModelerAdministrationConsole..............20 启动ModelerAdministrationConsole................20使用ModelerAdministrationConsole配置访问权限..........21SPSSModelerServer连接....................22SPSSModelerServer配置....................22SPSSModelerServer监视....................28使用options.cfg文件.......................29 关闭不使用的数据库连接......................30 IBMSPSSStatistics许可证位置...................30 使用SSL进行安全数据传输.....................31 SSL如何运行.........................31通过SSL确保客户端-服务器和服务器-客户端的通信安全........31仅URL前缀配置........................35仅通过SSL实现安全LDAP....................35服务器日志...........................36 5性能概述 38 服务器性能和优化设置.......................38客户端性能和优化设置.......................38数据库使用情况和优化.......................41 SQL优化...........................41 6SQL优化 42 SQL生成如何运行.........................43SQL生成示例.........................43 配置SQL优化..........................45预览生成的SQL..........................46查看模型块SQL..........................47最大化SQL生成的提示.......................48支持SQL生成的节点.......................49CLEM支持SQL生成的表达式和运算符.................51 使用CLEM表达式中的SQL函数..................54写入SQL查询..........................54 v 附录 A为UNIX平台配置Oracle 55 配置Oracle的SQL优化......................55 B配置UNIX启动脚本 57 简介..............................57脚本..............................57自动启动和停止IBMSPSSModelerServer................57手动启动和停止IBMSPSSModelerServer................58编辑脚本............................58控制文件创建权限.........................59IBMSPSSModelerServer和数据访问包................59 ConnectforODBC配置故障排除..................61库路径...........................64为企业视图节点配置驱动程序....................64 C在UNIX上以非根进程方式运行 66 简介..............................66以非根进程方式配置IBMSPSSModelerServer..............66 D使用服务器群集负载均衡 69 E注意事项 70 索引 73 vi 1章 关于IBMSPSSModeler IBM®SPSS®Modeler是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
SPSSModeler参照行业标准CRISP-DM模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。
SPSSModeler提供了各种借助机器学习、人工智能和统计学的建模方法。
通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。
每种方法各有所长,同时适用于解决特定类型的问题。
SPSSModeler可以作为独立产品购买,或与SPSSModelerServer一起使用。
同时提供了大量其他选项,以下各节将对这些选项进行概述。
有关详细信息,请参阅/software/analytics/spss/products/modeler/。
IBMSPSSModelerServer SPSSModeler使用客户端/服务器体系结构将资源集约型操作的请求分发给功能强大的服务器软件,因而使大数据集的传输速度大大加快。
除了此处所列的产品和更新,也可能还有其他可用的产品和更新。
有关详细信息,请参阅/software/analytics/spss/products/modeler/。
SPSSModeler。
SPSSModeler是具有完整功能的产品,它安装并运行于用户的台式计算机上。
它既可以在本机模式下独立运行,也可以与IBM®SPSS®ModelerServer一起联机使用,从而提高了对大数据集的处理速度。
SPSSModelerServer.SPSSModelerServer与一个或多个IBM®SPSS®Modeler安装程序一起在分布式分析模式下不间断运行,这种运行方式大大提高了对大数据集的处理速度,因为在服务器上可以完成内存集约型操作,且无需将数据下载至客户端计算机。
SPSSModelerServer还提供对SQL优化和数据库内建模功能的支持,从而在性能和自动化方面带来更多优势。
要运行分析,必须至少安装有一个SPSSModeler。
IBMSPSSModeler选项 还可以单独购买以下组件和功能并获得使用许可,以用于SPSSModeler。
请注意,还可能提供其他产品或更新。
有关详细信息,请参阅/software/analytics/spss/products/modeler/。
SPSSModelerServer访问权限,可针对大型数据集提供更高的可扩展性和性能, 并提供对SQL优化以及数据库内建模功能的支持。
CopyrightIBMCorporation1994,2011.
1 2 章
1 SPSSModelerSolutionPublisher,用于在SPSSModeler环境外执行实时或自动评分。
有关详细信息,请参阅第2章中的IBMSPSSModelerSolutionPublisher中的IBMSPSSModeler14.2解决方案发布者。
允许部署到IBMSPSSCollaborationandDeploymentServices或精简客户端应用程序IBMSPSSModelerAdvantage的适配器。
有关详细信息,请参阅第9章中的存储和部署IBMSPSSCollaborationandDeploymentServicesRepository对象中的IBMSPSSModeler14.2用户指南。
IBMSPSSTextAnalytics IBM®SPSS®TextAnalytics是一个SPSSModeler完全集成内插式插件,它采用了先进语言技术和NaturalLanguageProcessing(NLP),以快速处理大量无结构文本数据,抽取和组织关键概念,以及将这些概念分为各种类别。
抽取的概念和类别可以和现有结构化数据中进行组合(例如人口统计学),并且可用于借助IBM®SPSS®Modeler的一整套数据挖掘工具来进行建模,以此实现更好更集中的决策。
文本挖掘节点提供了概念、类型建模以及交互式工作平台,通过此平台,可以完成 文本链接和聚类的高级探索,创建自己的类别和改进语言资源模板。
支持多种导入格式,其中包括“博客”和其他基于Web的资源。
还包括定制模板、库和指定域的词典,例如CRM和神经网络。
注:访问此组件需要单独许可证。
有关详细信息,请参阅/software/analytics/spss/products/modeler/。
IBMSPSSModeler文档 可以从SPSSModeler的帮助菜单中获取在线帮助格式的完整文档。
此文档包括SPSSModeler、SPSSModelerServer和SPSSModelerSolutionPublisher的文档以及《应用程序指南》和其他支持材料。
每个产品的完整文档(PDF格式)也位于每个产品DVD的\Documentation文件夹下。
IBMSPSSModeler用户指南。
使用SPSSModeler的一般使用介绍,包括如何构建 数据流、处理缺失值、生成CLEM表达式、处理项目和报告以及将用于部署的流打包为IBMSPSSCollaborationandDeploymentServices、预测应用程序或IBMSPSSModelerAdvantage。
IBMSPSSModeler源、处理和输出节点。
介绍用于以不同的格式读取、处理和输出数据的所有节点。
实际上这表示所有节点而非建模节点。
IBMSPSSModeler建模节点。
有关用于创建数据挖掘模型的所有节点的描述。
IBM®SPSS®Modeler可提供各种借助机器学习、人工智能和统计学的建模方法。
有关详细信息,请参阅第3章中的建模节点概述中的IBMSPSSModeler14.2建模节点。
IBMSPSSModeler算法指南。
介绍SPSSModeler中所用建模方法的数学基础。
IBMSPSSModeler应用程序指南。
本指南中的示例旨在为具体的建模方法和技术提供具有针对性的简介。
还可以在“帮助”菜单中查阅本指南的在线版本。
有关详细信息,请参阅应用程序示例中的IBMSPSSModeler14.2用户指南。

3 关于IBMSPSSModeler IBMSPSSModeler脚本编写与自动化。
通过编写脚本实现系统自动化的相关信息,包括用于操作节点和流的属性信息。
IBMSPSSModeler部署指南。
有关在IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager中以处理作业的步骤形式运行SPSSModeler流和方案的信息。
IBMSPSSModelerCLEF开发人员指南CLEF提供了将第三方程序(例如,数据处理例程或建模算法)作为节点集成到SPSSModeler的功能。
IBMSPSSModeler数据库内数据挖掘指南。
有关如何利用数据库的功能通过第三方算法来改进性能并增强分析功能的信息。
IBMSPSSModelerServer和性能指南。
有关如何配置和管理IBM®SPSS®ModelerServer的信息。
IBMSPSSModelerAdministrationConsole用户指南。
有关安装和使用控制台用户界面以监视和配置SPSSModelerServer的信息。
控制台实现为DeploymentManager应用程序的插件。
IBMSPSSModelerSolutionPublisher指南。
SPSSModelerSolutionPublisher是一个附加式组件,通过它组织可发布在标准SPSSModeler环境之外使用的流。
IBMSPSSModelerCRISP-DM指南。
借助CRISP-DM方法进行SPSSModeler数据挖掘的分步指南。
应用程序示例 SPSSModeler中的数据挖掘工具可以帮助解决很多业务和组织问题,应用程序示例将提供有关特定建模方法和技术的简要的针对性说明。
此处使用的数据集比某些数据挖掘器管理的大量数据存储要小得多,但涉及的概念和方法应可扩展到实际的应用程序。
可以通过在SPSSModeler中的“帮助”菜单中单击应用程序示例来访问示例。
数据文件和样本流安装在产品安装目录下的Demos文件夹中。
有关详细信息,请参阅Demos文件夹中的IBMSPSSModeler14.2用户指南。
数据库建模示例。
请参阅IBMSPSSModeler数据库内挖掘指南中的示例。
编写示例脚本。
请参阅IBMSPSSModeler脚本编写和自动化指南中的示例。
4章
1 Demos文件夹 与应用程序示例一起使用的数据文件和样本流安装在产品安装目录下的Demos文件夹中。
可从Windows的“开始”菜单中IBMSPSSModeler14.2程序组访问该文件夹,也可以在“文件打开”对话框中最近目录的列表中单击Demos。
图片1-1在最近使用的目录列表中选择Demos文件夹 2章 基础架构和硬件建议 IBMSPSSModeler基础架构 本节说明了IBM®SPSS®ModelerServer的基础架构,其中包括服务器软件、客户端软件和数据库。
本节说明了SPSSModelerServer如何实现性能优化,并且建议通过选择适当规模的硬件来尽可能地提高性能。
数据访问章节中进行了相应的总结,此节描述了如何设置必要的ODBC驱动程序。
基础架构描述 IBM®SPSS®ModelerServer采用三层分布式基础架构。
服务器和客户端计算机共享软件操作项。
安装和使用SPSSModelerServer(相对于独立的IBM®SPSS®Modeler)有诸多优势,尤其是在处理大型数据集合时:SPSSModelerServer除Windows系统以外,可以在UNIX上运行,这样在选择 安装平台时更具灵活性。
在任何平台上,您均可指定快速、大型的服务器计算机来进行数据挖掘。
对SPSSModelerServer进行优化,以提高运行速度。
当无法将操作项推送到数据库中时,SPSSModelerServer会将中间结果作为临时文件存储到磁盘而不是RAM中。
因为服务器上的磁盘可用空间通常较大,所以SPSSModelerServer可以对大型的数据集合执行排序、合并和聚合操作。
通过客户-服务器的基础架构,您可以将组织内的数据挖掘过程集合在一起进行。
集中化有助于规范业务流程中数据挖掘的作用。
使用管理员工具,例如,IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager(SPSSModelerServer附带)和IBM®SPSS®CollaborationandDeploymentServices以及IBM®SPSS®CollaborationandDeploymentServicesRepository(单独出售),您可以监视数据挖掘过程,同时确保有足够的可用计算资源。
您可以让某个数据挖掘任务自动化,管理对数据模型的访问,并且可以在组织内共享数据挖掘成果。
IBM®SPSS®Modeler分布式基础架构的组件将显示在“IBMSPSSModelerServer基础架构”图形第6页码中.SPSSModeler。
客户端软件将安装在最终用户的计算机上。
客户端软件将提供用户界 面并显示数据挖掘结果。
此客户端是一个完整的SPSSModeler软件安装程序,但当其与SPSSModelerServer连接来进行分布式分析时,此客户端的引擎处于非激活状态。
此SPSSModeler仅能在Windows操作系统上运行。
CopyrightIBMCorporation1994,2011.
5 6章
2 SPSSModelerServer。
此服务器软件安装在服务器计算机上,并通过网络与SPSSModeler(s)和数据库相连接。
SPSSModelerServer将作为服务(在Windows中)或作为守护进程(在UNIX)运行,同时等待客户端连接。
它将执行使用SPSSModeler创建的流和脚本。
数据库服务器。
数据库服务器可以是某个现有的数据集市(例如,基于大型UNIX服务器的Oracle或基于或者为了降低对其他操作系统的影响,数据库服务器还可以是本地或部门服务器中的数据集市(例如,基于Windows的SQLServer)。
IBMSPSSModelerServer基础架构图片2-1IBMSPSSModelerServer基础架构 借助分布式基础架构,多数处理将在服务器计算机上进行。
最终用户执行某个流时,SPSSModeler会将此流的描述发送给服务器。
服务器将判断哪些操作可以在SQL中执行并创建相应查询。
这些查询可以在数据库中执行,执行后得出的数据将传递给服务器来进行无法用SQL语言描述的处理。
处理完成后,仅将相关结果回传给客户端。
必要时,SPSSModelerServer可以在数据库之外执行所有SPSSModeler操作。
ClementineServer会自动平衡对RAM和磁盘的使用以执行数据操作。
此过程将使SPSSModelerServer完全兼容平面文件。
使用服务器群集进行处理时还可以使用负载均衡功能。
聚类通过进程协调器插件可以在IBMSPSSCollaborationandDeploymentServices3.5中启动。
有关详细信息,请参阅第69页码附录D中的使用服务器群集负载均衡。
通过SPSSModeler的服务器登录对话框可以直接连接到在进程协调器中受管的服务器或群集。
有关详细信息,请参阅第3章中的连接到IBMSPSSModelerServer中的IBMSPSSModeler14.2用户指南。
独立客户端SPSSModeler还可以通过配置来作为自包含桌面应用程序运行,如下面的“IBMSPSSModeler单机”图形所示.有关详细信息,请参阅第12页码第3章中的IBMSPSSModeler支持度。
图片2-2IBMSPSSModeler单机 7基础架构和硬件建议 硬件建议 当您打算安装IBM®SPSS®ModelerServer时,应考虑要使用的硬件。
尽管SPSSModelerServer本身就是高速设计,您仍可通过在数据挖掘任务中使用适当规模的硬件来尽可能地提高性能。
硬件升级通常是提高整体性能最简单且最经济的方式。
专用服务器。
在专用服务器计算机上安装SPSSModelerServer程序,专用服务器上的该程序将不与其他应用程序(包括SPSSModelerServer可能连接到的数据库)争用资源。
特别是模型构建操作,作为资源密集型操作,模型构建操作可以在不与其他应用程序争用资源的情况下更好地执行。
注意:虽然在作为数据库的同一计算机上安装SPSSModelerServer可以通过避免网络开支来减少数据库和服务器间的数据传输时间,但多数情况下,最佳配置是使服务器和数据库分别位于独立的计算机上,以避免相互之间对资源的争用。
通过提供服务器和数据库之间的快速连接来尽可能地降低数据传输成本。
处理器。
计算机上处理器的数量不应小于您希望定期运行的并行任务(同时执行的流)的数量。
通常来讲,处理器数量越多越好。
SPSSModelerServer的单个实例将接受来自多个客户端(用户)的连接,每个客户端连接均可对多个流执行进行初始化。
服务器因此可以在任一时间执行若干个任务。
基本原则是:一个处理器最多可由两个用户使用,两个处理器最多可由四个用户使用,四个处理器最多可由八个用户使用。
此外,请为每两到四个用户增加一个处理器,具体情况取决于工作环境。
某些时候,一些处理可以通过SQL优化来推送回数据库,此时两个或多个用户可以在性能损耗最小化的同时共享CPU资源。
多线程功能使得单个任务可以获取多处理器的优势,就是说增加处理器可以提高性能,即便一次仅有一个任务运行。
多线程通常用于C5.0模型构建和某些数据准备操作(排序、聚合和合并)。
64位平台。
如果您想在大量数据的基础上处理或构建模型,请使用64位Solaris、Windows或Linux作为SPSSModelerServer平台,同时请将计算机内存最大化。
对于大型数据集,服务器可能很快会耗尽32位平台所分配的单处理内存限制,这样将导致数据溢出到磁盘并大大增加运行时间。
采用64位服务器可获取辅助RAM(建议最小为8GB)的优势。
64位支持适用于Solaris、Windows和Linux平台。
8章
2 未来需求。
如果可行,请确保内存和CPU等服务器硬件可以扩展,可以同时容纳未来增加的使用量(例如,增加的同步用户数量或增加的现有用户处理需求)和增加的SPSSModelerServer多线程功能。
对临时磁盘空间和RAM的要求 IBM®SPSS®ModelerServer采用临时磁盘空间来处理大量数据。
所需的临时磁盘空间量取决于您所处理数据的量和类型以及所执行操作的类型。
数据量与行数和列数成正比。
处理的行和列数越多,所需磁盘空间越大。
本节描述了需要临时磁盘空间和辅助RAM的情形,以及如何估算所需空间量。
请注意,本节不讨论在数据库中进行数据处理时的临时磁盘空间需求,因为此类需求会因各种数据库而有所不同。
需要临时磁盘空间的情形 由于IBM®SPSS®ModelerServer的强大SQL优化功能,只要可以实现,处理都将在数据库(而不是服务器)中进行。
然而,当处于以下情形时,则不能使用SQL优化功能:要处理的数据保存在纯文本文件而不是数据库中。
SQL优化功能处于关闭状态。
不能使用SQL来优化处理操作。
无法使用SQL优化功能时,以下数据操控类节点和CLEM功能将创建部分或所有数据的临时磁盘备份。
如果您的站点所用的流包含以下处理命令或功能,您可能需要对服务器上的辅助磁盘空间进行设置。
聚合节点差异节点分级节点采用“按关键字合并”选项时合并节点所有建模节点排序节点表输出节点@OFFSET函数,其中的查询条件使用@THIS。
任何@函数(例如@MIN、@MAX和@AVE),其中将计算偏移参数。
计算临时磁盘空间量 通常,IBM®SPSS®ModelerServer需要能够写临时文件,临时文件大小至少是原始数据集合的三倍。
例如,如果数据文件为2GB且未使用SQL生成,SPSSModelerServer将需要6GB磁盘空间来处理数据。
由于每个并行用户帐户均会创建其自有临时文件,所以您需要相应地增加每个并行用户的磁盘空间。

9 基础架构和硬件建议 如果您发现自己的站点经常使用大型临时文件,则请考虑对IBM®SPSS®Modeler临时文件使用独立文件系统(在某个单一磁盘上创建)。
为了获得最佳效果,可以采用RAID0或跨越多个物理磁盘的分区数据集合来加速磁盘操作,理想状态下,可以是每个磁盘位于一个独立磁盘控制器上的分区文件系统中。
RAM的要求 对于多数无法在数据库中完成的操作,IBM®SPSS®ModelerServer会把中间结果作为临时文件存储到磁盘而不是内存(RAM)中。
但对于建模节点,可能的话还将采用RAM。
神经网络、Kohonen和K-Means节点需要大量RAM。
如果您的站点经常使用这些节点,请考虑为服务器安装更多RAM。
通常,所需RAM字节数可通过下面的公式计算: (number_of_records*number_of_cells_per_record)*number_of_bytes_per_cell 当存在名义字段时,number_of_cells_per_record的值可以变得非常大。
有关对RAM的当前建议,请参阅服务器安装指南的系统要求部分。
如果有四个甚至更多同步用户,建议安装更大的RAM。
并行任务必须共享内存,所以应相应增加内存。
通常,增加内存似乎是提高整体性能的最有效的方式之
一。
数据访问 要读取或写入到数据库中,您必须为相关数据库安装并配置ODBC数据源,并根据需要配置读取或写入权限。
IBM®SPSS®DataessPack包括一组用于此用途的ODBC驱动程序,此版本附带的IBMSPSSDataessPack安装光盘提供这些驱动程序。
如果您有关于创建或设置ODBC数据源权限的问题,请联系您的数据库管理员。
在IBM®SPSS®Modeler中数据库支持分为三层,分别代表对SQL回送和优化的不同支持级别,具体取决于数据库供应商。
不同的支持级别采用一定的系统设置来实现,并作为服务合约的组成部分加以自定义。
数据库支持的三个层包括: 表2-1数据库支持层 支持层第1层第2层第3层 描述所有可能的SQL回送都可用,并具有数据库特定的SQL优化。
多数SQL回送可用,具有非数据库特定的SQL优化。
没有SQL回送或优化,只能向数据库读取和写入数据。
支持的ODBC驱动程序 有关使用SPSSModeler14.2支持和测试的数据库和ODBC驱动程序的最新信息,请参阅公司支持站点上的产品兼容性矩阵(/support)。
10 章
2 在哪里安装驱动程序 注意,必须在每台可能进行处理的计算机上安装并配置ODBC驱动程序。
如果您以本地(独立)模式运行IBM®SPSS®Modeler,必须在本地计算机上安 装驱动程序。
如果您以分布模式针对远程IBM®SPSS®ModelerServer运行SPSSModeler,需要 在安装SPSSModelerServer的计算机上安装ODBC驱动程序。
如果您需要从SPSSModeler和SPSSModelerServer中访问相同数据源,必须在 两个计算机上都安装ODBC驱动程序。
如果您通过终端服务运行SPSSModeler,需要在安装SPSSModeler的终端服务服 务器上安装ODBC驱动程序。
如果您使用IBM®SPSS®ModelerSolutionPublisherRuntime在单独的计算机上运 行发布的流,您也需要在该计算机上安装并配置ODBC驱动程序。
注意:如果您在UNIX上使用SPSSModelerServer访问Teradata数据库,必须使用与TeradataODBC驱动程序一起安装的ODBC驱动程序管理器。
为了对SPSSModelerServer进行此更改,请在靠近modelersrv.sh脚本的顶部、注释所指示的地方为ODBC_DRIVER_MANAGER_PATH指定一个值。
此环境变量需要设置为TeradataODBC驱动程序附带的ODBC驱动程序管理器的位置(TeradataODBC驱动程序默认安装中的/usr/odbc/lib)。
您必须重新启动SPSSModelerServer以使所做更改生效。
有关为Teradata访问提供支持的SPSSModelerServer平台以及支持的TeradataODBC驱动程序版本的详细信息,请访问公司支持站点/support。
注意:上述规则特定于数据库中的数据访问。
其他文件操作类型,例如流、项目、模型、节点、PMML、输出和脚本文件的打开与保存,始终在客户端进行,并且始终在客户端计算机的文件系统条件中进行指定。
此外,SPSSModeler中的“设置目录”命令为本地客户端对象(例如流)设置工作目录时不会影响服务器工作目录。
UNIX。
关于如何配置基于UNIX的SPSSModelerServer以采用IBM®SPSS®Statistics数据访问技术,请参阅配置UNIX启动脚本第57页码。
引用数据文件 Windows。
如果在作为IBM®SPSS®ModelerServer的同一计算机上存储数据,我们建议您给出服务器计算机的数据路径(例如,C:\ServerData\Sales1998.csv)。
不使用网络查找文件时,速度更快。
如果数据存储于不同的主机,我们建议使用UNC文件引用(例如,\\mydataserver\ServerData\Sales1998.csv)。
请注意,仅当路径中包含共享网络资源的名称时,UNC名称有效。
引用计算机必须具有指定文件的读取权限。
如果您经常在分布式和本地分析方式之间切换,请采用UNC文件引用,因为此种引用不考虑模式。
UNIX。
要引用驻留在UNIX服务器中的数据文件,请采用完整文件路径和正斜杠(例如,/public/data/ServerData/Sales1998.csv)。
请避免在SPSSModelerServer所用数据的文件名和UNIX目录中使用反斜杠字符。
文本文件可以随意采用UNIX或DOS格式,因为系统将自动处理这两种格式。
11基础架构和硬件建议 IBMSPSSStatistics数据文件的导入 如果您同时在站点上运行IBM®SPSS®StatisticsServer,则用户可能想以分布式方式导入或导出SPSSStatistics数据。
请记住,当IBM®SPSS®Modeler以分布式方式运行时,此客户端提供的是服务器文件系统。
SPSSStatistics客户端以相同方式运行。
如果要进行两个应用程序间的导入和导出,则客户端操作方式必须相同。
如果客户端操作方式不同,则它们的文件系统视图也将不同,并且将无法共享文件。
IBM®SPSS®Modeler的SPSSStatistics节点可以自动启动SPSSStatistics客户端,但用户必须首先保证SPSSStatistics客户端与SPSSModeler的操作方式相同。
安装说明 有关IBM®SPSS®ModelerServer的安装信息,请参阅ServerCD中\documentation\installation\文件夹内的说明信息。
有适用于Windows和UNIX的独立文档。
有关安装和使用IBM®SPSS®Modeler的完整信息,请参阅客户端CD。
3章 IBMSPSSModeler支持度 此节供为IBM®SPSS®Modeler用户提供支持的管理员和客户支持人员参考。
本节的主题包括:如何登录到IBM®SPSS®ModelerServer(或从服务器断开,单机运行)。
用户可能需要的数据和文件系统SPSSModelerServer的用户帐户和文件使用权限用户在SPSSModelerServer和IBM®SPSS®Modeler之间切换时可以看到的结 果差异。
连接到IBMSPSSModelerServer IBM®SPSS®Modeler可作为独立的应用程序运行,或作为直接连接到IBM®SPSS®ModelerServer的客户端运行,或者作为通过进程协调器(COP)插件从IBM®SPSS®CollaborationandDeploymentServices连接到SPSSModelerServer或服务器群集的客户端运行。
当前连接状态显示在SPSSModeler窗口的左下角。
无论何时想连接到服务器,都请手动输入想要连接的服务器的名称或选择之前已定义的名称。
但是,如果您拥有IBMSPSSCollaborationandDeploymentServices,则可以从“服务器登录”对话框搜索服务器列表或服务器群集列表。
可以通过进程协调器执行浏览网络上运行的Statistics服务的功能。
有关详细信息,请参阅第69页码附录D中的使用服务器群集负载均衡。
CopyrightIBMCorporation1994,2011. 12 图片3-1“服务器登录”对话框 13IBMSPSSModeler支持度 连接到服务器 E在“工具”菜单上,单击服务器登录。
将打开“服务器登录”对话框。
或者,双击SPSSModeler窗口的连接状态区域。
E使用该对话框指定要连接到本地服务器计算机的选项或从表中选择连接。
单击添加或编辑以添加或编辑连接。
有关详细信息,请参阅添加并编辑IBMSPSSModelerServer连接中的IBMSPSSModeler14.2用户指南。
单击搜索以访问进程协调器中的服务器或服务器群集。
有关详细信息,请参阅搜索IBMSPSSCollaborationandDeploymentServices中的服务器中的IBMSPSSModeler14.2用户指南。
服务器表。
该表包含已定义的服务器连接集。
该表显示默认连接、服务器名称、说明和端口号。
可以手动添加新的连接,以及选择或搜索现有连接。
要将特定的服务器设置为默认连接,请在表中“默认”列中为此连接选择复选框。
默认数据路径。
指定用于服务器计算机上的数据的路径。
单击省略号按钮(...),以浏览至所需要的位置。
设置凭证。
不选中此复选框可启用单点登录功能,该功能尝试使您使用本地计算机用户名和密码详细信息登录服务器。
如果无法使用单点登录,或您选中此复选框以禁用单点登录(例如,登录管理员帐户),则启用以下字段让您输入您的凭证。
用户ID。
输入用于登录到服务器的用户名。
密码。
输入与指定用户名关联的密码。
14章
3 域。
指定用于登录到服务器的域。
只有服务器计算机与客户计算机处于不同的Windows域时,才需要域名。
E单击确定以完成此连接。
断开与服务器的连接E在“工具”菜单上,单击服务器登录。
将打开“服务器登录”对话框。
或者,双击SPSS Modeler窗口的连接状态区域。
E在此对话框中,选择“本地服务器”,然后单击确定。
添加并编辑IBMSPSSModelerServer连接 可以在“服务器登录”对话框中手动编辑或添加服务器连接。
单击“添加”可以访问空的“添加/编辑服务器”对话框,在此对话框中可以输入服务器连接的详细信息。
在“服务器登录”对话框中选择现有连接并单击“编辑”,将打开“添加/编辑服务器”对话框,其中包含所选连接的详细信息,以便可以进行任何更改。
注意:不能编辑从IBM®SPSS®CollaborationandDeploymentServices中添加的服务器连接,因为名称、端口及其他详细信息已在IBMSPSSCollaborationandDeploymentServices中做过定义。
图片3-2“服务器登录:添加/编辑服务器”对话框 添加服务器连接E在“工具”菜单上,单击服务器登录。
将打开“服务器登录”对话框。
E在此对话框中,单击添加。
将打开“服务器登录:添加/编辑服务器”对话框。
E输入服务器连接的详细信息,然后单击确定保存此连接并返回“服务器登录”对话框。
服务器。
指定可用服务器或从列表选择一个服务器。
服务器计算机的名称可以使用字母数字(例如myserver)或指派给服务器计算机的IP地址(例如,202.123.456.78)。
端口。
指定服务器正在侦听的端口号。
如果默认设置不可用,请向系统管理员索取正确的端口号。
15IBMSPSSModeler支持度 说明。
输入此服务器连接的说明(可选)。
确保安全连接(使用SSL)。
指定是否应使用SSL(安全套接层)连接。
SSL是常用于 确保网络发送数据的安全的协议。
要使用此功能,必须在承载IBM®SPSS®ModelerServer的服务器中启用SSL。
必要时请联系本地管理员,以了解详细信息。
编辑服务器连接E在“工具”菜单上,单击服务器登录。
将打开“服务器登录”对话框。
E在此对话框中,选择希望编辑的连接,然后单击编辑。
将打开“服务器登录:添加/ 编辑服务器”对话框。
E更改服务器连接详细信息,然后单击确认保存更改内容并返回至“服务器登录”对话框。
搜索IBMSPSSCollaborationandDeploymentServices中的服务器 在IBM®SPSS®CollaborationandDeploymentServices中,可以使用进程协调器选择网络上可用的服务器或服务器群集,从而代替手动输入服务器连接。
服务器群集是一组服务器,进程协调器从这组服务器中确定最适合对处理要求作出响应的服务器。
有关详细信息,请参阅第69页码附录D中的使用服务器群集负载均衡。
尽管可在“服务器登录”对话框中手动添加服务器,但通过搜索可用的服务器,可在无需知道正确服务器名称和端口号的情况下连接到服务器。
此信息是自动提供的。
但仍需输入正确的登录信息,如用户名、域和密码。
注意:如果您没有访问进程协调器功能的权限,仍然可以手动输入希望连接的服务器名称或选择之前已定义的服务器名称。
有关详细信息,请参阅添加并编辑IBMSPSSModelerServer连接中的IBMSPSSModeler14.2用户指南。
图片3-3“搜索服务器”对话框 搜索服务器和服务器群集E在“工具”菜单上,单击服务器登录。
将打开“服务器登录”对话框。
E在此对话框中,单击搜索打开“搜索服务器”对话框。
如果在尝试浏览进程协调器时未 登录到IBMSPSSCollaborationandDeploymentServices,则系统会提示您执行此 16 章
3 项操作。
有关详细信息,请参阅第9章中的连接到IBMSPSSCollaborationandDeploymentServicesRepository中的IBMSPSSModeler14.2用户指南。
E从列表中选择服务器或服务器群集。
E单击确定以关闭对话框,然后将此连接添加到“服务器登录”对话框的表中。
数据和文件系统 使用IBM®SPSS®ModelerServer的用户可能需要访问数据文件及网络上的其他数据源,并在网络上保存文件。
用户可能需要如下信息:ODBC数据源信息。
用户访问服务器计算机上定义的ODBC数据源时,需要有数据源 的名称、描述和登录信息(包括数据库登录ID和密码)。
数据文件访问权。
用户访问服务器计算机或网络上其他位置的数据文件时,需要有数 据文件的名称和位置。
保存文件的位置。
用户在连接到SPSSModelerServer的情况下保存数据时,可 能试图在服务器计算机上保存文件。
但是,服务器计算机通常是一个写保护位置。
如果遇到这种情况,请告知用户应保存数据文件的位置。
(一般来说,该位置为用户的主目录。
) 用户验证 IBM®SPSS®ModelerServer使用服务器计算机上的操作系统来验证连接到服务器的用户。
用户连接到SPSSModelerServer时,代表用户执行的所有操作均在用户的安全环境下执行。
对数据库表格的访问权取决于用户和/或密码本身对数据库的使用权限。
Windows。
在Windows上,持有主机网络有效帐户的任何用户都可以登录。
使用默认验证时,用户必须具有\Tmp目录的修改访问权限。
如果没有这些权限,则用户使用Windows默认验证将无法从客户端登录SPSSModelerServer。
UNIX。
默认情况下,假定SPSSModelerServer在UNIX上以root身份运行。
这允许任何在主机网络上具有有效帐户的用户登录,并将用户的文件访问权限限制为可以访问他们自己的文件和目录。
但是,用户可以配置SPSSModelerServer,在无root权限的情况下运行。
如果这样,则用户必须创建用于验证的专有密码数据库,且所有IBM®SPSS®Modeler用户共享唯一一个UNIX用户帐户(因而也共享数据文件的访问权)。
有关详细信息,请参阅第66页码附录C中的以非根进程方式配置IBMSPSSModelerServer。
在Solaris、HP-UX、Linux和AIX平台上,SPSSModelerServer使用PAM进行验证。
用户需要时可使用服务名称modelerserver来配置SPSSModelerServer的PAM模块。
文件创建 IBM®SPSS®ModelerServer访问和处理数据时,通常必须在磁盘上保存这些数据的临时副本。
临时文件使用的磁盘空间大小取决于最终用户分析的数据文件的大小和用户所执行分析的类型。
有关详细信息,请参阅第8页码第2章中的对临时磁盘空间和RAM的要求。
17 IBMSPSSModeler支持度 UNIX。
UNIX版本的SPSSModelerServer使用UNIXumask命令为临时文件设置文件权限。
用户可以覆盖服务器的默认权限。
有关详细信息,请参阅第59页码附录B中的控制文件创建权限。
不同的结果 在两种模式下运行分析的用户可以看到IBM®SPSS®Modeler和IBM®SPSS®ModelerServer的结果稍微有所不同。
该差异的发生通常是因为记录排序和取整的不同。
记录排序。
除非有流明确地分类记录和排列记录顺序,否则本地执行的流和服务器上执行的流在记录表示顺序上可能有所不同。
数据库中运行操作的顺序与SPSSModelerServer中运行操作的顺序可能会有差异。
产生这些差异的原因是每个系统用来执行功能的不同算法可能重新排列记录顺序,比如汇总。
而且请注意,在没有明确的排序操作的情况下,SQL不会指定从数据库返回的记录的顺序。
取整差异。
在本机模式中运行的IBM®SPSS®Modeler在保存浮点值时使用与SPSSModelerServer不同的内部格式。
由于取整差异,各个版本之间的结果可能稍微有所不同。
4章 IBMSPSSModelerServer管理 本章包含了有关如何启动和停止IBM®SPSS®ModelerServer,如何配置各种服务器选项,以及如何解释日志文件的信息。
本章还描述了如何使用IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager,该应用程序可简化服务器的配置和监视。
有关此组件的安装说明,请参考产品CD上的SPSSModelerServer安装说明。
启动和停止IBMSPSSModelerServer IBM®SPSS®ModelerServer在Windows中作为服务运行,或在UNIX计划注意事项:停止SPSSModelerServer会断开最终用户,终止他们的会话,因此请尽量将服务器重新启动安排在使用率较低的时段。
如果做不到这点,则请务必在停止服务器之前通知用户。
在Windows中启动、停止和检查状态 在Windows上,使用Windows控制面板中的“服务”对话框控制IBM®SPSS®ModelerServer。
EWindowsXP。
打开Windows“开始”菜单。
选择设置,然后选择控制面板。
双击管理工具,然后双击服务。
Windows2003或2008。
打开Windows“开始”菜单。
选择控制面板、管理工具,然后选择服务。
E选择IBMSPSSModelerServer服务。
现在您可以检查其状态、启动或停止该服务,以及编辑启动参数(如果需要的话)。
默认情况下,该服务配置为自动启动,这就表示,如果您停止了该服务,则当计算机重新引导时它会自动重启。
如果按照上述方式启动了该服务,则该服务以无人参与模式运行,注销服务器计算机时不会影响该服务。
在UNIX中启动、停止和检查状态 在UNIX上,可通过运行IBM®SPSS®ModelerServer安装目录中的modelersrv.sh脚本启动或停止SPSSModelerServer。
E切换至SPSSModelerServer安装目录。
例如,在UNIX命令提示符下,键入 cd/usr/modelersrv 其中modelersrv是SPSSModelerServer安装目录。
E要启动服务器,请在命令提示符下键入 ./modelersrv.shstart CopyrightIBMCorporation1994,2011. 18 19IBMSPSSModelerServer管理 E要停止服务器,请在命令提示符下键入 ./modelersrv.sh E要检查SPSSModelerServer的状态,请在UNIX命令提示符下键入 ./modelersrv.shlist 然后查看输出,该输出与UNIXps命令生成的结果相似。
列表中的第一个进程是SPSSModelerServer守护进程,其他进程是IBM®SPSS®Modeler会话。
SPSSModelerServer安装程序包括一个脚本(auto.sh),该脚本会将系统配置为在引导时自动启动该服务器守护进程。
如果您运行了该脚本然后停止了服务器,则该服务器守护进程会在计算机重新引导时自动重启。
有关详细信息,请参阅第57页码附录B中的自动启动和停止IBMSPSSModelerServer。
UNIX内核函数限制 您必须确保系统上的内核函数限制对于SPSSModelerServer的操作足够。
数据、内存和文件限制尤其重要,应在SPSSModelerServer环境内设为无限。
为此: E添加以下命令到modelersrv.sh: ulimit–dunlimited ulimit–munlimited ulimit–funlimited E重新启动SPSSModelerServer。
处理不响应服务器进程(UNIX系统) IBM®SPSS®ModelerServer进程可能由于多种原因而不响应,包括其系统调用或ODBC驱动程序调用被堵塞(调用不返回或返回用时很长)的情况。
UNIX进程出现这种情况时,可使用UNIXkill命令将其清理(由IBM®SPSS®Modeler客户端发起的中止,或SPSSModeler客户端的关闭都无效)。
kill命令是正常命令的替代,使管理员能够使用modelersrv.sh方便地发起适当的kill命令。
在容易累计无用的(“死”)服务器进程的系统上,我们建议使用以下命令序列定期停止和重启SPSSModelerServer: cdmodeler_server_install_directory./modelersrv.sh./modelersrv.shkill 这些使用modelersrv.shkill命令终止的SPSSModeler进程会留下临时文件(在临时目录中),需要手动删除这些文件。
在某些其他情况下也会留下临时文件,包括应用程序由于资源耗尽、用户中止、系统崩溃或其他原因而崩溃。
因此我们建议,作为定期重新启动SPSSModelerServer过程的一部分,应当从SPSSModeler临时目录中删除保留下来的所有文件。
20章
4 在关闭了所有服务器进程并删除了临时文件后,就可以安全地重新启动SPSSModelerServer。
管理 IBM®SPSS®ModelerServer具有若干控制其行为的配置选项。
您可以通过两种方式设置这些选项:使用IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager应 用程序,当前使用IBM®SPSS®Modeler的客户可免费使用此应用程序。
有关详细信息,请参阅第20页码使用IBMSPSSModelerAdministrationConsole。
使用options.cfg文本文件,该文件位于[服务器安装路径]/config目录。
有关详细信息,请参阅第29页码使用options.cfg文件。
我们建议您安装DeploymentManager并将其用作管理工具,而不要编辑options.cfg文件。
编辑该文件需要访问SPSSModelerServer文件系统,而通过DeploymentManager则可以授予任何具有用户帐户的人员调整这些选项的权限。
另外,DeploymentManager还提供了服务器进程的其他信息,从而使您能够监视使用情况和性能。
而且与编辑配置文件不同,大多数配置选项都可在不重新启动SPSSModelerServer的情况下进行更改。
有关使用DeploymentManager和options.cfg文件的详细信息,请参阅下面的章节。
使用IBMSPSSModelerAdministrationConsole 当前的SPSSModelerServer用户可以免费使用ModelerAdministrationConsole应用程序,该程序可提供一个用以监控和配置SPSSModelerServer安装程序的控制台用户界面。
应用程序只能安装在Windows计算机上;但是它可以管理安装在任何受支持平台上的服务器。
ModelerAdministrationConsole中的许多可用选项也可在options.cfg文件中进行指定,此文件位于/config下的SPSSModelerServer安装目录中。
然而,ModelerAdministrationConsole应用程序提供了一个共享图形界面,通过此界面可以连接、配置和监视多个服务器。
启动ModelerAdministrationConsole E请依次选择Windows“开始”菜单上的[所有]程序、IBMSPSSCollaborationandDeploymentServices、部署管理器、IBMSPSSModelerAdministrationConsole
首次运行应用程序时,您将看到空的“服务器管理”和“属性”窗格(除非您已安装DeploymentManager,并且设置了IBMSPSSCollaborationandDeploymentServices服务器连接)。
在配置ModelerAdministrationConsole之后,左侧的“服务器管理员”窗格会显示您要管理的每个SPSSModelerServer的节点。
右边窗格则显示选定服务器的配置选项。
用户必须首先为要管理的每台服务器都创建连接。
图片4-1ModelerAdministrationConsole界面 21IBMSPSSModelerServer管理 使用ModelerAdministrationConsole配置访问权限 使用ModelerAdministrationConsole访问SPSSModelerServer的管理员访问权限由options.cfg文件中的administrators行进行控制,该文件位于/config下的SPSSModelerServer安装目录中。
在默认情况下此行被注释掉,因此您必须编辑此行以便将访问权限赋予特定人员,或使用*来将访问权赋予所有用户,示例如下: administrators,"*"administrators,"jsmith,mjones,achavez" 行必须以administrators,开头,并且条目必须用半角双引号引起来。
条目字符区分大小写。
用半角逗号分隔多个用户ID。
禁止使用域名作为Windows帐号。
请注意星号的使用。
星号表示具有IBM®SPSS®ModelerServer的有效用户帐号的 任何人(大多数情况下指服务器网络上的所有人)均可以登录和更改配置选项。
22章
4 SPSSModelerServer连接 用户必须为网络上希望管理的每台SPSSModelerServer指定连接。
然后必须登录每台服务器。
虽然整个ModelerAdministrationConsole会话过程中服务器连接设置都将被记住,但不会记住登录凭证。
每次启动ModelerAdministrationConsole时都必须登录。
创建服务器连接 E确保IBM®SPSS®ModelerServer服务已启动。
E选择“文件”菜单上的新建,然后选择管理的服务器连接。
E在向导首页,输入服务器连接的名称。
名称供用户自己使用,应该是描述性质的名称,例如,生产服务器。
确保已将“类型”设为管理的IBMSPSSModelerServer,然后单击下一步。
E在第2页,输入服务器的主机名和IP地址。
如果更改了默认的端口,则请输入端口号。
单击完成。
新服务器连接即显示在“服务器管理员”窗格中。
要执行管理任务,现在必须登录。
登录到Server E在“服务器管理员”窗格中双击以选择您要登录的服务器。
E在“登录”对话框中输入用户凭证。
(使用服务器主机的用户帐号。
)单击确定。
如果登录失败并显示无法获取服务器上的管理员权限的消息,最有可能的原因是未正确配置管理员访问权限。
有关详细信息,请参阅第21页码使用ModelerAdministrationConsole配置访问权限。
如果登录失败,并显示消息无法连接到服务器‘<服务器>’,请确保用户ID和密码正确,而且SPSSModelerServer服务正在运行。
例如,在Windows上,前往控制面板>管理工具>服务,然后选中IBMSPSSModelerServer条目。
如果“状态”列未显示已启动,则在屏幕上选择此行,单击启动,然后重试登录。
登录到SPSSModelerServer后,可以看到服务器名称下方显示的两个选项,即配置和监视。
双击其中一个选项。
SPSSModelerServer配置 配置窗格显示SPSSModelerServer的配置选项。
请根据需要更改选项。
单击工具栏上的保存,以保存更改。
(注意:更改端口号需要重启服务器才能生效。
) 以下说明这些配置选项并在括号中给出每个选项在options.cfg中对应的行。
本节的结尾处描述了仅在options.cfg中可见的选项。
连接/会话 图片4-2连接/会话设置 23IBMSPSSModelerServer管理 最大连接数。
(max_sessions)同时连接用户的最大数量。
值为–1则表示无限制。
端口号。
(port_number)SPSSModelerServer侦听的端口号。
如果默认端口(28047)已被其他应用程序使用,则请更改端口号。
最终用户必须知晓端口号,才能使用SPSSModelerServer。
日志记录 图片4-3日志设置 日志文件的目录。
(log_directory)messages.log文件的位置。
空字符串表示[服务器安装路径]/log。
注意:必须使用正斜线。
要了解关于此日志文件的内容,请参阅服务器日志第36页码。
在日志中记录数据库访问信息。
(log_database_ess)将数据库访问信息添加到日志文件。
在日志中记录数据库错误。
(log_database_errors)将数据库错误添加到日志文件。
在日志中记录文件访问信息。
(log_file_ess)将文件访问信息添加到日志文件。
在日志中记录文件访问错误。
(log_file_errors)将文件访问错误添加到日志文件。
24章
4 数据文件访问权限 图片4-4数据文件访问权设置 限制仅能访问数据文件路径。
(data_files_restricted)设置为是时,此选项将限制只能访问标准数据路径和以下数据文件路径中列出的数据文件。
默认数据路径。
(data_file_path)允许用户读和写数据文件的其他目录的列表。
除非启用限制仅能访问数据文件路径选择,否则此选项将被忽略。
注意:所有路径名中应使用正斜线。
指定多个目录时请使用半角分号隔开(例如,[serverinstallpath]/data;c:/data;c:/temp)限制仅能访问程序文件路径。
(program_files_restricted)设置为是时,此选项将限制只能访问标准bin路径和以下程序文件路径中列出的程序文件。
程序文件路径。
(program_file_path)允许用户执行程序的其他目录的列表。
除非启用限制仅能访问程序文件路径选择,否则此选项将被忽略。
注意:所有路径名中应使用正斜线。
指定多个目录时请使用半角分号隔开。
最大文件大小(MB)。
(max_file_size)流执行期间创建的临时和导出数据文件的最大大小(不适用于SAS和SPSSStatistics数据文件)。
值为–1则表示无限制。
临时目录。
(temp_directory)该目录用于存储临时数据文件(缓存文件)。
在理想情况下,该目录应当在独立的高速驱动器或控制器上,因为对该目录的访问速度对性能可能有显著影响。
可以指定多个临时目录,并分别用逗号隔开。
这些目录应当位于不同的磁盘,其中第一个目录使用最频繁,而其他目录则在执行过程中特定数据准备操作(例如排序)平行应用时,用于存储临时工作文件。
允许每个执行线程使用独立磁盘进行临时存储能够提高性能。
在所有路径指定中均应使用正斜线。
注意:在SPSSModelerServer启动期间会在此目录中生成临时文件。
确保您对该目录拥有所需的访问权限(例如,如果临时目录为共享网络文件夹),否则SPSSModelerServer启动将失败。
Python执行路径。
(python_exe_path)Python可执行程序的完整路径(包括可执行程序的名称)。
注意,根据Python安装的位置,可能需要将限制仅能访问程序文件路径设置为否。
性能/优化 图片4-5性能/优化设置 25IBMSPSSModelerServer管理 流重写。
(stream_rewriting_enabled)允许服务器通过重写流来实现对流的优化。
例如,服务器可能会在接近源节点的位置进行数据削减操作以尽早实现数据集规模的最小化。
通常仅在此优化导致错误或其他不应有的结果时,才建议禁用此选项。
此设置将覆盖相应的客户端的优化设置。
并行性。
(max_parallelism)说明运行流时,允许SPSSModeler使用的并行工作程序的线程数量。
如果设置为0或负数,则IBM®SPSS®Modeler将认定允许使用的线程数���计算机上可用处理器的数量;此选项的默认值为–
1。
要关闭(针对多处理器的计算机)并行处理,请将此选项设置为
1。
要限制并行处理线程数,请将此选项设置为比计算机上的处理器数量小的数字。
注意:超线程或双核处理器将被当作两个处理器。
缓冲区大小(字节)。
(io_buffer_size)从服务器传输到客户机的数据文件通过该字节数的缓冲区进行传递。
缓存压缩。
(pression)一个0到9的整数值,它控制缓存和服务器临时目录中其他文件的压缩。
压缩在磁盘空间有限时很重要,因为压缩可以降低磁盘空间的使用量,而且压缩还能通过减少创建和读取缓存所需要的磁盘活动量,改善性能。
虽然压缩会延长处理器时间,但因为缩短了磁盘访问时间,因而得到几乎等量的补偿。
注意:只有某些被顺序访问的缓存才能被压缩。
此选项不适用于随机访问缓存,比如网络训练算法使用的缓存。
值为0将完全禁用压缩。
值从1增大,压缩程度会随之增加,但相应的访问时间也会增加。
默认值为1;除非磁盘空间实在有限,否则通常不需要比默认值更大的值。
内存使用倍增器。
(memory_usage)控制为排序和其他内存缓存分配的物理内存的比例。
默认值为100,这相当于大约10%的物理内存。
有可用的空闲内存时,增加该值可提高排序性能,但要注意,如果该值增加得太高则有可能导致过度分页。
建模内存限制百分比。
(modelling_memory_limit_percentage)控制为训练神经网络、Kohonen和k-means模型分配的物理内存的比例。
默认值为25%。
有可用的空闲内存时,增加该值可提高训练性能,但要注意,如果该值增加得太高则有可能在数据溢出到磁盘时导致过度分页。
26章
4 允许覆盖建模内存。
(allow_modelling_memory_override)在特定建模节点中启用或禁用优化速度选项。
默认为已启用。
此选项使建模算法能够要求获得所有可用的内存,而忽略百分比限制选项。
如果需要在服务器计算机上共享内存资源,则可能希望禁用此选项。
最大和最小服务器端口。
(max_server_port和min_server_port)指定端口号范围,该端口号用于互动模型和流执行所需要的客户机和服务器之间的其他套接字连接。
这些套接字连接要求服务器侦听其他端口;未限制范围将对系统带有防火墙的用户造成使用问题。
两者的默认值均为-
1,表示“无限制”。
例如,要通过设置使服务器侦听端口8000或数值更大的端口,必须将min_server_port设置为8000,将max_server_port设置为-
1。
注意,您必须打开主服务器端口上的附加端口,以便打开或执行流,如果要打开或执行并行的流,还应打开对应的更多端口。
这需要用于捕获流执行的反馈。
默认情况下,SPSSModeler将使用任何一个可用的打开端口;如果它未找到端口(例如,所有的端口都被防火墙关闭),那么执行流时就会显示错误信息。
要配置端口的范围,除主服务器端口外,SPSSModeler还需要两个每个并行的流都能使用的打开端口,以及为每个具有ODBC连接的连接客户端打开一个附加的端口。
如果要执行更多并行的流,您就可以增大端口号的范围,然后相应地在防火墙上打开更多的端口。
注意:如果您更改了这些参数,就需要重新启动SPSSModelerServer以使所做更改生效。
数组获取优化。
(sql_row_array_size)控制SPSSModelerServer从ODBC数据源获取数据的方法。
默认值为
1,表示一次获取一行。
增大此值可使服务器读取更大数据块的信息,即获取指定数量的行并放入数组。
对于某些操作系统/数据库组合,这样做可以提高SELECT语句的性能。
SQL 图片4-6SQL设置 最大SQL字符串长度。
(max_sql_string_length)用SQL从数据库导入字符串的最大长度。
大于此长度的字符串将从右截断,没有警告。
有效范围在1和65,535个字符之间。
自动SQL生成。
(sql_generation_enabled)允许为流自动生成SQL,这可以极大提高性能。
默认为已启用。
仅在数据库不能支持由SPSSModelerServer提交的查询时建议禁用此选项。
注意,此设置将覆盖相应的客户端的优化设置;同时注意,因为评分的目的,必须分别为每个建模节点启用SQL生成,而忽略此设置。
SSL 图片4-7SSL设置 27IBMSPSSModelerServer管理 启用SSL。
(ssl_enabled)为SPSSModeler和SPSSModelerServer之间的连接启用SSL加密。
证书文件。
(ssl_certificate_file)服务器启动时要加载的公共SSL证书文件。
私有密钥文件。
(ssl_private_key_file)服务器启动时要加载的私有SSL密钥文件。
私有密钥密码。
(ssl_private_key_password)指定证书的密码密钥。
注意,此密钥必须经过至少一个证书授权机构(列于配置的证书文件中)签署。
进程协调器配置 图片4-8进程协调器配置设置 主机。
(cop_host)进程协调器服务的主机名或IP地址。
默认的“spsscop”是一个无效名称,管理员可以选择添加它作为DNS中IBMSPSSCollaborationandDeploymentServices主机的别名。
端口号。
(cop_port_number)进程协调器服务的端口号。
默认为8080,也是IBMSPSSCollaborationandDeploymentServices的默认值。
登录名。
(cop_user_name)对进程协调器服务进行身份验证的用户名。
它是IBMSPSSCollaborationandDeploymentServices登录名,所以可包括一个安全提供者的前缀(例如:ad/jsmith)。
28章
4 密码。
(cop_password)用于对进程协调器服务进行身份验证的加密密码。
要创建密码文件,需要使用密码实用程序pwutil,该程序位于SPSSModelerServer安装程序的分级目录中。
已启用。
(cop_enabled)确定服务器是否应尝试注册进程协调器。
默认为不注册,这是因为管理员应选择通过进程协调器公开哪些服务。
服务器名称。
(cop_service_name)此SPSSModelerServer实例的名称;默认为主机名。
描述。
(cop_service_description)此实例的说明。
更新的时间间隔(分钟)。
(cop_update_interval)保持活动消息的分钟数;默认值为
2。
加权。
(cop_service_weight)该实例的权重可指定为1和10之间的整数。
权重越高,所吸引的连接越多。
默认值为
1。
服务主机。
(cop_service_host)IBM®SPSS®ModelerServer主机的完全限定主机名。
默认的主机名可自动获取,管理员可以覆盖多宿主机的主机名。
仅在options.cfg中可见的选项。
default_sql_string_length。
指定将在数据库缓存表中创建的字符串列的默认宽度。
在数据库缓存表中创建字符串字段时,如果没有上游类型信息,则采用255的默认宽度。
如果在数据中有更宽的值,则可以使用这些值实例化上游类型节点,或将此参数设置为能够适应这些字符串值的足够大的值。
max_transfer_size。
仅供内部使用;不得修改。
start_process_as_login_user。
如果使用单点登录,并且连接到采用不同于IBM®SPSS®ModelerServer主机的验证方法的IBM®SPSS®CollaborationandDeploymentServices服务器,则将此设为true。
将此选项设为true可启用子过程以使用SPSSModelerServer登录详细信息。
administrators。
指定您要授予管理员访问权限的那些用户的用户名。
有关详细信息,请参阅第21页码使用ModelerAdministrationConsole配置访问权限。
supported_sql_type_logging。
仅用于调试目的;除非得到技术支持代表的指示,否则不要修改。
allow_config_custom_overrides。
除非得到技术支持代表的指示,否则不要修改。
SPSSModelerServer监视 ModelerAdministrationConsole的监视窗格用一个快照来显示在SPSSModelerServer计算机上运行的所有进程,就跟Windows任务管理器一样。
要激活监视窗格,请双击“服务器管理员”窗格中所需要服务器下方的“监视”节点。
这样就向窗格填充了来自服务器的当前数据快照。
数据将按所显示的速率(默认为一分钟一次)进行刷 29IBMSPSSModelerServer管理 新。
要手动刷新数据,请单击刷新。
要在此列表中仅显示SPSSModelerServer进程,请单击过滤掉非SPSSModeler进程按钮。
图片4-9IBMSPSSModelerAdministrationConsole监控窗格 使用options.cfg文件 options.cfg文件位于[服务器安装路径]/config目录下。
每个设置都由一个逗号分隔的名称-值对表示,其中名称是该选项的名称,值是该选项的值。
井字符(#)表示注解。
注意:除了以下选项之外,其他所有配置选项均可使用IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager来进行更改,而不必使用此配置文件。
administratorsallow_custom_config_overridesmax_transfer_sizestart_process_as_login_usersupported_sql_type_logging通过使用DeploymentManager,不用重新启动服务器即可使得所有选项生效,但服务器端口除外。
有关详细信息,请参阅第20页码使用IBMSPSSModelerAdministrationConsole。
可添加到默认文件的配置选项默认情况下,数据库内高速缓存通过IBM®SPSS®ModelerServer启用。
要禁用此功能,可将以下行添加到options.cfg文件中。
enable_database_caching,N这将导致在服务器上而不是数据库中创建临时文件。
查看或更改IBMSPSSModelerServer配置选项E使用文本编辑器打开options.cfg文件。
E找到相关的选项。
有关选项的完整列表,请参阅SPSSModelerServer配置第22页码。
30章
4 E根据需要编辑这些值。
请注意,所有路径名值都必须使用正斜线(/)作为路径名分隔符,而不要使用反斜线。
E保存该文件。
E停止并重新启动SPSSModelerServer以使得这些更改生效。
有关详细信息,请参 阅第18页码启动和停止IBMSPSSModelerServer。
关闭不使用的数据库连接 默认情况下,在访问一个连接时,IBM®SPSS®Modeler至少会将该连接缓存入数据库。
即使不执行需要数据库访问的流,数据库会话也会保持打开。
缓存数据库连接可使每次执行流时不再需要SPSSModeler重新连接到数据库,可增加执行次数。
然而,在某些环境中,应用程序应尽可能快地释放数据库资源。
如果过多的SPSSModeler会话保持到数据库的连接且不再被使用,可能会耗尽数据库资源。
您可以在自定义数据库配置文件中通过关闭SPSSModeler选项cache_connection来避免这种情况。
这也使得SPSSModeler能更快修复因SPSSModeler会话长期使用连接而导致的数据库连接故障(如超时)。
要关闭不使用的数据库连接:E找到[serverinstallpath]/config目录。
E添加以下文件(如已存在,则打开该文件): odbc-custom-properties.cfgE添加以下行到文件: cache_connection,
N E保存并关闭该文件。
E重新启动IBM®SPSS®ModelerServer使更改生效。
IBMSPSSStatistics许可证位置 要启用IBM®SPSS®Modeler以使用Statistics变换、Statistics模型和Statistics输出节点,必须在执行流的计算机上拥有IBM®SPSS®Statistics安装和许可的一个副本。
依靠服务器运行时,必须在该台服务器上完成许可证配置。
WindowsE在命令提示符下,切换至IBM®SPSS®ModelerServerbin目录,然后运行: 31IBMSPSSModelerServer管理 statisticsutility-location= 其中是经许可的SPSSStatistics服务器的安装目录。
UNIXE在命令提示符下,切换至SPSSModelerServerbin目录,然后运行: ./statisticsutility-location= 其中是经许可的SPSSStatistics服务器的安装目录。
使用SSL进行安全数据传输 安全套接字层(SSL)是对两台计算机之间传输的数据进行加密的协议。
SSL可以确保计算机之间的通信安全。
SSL可以对用户名/密码的身份验证进行加密,还可以对服务器与客户端之间的交换内容进行加密。
SSL如何运行 SSL依赖于服务器的公钥和私钥,并且公钥证书将服务器身份绑定在其公钥上。
E当客户端连接到服务器时,客户端使用公钥证书对服务器进行身份验证。
E然后客户端生成随机数,使用服务器的公钥对该数字进行加密,并将加密后的消息 发回服务器。
E服务器使用其私钥对随机数进行解密。
E服务器和客户端根据此随机数创建会话密钥,用以加密和解密后续传输的信息。
公钥证书通常由证书授权机构签署。
证书授权机构,如VeriSign和Thawte等组织,专门负责签发、验证和管理公钥证书中所包含的安全凭证。
实际上,证书授权机构确认了服务器的身份。
证书授权机构通常会收取证书费用,但用户也可以自行生成自签署证书。
通过SSL确保客户端-服务器和服务器-客户端的通信安全 通过SSL确保客户端-服务器和服务器-客户端通信安全的主要步骤包括:E在服务器计算机上安装OpenSSL。
E获取并安装SSL证书和密钥。
E在服务器管理应用程序(IBM®SPSS®CollaborationandDeploymentServices DeploymentManager)中启用和配置SSL。
E如果需要,在客户机上安装无限强度的加密。
E如果使用自签署证书,则将此证书复制到客户端计算机上。
32章
4 E将证书添加到客户端的密钥库中。
E指导最终用户在连接到服务器时启用SSL。
注意:有时服务器产品会作为客户端运行。
例如当IBM®SPSS®StatisticsServer连接到IBM®SPSS®CollaborationandDeploymentServicesRepository时。
这时,SPSSStatisticsServer是作为客户端。
安装OpenSSL 如果服务器上尚未安装OpenSSL,则必须进行安装。
E请从/下载OpenSSL。
确保针对服务器版本使用适当的OpenSSL版本。
表4-1OpenSSL版本 服务器产品 兼容的OpenSSL版本 IBM®SPSS®Statistics17-19(不是Systemz®上的Linux®)IBM®SPSS®Modeler14.2(不是Systemz®上的Linux®) SPSSStatistics19(Systemz®上的Linux®)SPSSModeler14.2(Systemz®上的Linux®) 0.9.8及其后续版本(0.9.8a、0.9.8b等等)1.0.0 注意:在IBM®SPSS®ModelerServerforUNIX被配置为使用SSL时,它会寻求链接具有以下名称的两个库(.so可能与平台相关):libssl.so.0.9.8libcrypto.so.0.9.8 如果使用SSL的子版本(0.9.8a、0.9.8b等),则需要使用SPSSModelerServer要求的xxx.0.9.8版本来创建这些库的符号链接。
E按照说明安装和配置软件。
如果自行构建OpenSSL,请注意遵循以下原则:Windows。
OpenSSL应随DLL一起构建(默认为多线程)。
UNIX。
OpenSSL应当支持多线程(并不总是默认选项)和共享库。
E确保系统可以找到SSL库:Windows。
确保OpenSSL模块包含在系统路径中。
UNIX。
将SSL库追加到在modelersrv.sh中定义的加载库路径末尾。
例如,在Solaris上,可在服务器启动脚本中添加此行: LD_LIBRARY_PATH_64=$LD_LIBRARY_PATH_64:/usr/local/openssl;exportLD_LIBRARY_PATH_64 获取并安装SSL证书和密钥。
E获取SSL证书和密钥文件。
有两种方法可以解决这一问题: 33IBMSPSSModelerServer管理 从公共证书授权机构(如Verisign或Thwaite)购买。
公共证书授权机构签署证书以验证使用它的服务器。
使用内部自签署证书颁发程序生成密钥和证书文件。
OpenSSL为此提供了证书管理工具,或者您可搜索以了解有关创建自签署SSL证书的说明。
E将证书和密钥文件复制到服务器上的本地目录。
公钥和私钥可以存储在同一文件中。
确保将访问权限设置为拒绝随意浏览此目录。
E在应用服务器上安装SSL证书和密钥。
有关密钥和证书与特定应用服务器之间的互操作信息,请参阅原始提供商的文档。
注意,您可能需要将证书和密钥添加到Java密钥库中。
在以下中启用和配置SSL:IBMSPSSCollaborationandDeploymentServicesDeploymentManager E启动服务器管理应用程序(IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager)并连接到服务器。
E在配置页上,将安全套接字层设为是。
E在SSL公钥文件中,指定公钥文件的完整路径。
E在SSL私钥文件中,指定私钥文件的完整路径。
注意:如果公钥和私钥存储在同一文件中,请在SSL公钥文件和SSL私钥文件中指定相同的文件。
E从菜单中选择: 文件>保存 E重新启动服务器服务或守护进程。
在重新启动时,将提示您输入SSL密码。
在Windows上,可以选择记住该密码以安全地存储密码。
选择此选项,无需每次启动服务器时都输入密码。
在IBMSPSSModelerServer中设置SSL(仅限于UNIX系统) 如果需要密码访问SSL私钥文件,您可以在UNIX系统中以以下方式提供密码:通过使用ssl_private_key_password选项在options.cfg文件中指定。
有关详细信 息,请参阅第27页码SSL。
添加开关到modelersrv.sh文件以在开始时提示输入密码。
如果使用后一种选项,在modelersrv.sh文件中找到以下行: if"$INSTALLEDPATH/$SCLEMDNAME"-server$ARGS;then 按以下添加-request_ssl_password开关: if"$INSTALLEDPATH/$SCLEMDNAME"-request_ssl_password-server$ARGS;then 34章
4 安装无限强度的加密 随产品发售的JavaRuntimeEnvironment启用了US出口强度的加密。
为使您的数据获得增强的安全性,我们建议升级到无限强度的加密。
E请从/javase/downloads/index.jsp下载JavaCryptographyExtension(JCE)UnlimitedStrengthJurisdictionPolicyFiles5.0。
E对下载的文件解压缩。
E将两个.jar文件local_policy.jar和US_export_policy.jar复制到/jre/lib/security,其中的为产品安装目录。
将证书添加到客户端密钥库(适合连接到存储库或IBMSPSSModelerServer) 注意:如果使用由证书授权机构签署的证书,请跳过此步骤。
如果使用SSL连接到IBM®SPSS®CollaborationandDeploymentServices存储库或IBM®SPSS®ModelerServer,并且使用了自签署证书,则需要将证书添加到客户端的Java密钥库中。
在客户机上完成下列步骤。
注意,服务器计算机也可能会作为客户端。
例如当IBM®SPSS®StatisticsServer连接到IBM®SPSS®CollaborationandDeploymentServicesRepository时。
在此情况下,SPSSStatisticsServer为客户端,因此需要将IBMSPSSCollaborationandDeploymentServicesRepository服务器的证书复制到SPSSStatisticsServer上。
E从SSL服务器将证书(.cer)文件复制到客户机上的\jre\lib\security目录中。
E在该目录,右键单击cacerts文件并选择属性。
E取消选中只读复选框。
E打开命令提示符,将目录切换至以下位置,其中是您的产品安装目录: /jre/bin E输入下面的命令: keytool-import-alias-file-keystore 其中是证书的专有别名,是证书的完整路径,是Java密钥库的完整路径(可能为/lib/security/jssecacerts或/lib/security/cacerts)。
E提示时,输入密钥库密码,默认为changeit。
E当提示是否信任证书时,输入是。
35IBMSPSSModelerServer管理 指导最终用户启用SSL 当最终用户通过客户端产品连接到服务器时,他们需要在服务器连接对话框中启用SSL。
确保告诉他们选择相应的复选框。
例如,在IBM®SPSS®Modeler中,用户应选中存储库上的确保安全连接复选框:从“工具”菜单上的“存储卡”选项访问“服务器”对话框。
仅URL前缀配置 如果设置IBM®SPSS®CollaborationandDeploymentServicesRepository以使用SSL访问,则必须修改“URL前缀”配置设置的值如下:
1.使用基于浏览器的控制台登录到存储库。

2.打开URL前缀配置选项。
配置>设置>URL前缀
3.将前缀值设置为https以取代http,并将端口值设置为SSL端口号。
例如: [default]http://:[SSL-enabled]https://: 仅通过SSL实现安全LDAP 轻量目录访问协议(LDAP)是一项有关包含任意级别信息的网络目录和数据库间信息交换的互联网工程任务编组(IETF)标准。
对于需要附加安全性的系统,LDAP提供程序(如Microsoft的ActiveDirectory)可以运行在安全套接字层(SSL)上,前提是Web或应用服务器支持SSL上的LDAP。
将SSL与LDAP配合使用,可以确保登录密码、应用程序信息和其他敏感数据不会遭受黑客攻击、威胁或窃取。
下例示例说明了如何使用Microsoft的ActiveDirectory作为安全提供程序来启用LDAP。
有关任何步骤的更多信息,或打算了解安全提供程序的特定版本细节,请参阅原始提供商的文档。

1.验证ActiveDirectory和EnterpriseCertificateAuthority是否已安装且正常工作。

2.使用证书颁发程序生成证书,并将证书导入IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager安装的证书库中。
这样允许在IBM®SPSS®CollaborationandDeploymentServicesRepository与ActiveDirectory服务器之间建立LDAPS连接。
要配置DeploymentManager进行安全的ActiveDirectory连接,请检查确保存在到存储库的连接。

3.启动IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager。

4.从“工具”菜单选择服务器管理。

5.登录到管理的服务器(经预先定义)。
36章4
6.双击服务器的配置图标以展开层次结构。

7.双击安全提供程序图标以展开层次结构。

8.双击ActiveDirectory安全提供程序。

9.为已安装安全证书的ActiveDirectory实例输入配置值。
10.选择使用SSL复选框。
11.注意“域用户”字段中的名称。
使用ActiveDirectory的后续登录将通过SSL进行身份验证。
有关在特定应用服务器上安装、配置和实施LDAPS的更多信息,请参阅原始提供商的文档。
服务器日志 IBM®SPSS®ModelerServer在一个名为messages.log的日志文件中保存着其重要操作的记录。
默认情况下,此文件位于[服务器安装路径]/log,但该位置可以配置。
启动SPSSModelerServer后,该日志文件将进行更新,以表明启动的时间和它正在侦听的端口号。
从此时开始,每当客户端尝试连接服务器时该日志文件都会不断更新连接结果。
默认情况下服务器向日志文件写入下列事件:服务器启动服务器停止连接已接受连接已拒绝会话启动会话停止系统错误登录成功登录失败 如果您希望记录数据库访问事件的相关信息,则请将SPSSModelerServer配置中的日志数据库访问信息和日志数据库错误设置为是。
将记录下列数据库访问事件:数据库登录成功数据库登录失败数据库注销 如果您希望记录文件访问事件的相关信息,则请将SPSSModelerServer配置中的日志文件访问信息和日志文件访问错误设置为是。
将记录下列文件访问事件:文件打开/创建文件关闭 下面是一个日志文件示例(添加了行号): 37 IBMSPSSModelerServer管理 1.2006/06/1408:41:23[167]:IBMSPSSModelerServerVersion0.1.0started2.2006/06/1408:41:23[167]:Listeningonport280283.2006/06/1408:49:28[167]:eptedconnectionfromlocalhost:18274.2006/06/1408:49:28[167]:Session105(localhost:1827)started5.2006/06/1408:49:29[167-105]:Loginfailedforuser:SPSS\awilson6.2006/06/1409:27:27[167]:Session105ended7.2006/06/1409:53:39[167]:eptedconnectionfromlocalhost:18378.2006/06/1409:53:39[167]:Session63(localhost:1837)started9.2006/06/1409:53:40[167-63]:Logineededforuser:SPSS\awilson10.2006/06/1410:27:31[167]:Session63ended 日志文件中的所有项均包含时间戳。
启动SPSSModelerServer时日志文件中添加了第1行和第2行。
当计算机localhost上的用户尝试在端口号1827连接服务器时,添加了第3行。
第4行表示此用户启动了一个服务器会话。
第5行显示该用户未能正确登录。
一段时间之后,该用户终止了该会话。
半小时后,尝试了另一个来自localhost的连接,并启动了一个会话。
这一次登录成功。
又过了半小时后,该会话终止,连接关闭。
5章 性能概述 分析数据时的真正性能受若干因素的影响,这些因素包括服务器和数据库配置,以及流中单个节点的顺序等。
一般来说,您可以通过执行下列操作获取最佳的性能:在DBMS中存储数据,尽可能多地使用SQL优化。
使用满足或超过第2章中所给出推荐条件的硬件。
确保正确配置了服务器的性能和优化设置。
其中某些设置在客户端中也可用,但只 在以独立模式使用IBM®SPSS®Modeler时适用。
当IBM®SPSS®Modeler连接服务器时,它会自动使用该服务器的性能和优化设置。
优化流,以获得最大的性能。
有关详细信息,请参阅第13章中的流和节点的性能注意事项中的IBMSPSSModeler14.2用户指南。
有关每个性能因素的详细信息,请参阅下面的章节。
服务器性能和优化设置 某些IBM®SPSS®ModelerServer设置可以进行配置,以优化性能。
您可以使用SPSSModelerServer随附的IBM®SPSS®CollaborationandDeploymentServicesDeploymentManager应用程序调整这些设置。
有关详细信息,请参阅第20页码第4章中的使用IBMSPSSModelerAdministrationConsole。
这些设置组合在DeploymentManager配置窗口的性能和优化标题下。
对于大多数安装,都针对最佳性能预配置了这些设置。
但是,您可能需要根据您具体的硬件、数据集的大小以及流的内容调整这些设置。
有关详细信息,请参阅第25页码第4章中的性能/优化。
客户端性能和优化设置 通过“用户选项”对话框中的“优化”选项卡,可以优化流性能。
请注意,IBM®SPSS®ModelerServer(如果使用的话)上的性能和优化设置会覆盖客户端上的任何设置。
只有在IBM®SPSS®Modeler计算机上启用了SPSSModelerServer的连通性,该选项卡才可用。
注意:数据库建模和SQL优化需要在SPSSModeler计算机上启用SPSSModelerServer连接。
通过启用此设置,您可以访问数据库算法,直接从SPSSModeler回送SQL以及访问SPSSModelerServer。
要验证当前许可证的状态,请在SPSSModeler的“帮助”菜单中单击关于。
有关详细信息,请参阅第3章中的连接到IBMSPSSModelerServer中的IBMSPSSModeler14.2用户指南。
CopyrightIBMCorporation1994,2011. 38 图片5-1“用户选项”对话框,“优化”选项卡 39性能概述 注意:是否支持SQL回送和优化,取决于使用的数据库类型。
有关使用IBM®SPSS®Modeler14.2支持和测试的数据库和ODBC驱动程序的最新信息,请参阅公司支持站点上的产品兼容性矩阵(/support)。
启用流重写。
选择此选项可启用SPSSModeler中的流重写。
提供的重写类型有两种,您可以选择其中一种也可以两种都选。
流重写会对流中的节点在后台进行重新排序,使其在不更改流语义的情况下更高效的操作。
优化SQL生成。
通过此选项可对流中的节点进行重新排序,以便可以使用SQL生成回送更多的操作,使其在数据库中执行。
当它发现某个节点无法呈现到SQL中时,该优化选项则会向下查看,看是否存在任何下游节点可呈现到SQL中,并且可以在不影响流语义的情况下安全移动到该问题节点的前面。
数据库执行操作不但可以比SPSSModeler效率更高,而且这样的回送操作可以减小返回到SPSSModeler进行处理的数据集的大小。
而这又可以进一步减小网络通信量,加快流操作的速度。
请注意,必须选中生成SQL复选框后SQL优化才能生效。
有关详细信息,请参阅第42页码第6章中的SQL优化。
40 章
5 优化语法执行。
这种流重写方法会提高合并多个包含IBM®SPSS®Statistics语法节点的操作的效率。
通过将语法命令合并到单个操作中,而不是作为单独的操作分别运行,从而实现优化。
优化其他执行。
这种流重写方法会提高无法委派给数据库的操作的效率。
优化是通过尽可能早地减少流中的数据量来获得的。
在保持数据完整性的同时,该流会进行重写,以使操作距离数据源更接近,因而减少了具有较高消耗的操作(如连接)的下游数据。
启用并行处理。
当在一台带有多处理器的计算机上运行时,此选项使得系统能够平衡这些处理器之间的负载,从而可能产生更佳的性能。
使用多个节点或者使用下列单个节点可能会由于并行处理受益:C5.0、合并(按键进行)、排序、间隔(秩和分位法),以及聚合(使用或多个键字段)。
生成SQL。
选择此选项可启用SQL生成,从而可以通过使用SQL代码使得流操作回送到数据库以生成执行处理,因此可能能够改善性能。
为了进一步改善性能,还可以选择优化SQL生成,从而实现将回送到数据库的操作数最大化。
节点的操作回送到数据库之后,该节点将在流运行时以紫色突出显示。
数据库高速缓存。
对于生成SQL以便在数据库中执行的流,数据可以在中游时缓存到数据库而不是文件系统临时表中。
如果与SQL优化相组合,则此操作将使性能得到显著提高。
例如,可以对合并多个表以创建数据挖掘视图的流的输出进行缓存并在需要时重新使用。
启用数据库缓存后,请右键单击非终端节点以在此位置缓存数据,下次运行流时,将直接在数据库中自动创建缓存。
如此一来,为下游节点生成SQL将成为可能,从而可进一步提高性能。
此外,必要时可禁用该选项,例如当策略或权限排除正被写入数据库的数据时。
如果未启用数据库缓存或SQL优化,则缓存将被转而写入文件系统。
有关详细信息,请参阅第5章中的节点的高速缓存选项中的IBMSPSSModeler14.2用户指南。
注意:由于SQL实现的微小差别,在数据库中运行的流返回的结果可能会与在SPSSModeler中运行时返回的结果有着轻微的不同。
也是因为上述原因,这些差别还可能根据数据库提供商的不同而有所区别。
执行流期间在消息日志中显示SQL。
指定在运行流时生成的SQL是否传递到消息日志。
流准备期间在消息日志中显示关于SQL生成的详细信息。
指定在流预览期间要生成的SQL的预览是否传递到消息日志。
显示SQL。
指定日志中显示的任何SQL是否应该包含格式为{fnFUNC(…)}的本地SQL函数或标准ODBC函数(正如SPSSModeler生成的那样)。
前者依赖于可能没有实现的ODBC驱动程序功能。
例如,此控件可能对于SQLServer没有任何效果。
重新设置SQL格式以增加可读性。
指定是否应将在日志中显示的SQL格式化以提高可读性。
显示记录状态。
指定在记录到达终端节点后,报告记录的时间。
指定一个数字,用于表示每N个记录更新一次状态。
单击默认值可将此选项卡还原为系统默认设置。
41 性能概述 数据库使用情况和优化 数据库服务器。
如果可能的话,请创建一个专门用于数据挖掘的数据库实例,以便生产服务器不会受到IBM®SPSS®Modeler查询的影响。
SPSSModeler生成的SQL语句可能要求会很高,即,IBM®SPSS®ModelerServer计算机上的多个任务能够在同一个数据库中执行SQL。
数据库内挖掘。
很多数据库提供商都提供了用于其产品的数据挖掘扩展。
这些扩展允许数据挖掘活动(如模型构建或评分)在数据库服务器内运行,或在单独的专用服务器内运行。
SPSSModeler的数据库内挖掘功能补充并扩展了它的SQL生成功能,提供了一种驱动提供商特定的数据库扩展的方式。
在某些情况下,采用此方式避免了SPSSModeler和数据库之间用于数据传输的潜在的昂贵开销。
数据库缓存可增加更多好处。
有关详细信息,请参阅文件DatabaseMiningGuide.pdf,该文件位于IBM®SPSS®Modeler安装盘上\Documentation文件夹下。
SQL优化 为了获得最佳的性能,您总是应该尝试尽可能扩大所生成SQL的数量,以开发数据库的性能和可伸缩性。
只有不可编译到SQL的流的部分应该在IBM®SPSS®ModelerServer中执行。
有关详细信息,请参阅第6章。
上载基于文件的数据 未存储在数据库中的数据不能从SQL优化中获益。
如果您要分析的数据尚未位于数据库中,则可以使用数据库输出节点上载这些数据。
您还可以使用此节点存储来自数据准备的中间数据集以及部署的结果。
有关详细信息,请参阅第7章中的数据库导出高级选项中的IBMSPSSModeler14.2源、过程和输出节点。
IBM®SPSS®Modeler可与很多常见数据库系统的外部载入程序进行接口。
该软件还附带了几个脚本,它们及其文档位于SPSSModeler安装文件夹下的/scripts子目录中。
下表显示了批量载入的潜在性能优点。
这些数据显示了向Oracle数据库导出250,000个记录和21个字段所花的时间。
外部载入程序为Oracle的sqlldr实用程序。
表5-1批量载入的性能优点 导出选项默认(ODBC)通过ODBC的批量载入通过外部载入程序的批量载入 时间(秒)4095233 6章 SQL优化 IBM®SPSS®Modeler最强大的功能之一是直接在数据库中执行很多数据准备和挖掘操作的功能。
通过生成可回送到数据库进行执行的SQL代码,很多操作(如抽样、排序、导出新字段以及某些类型的绘图)可以在数据库中执行,而不必在IBM®SPSS®Modeler或IBM®SPSS®ModelerServer计算机上执行。
当您对较大数据集进行操作时,这些回送可在以下几个方面显著地增强性能:减小从DBMS传输到SPSSModeler的结果集的大小。
通过ODBC驱动程序读取大型 结果集时,可能会导致网络I/O或驱动程序的低效率。
因此,由于SQL优化而受益最多的操作是行和列的选择和聚合(选择节点、抽样节点、汇总节点),这样通常会减小要传输的数据集的大小。
数据还可以在流中的某些重要点(例如,合并或选择节点之后)高速缓存到数据库的一个临时表中,从而进一步改善性能。
利用数据库的性能和可伸缩性。
因为DBMS通常可以利用并行处理、功能更强大的硬件、更为复杂的磁盘存储管理,以及由于索引的存在,所以效率会得到提高。
因为存在这些优势,所以SPSSModeler的设计会最大化每个流生成的SQL量,因而只有那些无法编译为SQL的操作才会由SPSSModelerServer执行。
但由于可以使用标准SQL(SQL-92)表达的内容有限制,某些操作可能不受支持。
有关详细信息,请参阅第48页码最大化SQL生成的提示。
注意:由于SQL实现之间的微小差别,在数据库中执行的流与在SPSSModeler中执行的流返回的结果可能略有不同。
类似的原因,这些差别还可能根据数据库提供商的不同而有所区别。
例如,根据字符串比较和字符串排序规则中有关区分大小写的数据库配置,使用SQL回送执行的SPSSModeler流可能会与不使用SQL回送执行的流产生不同的结果。
有关配置数据库的建议,请与数据库管理员联系。
为尽可能提高与SPSSModeler的兼容性,数据库字符串比较应区分大小写。
注意:数据库建模和SQL优化需要在SPSSModeler计算机上启用SPSSModelerServer连接。
通过启用此设置,您可以访问数据库算法,直接从SPSSModeler回送SQL以及访问SPSSModelerServer。
要验证当前许可证的状态,请在SPSSModeler的“帮助”菜单中单击关于。
有关详细信息,请参阅第3章中的连接到IBMSPSSModelerServer中的IBMSPSSModeler14.2用户指南。
数据库要求 有关使用SPSSModeler支持和测试的数据库和ODBC驱动程序的最新信息,请参阅公司支持站点上的产品兼容性矩阵(/support)。
请注意,通过使用数据库建模还可以获得进一步的性能改善。
有关详细信息,请参阅第2章中的数据库建模概述中的IBMSPSSModeler14.2数据库内数据挖掘指南。
CopyrightIBMCorporation1994,2011. 42 43 SQL优化 SQL生成如何运行 来自数据库源节点的流的初始片断是SQL生成的主要目标。
当节点遇到无法编译为SQL的内容时,数据则会从数据库提取出来,由IBM®SPSS®ModelerServer完成后续处理。
在流准备期间以及执行之前,SQL的生成过程按照下列步骤进行:服务器对流重新排序,将下游节点移动到“SQL区域”(如果已证实这样做不会产 生问题)。
(可以在服务器上禁用此功能。
)从源节点向终端节点不断执行操作,将SQL表达式逐渐构建起来。
当节点遇到无法 转换为SQL的内容或者终端节点(例如表节点或图形节点)转换为SQL时,此阶段停止。
在此阶段的最后,每个节点都会带有一个SQL语句标签(如果节点及其前面的内容具有对等SQL的话)。
再从具有最复杂对等SQL的节点向源节点反方向不断执行操作,检查SQL的有效性。
成功验证的SQL将被选择用于执行。
其所有操作均生成了SQL的节点在流工作区中突出显示为紫色。
基于这些结果,您可能希望在合适时进一步重新组织您的流,以充分利用数据库执行。
有关详细信息,请参阅第48页码最大化SQL生成的提示。
改善发生在何处 SQL优化改善了一些数据操作中的性能:连接(使用关键字合并)。
连接操作可以增强数据库内的优化。
汇总。
汇总节点、条形图节点和网络节点全部使用汇总生成其结果。
汇总后的数 据使用的带宽比原始数据要小很多。
选择。
基于某些标准选择记录会减少记录的数量。
排序。
对记录排序是一个资源密集型活动,在数据库中执行的效率会更高。
字段派生。
在数据库中生成新字段时效率更高。
字段投射。
SPSSModelerServer仅从数据库中提取后续处理所必需的字段,这样会 最小化带宽和内存要求。
对于平面文件中的多余字段也是上述情况:尽管服务器必须读取多余的字段,但它不会为其分配任何存储。
评分。
SQL可从决策树、结果集、线性回归和因子生成的模型生成。
SQL生成示例 下面的流会通过关键字操作连接三个数据库表,然后执行一次汇总和一次排序。
44章
6 图片6-1带有表明SQL回送(在数据库中执行的操作)的紫色节点的优化流 生成的SQL 对于此流生成的SQL如下所示: SELECTT2.au_lnameASC0,T2.au_fnameASC1,SUM({fnCONVERT(T0.ytd_sales,SQL_BIGINT)})ASC2 FROMdbo.titlesT0,dbo.titleauthorT1,dbo.authorsT2 WHERE(T0.title_id=T1.title_id)AND(T1.au_id=T2.au_id) GROUPBYT2.au_lname,T2.au_fnameORDERBY3DESC 执行流 如果流以数据库导出节点终止,则可以在数据库中执行整个流。
图片6-2在数据库中执行的整个流 45SQL优化 配置SQL优化 E安装ODBC驱动程序,为要使用的数据库配置数据源。
有关详细信息,请参阅第9页码第2章中的数据访问。
E创建一个使用源节点从该数据库拉出数据的流。
E检查以确保在客户端和服务器上均启用了SQL生成(如果可应用的话)。
默认情况下客 户端和服务器上都是启用的。
在客户端上启用SQL优化 E在“工具”菜单中,选择用户选项。
E单击“优化”选项卡。
选择生成SQL启用SQL优化。
您还可以选择其他设置以改善性 能。
有关详细信息,请参阅第38页码第5章中的客户端性能和优化设置。
在服务器上启用SQL优化 因为服务器设置会覆盖在客户端上指定的任何内容,所以服务器配置设置流重写和自动SQL生成必须都打开。
有关如何更改IBM®SPSS®ModelerServer设置的详细信息,请参阅性能/优化中的第4章一节。
对模型评分时启用优化 为了进行评分,必须为每个建模节点分别启用SQL生成,而不管任何服务器或客户端级的设置如何。
这样做是因为有些模型生成非常复杂的SQL表达式,在数据库中可能无法有效评估。
由于SQL的大小或复杂性,在尝试执行生成的SQL时数据库可能报告错误。
可能需要一定数量的试错以确定SQL生成是否改进给定模型的性能。
此过程是在生成的模型添加到流之后在“设置”选项卡上完成的。
有关详细信息,请参阅第3章中的使用流中的模型块中的IBMSPSSModeler14.2建模节点。
46章
6 预览生成的SQL 在数据库中执行生成的SQL之前,您可以在消息日志中进行预览。
这可能有助于调试程序,通过预览还可以导出生成的SQL以便将来在数据库中进行编辑或运行。
预览还会表明哪些节点将回送到数据库,这样可能有助于您确定是否可以对流重新排序以改善性能。
E确保在“用户选项”对话框中选择了执行流期间在消息日志中显示SQL以及流准备期间在消息日志中显示关于SQL生成的详细信息。
有关详细信息,请参阅第38页码第5章中的客户端性能和优化设置。
E在流工作区中,选择要预览的节点或流。
E单击工具栏上的预览SQL按钮。
为其生成SQL的所有节点(以及执行流时将回送到数据库的节点)在流工作区中显示为紫色。
图片6-3预览SQL按钮 E要预览生成的SQL,请从菜单中选择: 工具>流属性>消息... 图片6-4显示在消息日志中的已生成SQL 47SQL优化 查看模型块SQL 对于某些模型,可以生成模型块SQL,将模型评分阶段回送到数据库。
此功能的主要用途不是提高性能,而是允许包含这些块的流进行完整的SQL回送。
有关详细信息,请参阅第49页码支持SQL生成的节点。
要查看支持SQL生成的模型块SQL: E选择模型块上的“设置”选项卡。
E根据情况选择一个选项,在缺失值支持的情况下生成或为此模型生成SQL。
E在模型块菜单中,选择: 文件>导出SQL 48 章
6 E保存该文件。
E打开文件以查看SQL。
最大化SQL生成的提示 要从SQL优化获取最佳的性能改善,请注意以下几点。
流顺序。
因为IBM®SPSS®Modeler’的数据挖掘功能比标准SQL支持的传统数据处理操作更丰富,所以当节点功能与SQL没有对等语义时,SQL生成可能会停止。
如果发生这种情况,任何下游节点的SQL生成也都会受到抑制。
因此,通过对节点重新排序,以使停止SQL的操作放置在流中尽可能靠下的位置,您或许能够显著地改善性能。
SQL优化器可以自动执行一定数量的重新排序(确保启用了流重写即可),但还可以进行进一步的改善。
选择节点即是一个很好的备选,该节点通常可以向前推进一些。
有关详细信息,请参阅第49页码支持SQL生成的节点。
CLEM表达式。
如果流无法重新排序,您或许可以更改节点选项或CLEM表达式,或者重新设计操作的执行模式,以便它不再阻止SQL生成。
导出、选择以及类似的节点通常可以呈现为SQL,条件是所有CLEM表达式运算符都具有对等SQL。
大多数运算符都可以呈现,但有一些运算符会阻止SQL生成(具体来说,为序列函数[“@functions”])。
有时生成会因为生成的查询变得太复杂,以至于数据库无法处理而停止。
有关详细信息,请参阅第51页码CLEM支持SQL生成的表达式和运算符。
多个源节点。
对于流具有多个数据库源节点的情况,SQL生成会独立应用于每个输入分支。
如果生成在某个分支上停止,它可以在另一个分支上继续。
对于两个分支合并的情况(并且合并之前两个分支都可以表达为SQL),合并本身通常会被替代为数据库连接,生成可以在下游继续。
数据库算法。
模型估计总是在IBM®SPSS®ModelerServer上执行,而不在数据库中执行,但使用Microsoft、IBM或Oracle提供的数据库自有算法时除外。
有关详细信息,请参阅第2章中的数据库建模概述中的IBMSPSSModeler14.2数据库内数据挖掘指南。
对模型评分。
通过将生成的模型呈现为SQL,可支持某些模型在数据库内部评分。
但某些模型会生成极其复杂的SQL表达式,而这些表达式总是无法在数据库内进行有效计算。
因此,必须为每个模型节点单独启用SQL生成。
如果您发现某个模型节点正在阻止SQL生成,则请转至该节点对话框上的“设置”选项卡,然后选择生成此模型的SQL(对于某些模型,可能还有一些其他选项可控制生成)。
运行检验,确认该选项是否有益于您的应用。
有关详细信息,请参阅第49页码支持SQL生成的节点。
当测试建模节点以查看模型的SQL生成是否有效工作,我们建议首先保持IBM®SPSS®Modeler的所有流。
一些数据库系统可能尝试处理(潜在复杂)生成的SQL时可能中止,这需要从Windows任务管理器关闭SPSSModeler。
数据库高速缓存。
如果您要使用节点高速缓存在流中的某些重要点(例如合并或汇总节点之后)保存数据,则请确保启用了数据库高速缓存和SQL优化。
这样将使得数据在大多数情况下都能够高速缓存到数据库(而不是文件系统中)的一个临时表中。
有关详细信息,请参阅第45页码配置SQL优化。
另请参阅节点的高速缓存选项了解详细信息。
供应商特定的SQL。
大多数生成的SQL都符合标准(SQL-92),但在实际中会采用一些非标准的、供应商特定的功能。
根据数据库源的不同,SQL优化的程度可能有所差别。
49SQL优化 支持SQL生成的节点 下表显示了表示支持SQL生成的数据挖掘操作的节点。
如果节点(数据库建模节点除外)不出现在这些表格中,则它不支持SQL生成。
您可以在执行前预览生成的SQL。
有关详细信息,请参阅第46页码预览生成的SQL。
源 支持SQL生成的节点数据库 附注 此节点用于指定要用于进一步分析的表和视图。
此节点实现了SQL查询的输入。
请避免带有重复列名的结果集。
有关详细信息,请参阅第54页码写入SQL查询。
记录操作支持SQL生成的节点选择 样本聚合RFM汇总 排序合并 追加区分 附注 只有当支持选定表达式本身的SQL生成(请参阅下面的表达式)时,才支持生成。
如果任何字段值为空,则SQL生成所给出的丢弃结果与本地IBM®SPSS®Modeler中给出的结果不同。
如下一表格所示,简单抽样支持SQL生成。
复杂抽样不支持SQL生成。
支持生成,除非保存了第二个或第三个最近交易的日期,或仅仅包含最近的几次交易。
但是,如果回送了datetime_date(YEAR,MONTH,DAY)函数,则包括最近几次交易时,也支持生成。
按顺序合并不会生成任何SQL。
仅当数据库/驱动程序支持使用具有完整或部分外部连接的关键字进行合并时才支持此功能。
可通过过滤器节点或源节点的“过滤器”选项卡重命名非匹配的输入字段。
对于所有类型的合并,如果输入源自不同的数据库,则不支持SQL_SP_EXISTS。
如果未排序输入,则支持生成。
下表中显示使用简单抽样时,支持样本节点中的SQL生成。
模式Include 样本Firstn中取
1 随机% 大小最大值n/a 关闭max 关闭 max 种子数 关闭在关闭在 DB2OS/Z YY
Y DB2DB2NetezzaOracleOS/400Windows/UNIX YYY
Y YYY
Y YYY
Y YY
Y Y
Y YY
Y Y
Y SQLServer
Y Teradata YYYY
Y 50章
6 模式Discard 样本Firstn中取1随机% 大小最大值 关闭max 关闭max 关闭 max 种子数 关闭在关闭在 DB2OS/Z YY DB2DB2NetezzaOracleOS/400Windows/UNIX
Y Y
Y Y YYY
Y YYY
Y YY
Y Y
Y YY
Y Y
Y SQLServer Teradata YYYY 字段操作支持SQL生成的节点类型 筛选器导出 整体 填充 匿名化 重新分类离散化 RFM分析 分区设为标志重建 附注如果类型节点已经实例化,且没有指定ABORT或WARN类型检查,则支持SQL生成。
如果支持为派生表达式生成的SQL,则支持SQL生成(请参阅下面的表达式)。
支持连续目标的SQL生成。
对于其他目标,仅当使用“赢得最高置信度”整体方法时,才支持生成。
如果支持为派生表达式生成的SQL,则支持SQL生成(请参阅下面的表达式)。
支持连续目标的SQL生成,以及名义和标志目标的部分SQL生成。
如果使用“分位数(同等计数)”分箱方法,并且选中“如果可用,从分级值选项卡读取”选项,则支持SQL生成,如果选中“如果可用,从分级值选项卡读取”选项,则支持SQL生成,但下游节点不支持。
支持SQL生成以分配记录到分区。
图形支持SQL生成的节点图形板 分布Web评估 附注 以下图形类型支持SQL生成:面积图、3-D面积图、条形图、3-D条形图、计数条、Heat图、饼图、3-D饼图以及计数饼图。
对于直方图,只有分类数据支持SQL生成。
51SQL优化 已生成的模型节点 对于某些模型,可以生成模型块SQL,将模型评分阶段回送到数据库。
此功能的主要用途不是提高性能,而是允许包含这些块的流进行完整的SQL回送。
有关详细信息,请参阅第47页码查看模型块SQL。
支持SQL生成的模型块C&R树QUESTCHAIDC5.0决策表线性 神经网络 主成分分析/因子Logistic 生成的结果集 附注支持单个树选项的SQL生成,但不支持推进、bagging或大型数据集选项的SQL生成。
支持标准模型选项的SQL生成,但不支持推进、bagging或大型数据集选项的SQL生成。
支持标准模型选项(仅多层感知器)的SQL生成,但不支持推进、bagging或大型数据集选项的SQL生成。
支持多项(而非二项)过程的SQL生成。
对于多项过程,选中置信度时,不支持生成,除非目标类型为标志。
输出 支持SQL生成的节点表 矩阵分析转换Statistics报告设置全局量 附注如果对于突出显示表达式(请参阅下面的表达式)支持SQL生成,则支持生成。
除选择了字段选项的“所有数字”外,都支持生成。
支持生成,具体取决于选择的选项。
如果不使用“相关”选项,则支持生成。
导出 支持SQL生成的节点数据库发布者 附注发布的流将包含生成的SQL。
CLEM支持SQL生成的表达式和运算符 下表显示了支持SQL生成,并在数据挖掘中经常使用的数学运算和表达式。
未在此表中显示的运算在当前版本中不支持SQL生成。
52章
6 运算符 支持SQL生成的运算+/*>< 关系运算符 支持SQL生成的运算=/=>>=<<= 函数 支持SQL生成的运算absallbutfirstallbutlastandosarcsinarctanarctanhcosdivexpfracofhasstartstringhassubstringintegerintofisaplhacodeislowercodeisnumbercodeisstartstringissubstringisuppercodelastlength 附注用于连接字符串。
附注用于指定“不等于”。
附注 支持SQL生成的运算harloglog10lowertouppermaxmemberminnegatenotnumberorpirealremroundsignsinsqrtstringstrmembersubscrssubstringsubstring_betweenuppertolowerto_string 特殊函数 支持SQL生成的运算@NULL@GLOBAL_AVE@GLOBAL_SUM@GLOBAL_MAX@GLOBAL_MEAN@GLOBAL_MIN@GLOBALSDEV 汇总函数 支持SQL生成的运算SumMeanMinMax 附注 53SQL优化 附注该特殊全局函数用于检索设置全局变量节点计算的全局值。
附注 54章
6 支持SQL生成的运算CountSDev 附注 使用CLEM表达式中的SQL函数 @SQLFN函数可用于在CLEM表达式中添加指定的SQL函数(仅用于数据库执行)。
对于需要采用专有SQL或其他供应商特定自定义的特殊情况,此函数十分有用。
此函数的使用不在标准IBM®SPSS®Modeler支持协议的涉及范围内,因为执行依靠的外部数据库组件超出IBMCorp.的控制范围,但在某些特殊情况下可能被采纳(通常包含在服务合约中)。
如有必要,请访问/software/analytics/spss/services/以获得详细信息。
写入SQL查询 使用数据库节点时,您应该对会产生带有重复列名的数据集的任何SQL查询特别注意。
这些重复列名通常会阻止任何下游节点的SQL优化。
IBM®SPSS®Modeler使用嵌套的SELECT语句为在数据库源节点中使用SQL查询的流回送SQL。
换句话说,该流会将数据库源节点中指定的查询嵌套在一个或多个在下游节点优化期间生成的SELECT语句中。
因此,如果查询的结果集包含重复列名,RDBMS则无法嵌套该语句。
嵌套困难最常发生在表连接过程中,因为具有相同名称的列已在多个连接表中选中。
例如,假设这种查询情况发生在源节点中: SELECTe.ID,e.LAST_NAME,d.*FROMEMPeRIGHTOUTERJOINDEPTdONe.ID=d.ID; 该查询会阻止后面的SQL优化,因为此SELECT语句会生成带有两个名为ID的列的数据集。
为了允许完整SQL优化,编写SQL查询时您应该更加明确,出现重复列名的情况时,您应该指定列别名。
下面的语句会说明一个更加明确的查询: SELECTe.IDASID1,e.LAST_NAME,d.*FROMEMPeRIGHTOUTERJOINDEPTdONe.ID=d.ID; A附录 为UNIX平台配置Oracle 配置Oracle的SQL优化 当在UNIX平台上运行IBM®SPSS®ModelerServer并从Oracle数据库读取时,请考虑下面的提示,以确保在数据库中彻底地优化生成的SQL。
适当的环境规范 当在除连接ODBC驱动程序随附环境以外的环境中运行SPSSModelerServer时,应当重新配置计算机以增强SQL优化。
仅将随附的ODBC驱动程序与en_US环境文件连接。
结果,如果在不同的环境中运行SPSSModelerServer计算机,或在启动了SPSSModelerServer的命令解释程序未完全定义环境时,则在Oracle中,生成的SQL可能不会完全优化。
原因如下: SPSSModelerServer使用与其运行的环境对应的ODBC环境文件,以将从数据库返回的代码转换为文本字符串。
然后使用这些文本字符串确定实际连接到哪个数据库。
如果环境(使用系统$LANG查询返回到SPSSModelerServer)不是en_US,则IBM®SPSS®Modeler无法将它从ODBC驱动程序接收的代码转换为文本。
换言之,在启动数据库连接时,返回到SPSSModelerServer的是未转换的代码,而不是字符串Oracle。
这意味着SPSSModeler无法优化Oracle的流。
检查并重设环境规范:E在UNIX命令解释程序中,运行: #locale 这将返回命令解释程序的环境信息。
例如: $localeLANG=en_US.ISO8859-15LC_CTYPE="en_US.ISO8859-15"LC_NUMERIC="en_US.ISO8859-15"LC_TIME="en_US.ISO8859-15"LC_COLLATE="en_US.ISO8859-15"LC_MONETARY="en_US.ISO8859-15"LC_MESSAGES="en_US.ISO8859-15"LC_ALL=en_US.ISO8859-15 E更改为连接ODBC/环境目录。
(您将在此处看到一个单个的目录,en_US。
)E创建指向此en_US目录的软链接,指定命令解释程序中环境设置的名称。
示例如下: #ln-sen_USen_US.ISO8859-15 对于非英语环境,如fr_FR.ISO8859-
1,应该使用如下命令创建软链接: #ln-sen_USfr_FR.ISO8859-
1 CopyrightIBMCorporation1994,2011. 55 56附录
A E创建了此链接后,请从同一命令解释程序中重新启动SPSSModelerServer。
(SPSSModelerServer将接收到来自它启动时所在命令解释程序的环境信息。
备注 在优化SQL回送到Oracle的UNIX计算机时,请考虑以下提示:必须指定整个环境。
在上面的示例中,必须以language_territory.code-page形式 创建链接。
现有的en_US环境目录并不充分。
要完全优化数据库内挖掘,必须在用于启动SPSSModelerServer的命令解释程序 中定义LANG和LC_ALL。
在重新启动SPSSModelerServer之前,可以在命令解释程序中将LANG定义为所需的任何其他环境变量。
例如,请参见下面的定义: #LANG=en_US.ISO8859-15;exportLANG 每次启动SPSSModelerServer时,需要检查是否完全定义了命令解释程序环境信息,以及ODBC/环境目录中是否存在相应的软链接。
B附录 配置UNIX启动脚本 简介 此附录描述了某些与UNIX版本的IBM®SPSS®ModelerServer一起提供的脚本,并且说明了如何配置这些脚本。
这些脚本可用于: 将SPSSModelerServer配置成服务器计算机重新启动时自动启动。
手动停止并重新启动SPSSModelerServer。
更改SPSSModelerServer所创建的文件的权限。
配置SPSSModelerServer以和SPSSModelerServer提供的ODBCConnect驱动程序一起使用。
有关详细信息,请参阅第59页码IBMSPSSModelerServer和数据访问包。
配置SPSSModelerServer以在用EnterpriseView节点读取数据时使用IBM®SPSS®CollaborationandDeploymentServicesEnterpriseViewDriver。
有关详细信息,请参阅第64页码为企业视图节点配置驱动程序。
脚本 IBM®SPSS®ModelerServer使用多个脚本,包括: modelersrv.sh。
SPSSModelerServer的手动启动脚本位于SPSSModelerServer的安装目录中。
当手动启动服务器守护进程时,手动启动脚本将配置服务器环境。
您可以通过运行此脚本实现手动启动和关闭服务器。
当需要更改手动启动配置时,您可以编辑此脚本。
auto.sh。
此脚本用于对您的系统进行配置,以便在引导时自动启动服务器守护进程。
运行此脚本即可将系统配置成自动启动。
您无需对此脚本进行编辑。
此脚本位于SPSSModelerServer的安装目录中。
rc.modeler。
当运行auto.sh时,系统将在某个位置(取决于您服务器的操作系统)创建此脚本。
当自动启动时,此脚本会配置服务器环境。
当需要更改自动启动配置时,您可以编辑此脚本。
表B-1不同操作系统中rc.modeler的位置 操作系统AIXHP-UX 位置/etc/rc.modeler/sbin/init.d/rc.modeler Solaris /etc/init.d/rc.modeler 自动启动和停止IBMSPSSModelerServer IBM®SPSS®ModelerServer必须作为守护进程启动。
安装程序中包括您想运行用来配置系统以自动停止和重新启动SPSSModelerServer的脚本(auto.sh)。
CopyrightIBMCorporation1994,2011. 57 58附录
B 将系统配置为自动启动和关闭E以root身份登录。
E切换至SPSSModelerServer安装目录。
E运行此脚本。
在UNIX提示符处键入: ./auto.sh 在上表中所显示的位置将创建自动启动脚本(rc.modeler)。
每当服务器计算机被重新引导时,操作系统将使用rc.modeler来启动SPSSModelerServer守护进程。
每当系统关闭时,操作系统还将采用rc.modeler来停止守护进程。
手动启动和停止IBMSPSSModelerServer 可通过运行modelersrv.sh脚本手动启动和停止IBM®SPSS®ModelerServer。
手动启动和停止IBMSPSSModelerServerE切换至SPSSModelerServer安装目录。
E要启动此服务器,请在UNIX命令提示符下输入: ./modelersrv.shstart E要停止此服务器,请在UNIX命令提示符下输入: ./modelersrv.sh 编辑脚本 如果您同时采用了手动和自动启动,则请同时对modelersrv.sh和rc.modeler脚本进行修改。
如果您仅采用了手动启动,则请修改modelersrv.sh。
如果您仅采用了自动启动,则请修改rc.modeler。
编辑脚本E停止IBM®SPSS®ModelerServer。
(有关详细信息,请参阅第58页码手动启动和停 止IBMSPSSModelerServer。
)E找到相应脚本。
(有关详细信息,请参阅第57页码脚本。
)E用文本编辑器打开脚本,修改并保存文件。
E自动(通过重新启动服务器计算机)或手动启动SPSSModelerServer。
59 配置UNIX启动脚本 控制文件创建权限 IBM®SPSS®ModelerServer为所有用户创建了具有读、写和执行权限的临时文件。
您可通过编辑启动脚本(modelersrv.sh和/或rc.modeler)中的UMASK设置来覆盖此默认值。
(更多信息,请参阅上述编辑脚本。
)我们建议采用077作为最具约束力的UMASK设置。
约束力较强的设置可能会导致SPSSModelerServer发生权限问题。
IBMSPSSModelerServer和数据访问包 如果想在IBM®SPSS®ModelerServer中使用ConnectforODBC驱动程序,则启动SPSSModelerServer进程时必须通过odbc.sh配置ConnectforODBC环境。
通过编辑modelersrv.sh和/或rc.modeler中相应的IBM®SPSS®Modeler启动脚本,可以实现上述配置。
(有关详细信息,请参阅第58页码编辑脚本。
) 有关详细信息,请访问公司Web站点/drivers/。
如果您有关于创建或设置ODBC数据源权限的问题,请联系您的数据库管理员。
配置ConnectforODBC以随IBMSPSSModelerServer启动 E从公司网站,下载适合您的SPSSModelerServer安装平台的压缩tar存档文件。
确保下载对应于您所安装的SPSSModelerServer版本的驱动程序。
将文件复制到您要安装ODBC驱动程序的位置(例如,/usr/spss/odbc)。
E提取存档文件。
E运行从存档文件中提取的setodbcpath.sh脚本。
E编辑脚本odbc.sh,在该脚本底部添加ODBCINI定义,并将其导出,例如: ODBCINI=/usr/spss/odbc/odbc.ini;exportODBCINI ODBCINI必须指向odbc.ini文件的完整路径名,SPSSModeler将从该文件中读取您所定义的ODBC数据源列表(默认的odbc.ini随驱动程序一起安装)。
E保存odbc.sh。
E(仅适合64位SPSSModelerServer安装;对于其他安装,从下一步继续)在odbc.sh中定义并导出LD_LIBRARY_PATH_64: if["$LD_LIBRARY_PATH_64"=""];thenLD_LIBRARY_PATH_64= elseLD_LIBRARY_PATH_64=:$LD_LIBRARY_PATH_64 fiexportLD_LIBRARY_PATH_64 其中library_path与在脚本中存在的LD_LIBRARY_PATH定义相同,该脚本已在您的安装路径中初始化(例如/usr/spss/odbc/lib)。
最简便的方法是在odbc.sh文件中复制LD_LIBRARY_PATH的if和export语句,并将其附加到文件末尾,然后使用“LD_LIBRARY_PATH_64”替换新附加的if和export语句中的“LD_LIBRARY_PATH”。
60附录
B 因此,在64位SPSSModelerServer安装上的最终odbc.sh文件应如下所示: if["$LD_LIBRARY_PATH"=""];thenLD_LIBRARY_PATH=/usr/spss/odbc/lib elseLD_LIBRARY_PATH=/usr/spss/odbc/lib:$LD_LIBRARY_PATH fiexportLD_LIBRARY_PATHif["$LD_LIBRARY_PATH_64"=""];then LD_LIBRARY_PATH_64=/usr/spss/odbc/libelse LD_LIBRARY_PATH_64=/usr/spss/odbc/lib:$LD_LIBRARY_PATH_64fiexportLD_LIBRARY_PATH_64ODBCINI=/usr/spss/odbc/odbc.ini;exportODBCINI 记住导出LD_LIBRARY_PATH_64,并使用if循环来定义它。
E编辑您之前使用$ODBCINI定义的odbc.ini文件。
定义所需的数据源名称(取决于您当前访问的数据库)。
E保存odbc.ini文件。
E配置SPSSModelerServer以使用这些驱动程序。
为此,应编辑modelersrv.sh并紧接 在SCLEMDNAME定义行下面添加以下行: . 其中odbc.sh_path是您在此过程开始时编辑过的odbc.sh文件的完整路径,例如: ./usr/spss/odbc/odbc.sh 注意:此处的语法很重要;请在第一个句点和文件路径之间保留一个空格。
E保存modelersrv.sh。
测试连接 E重新启动SPSSModelerServer。
E从客户端连接到SPSSModelerServer。
E在客户端上,将数据库源节点添加到工作区中。
E打开节点,确认您可以看到之前配置过程中在odbc.ini文件中定义的数据源名称。
如果看不到期望结果,或者在您尝试连接到所定义的数据源时发生错误,请遵照故障排除步骤执行检查。
有关详细信息,请参阅第61页码ConnectforODBC配置故障排除。
配置ConnectforODBC以随IBMSPSSModelerSolutionPublisherRuntime启动 在成功地从SPSSModelerServer连接到数据库后,您可以从IBM®SPSS®ModelerSolutionPublisherRuntime的启动脚本中引用相同的odbc.sh脚本,以便在同一服务器上配置SPSSModelerSolutionPublisherRuntime安装。
61配置UNIX启动脚本 E编辑SPSSModelerSolutionPublisherRuntime中的modelerrun脚本,并紧邻脚本末行上方添加以下行: . 其中odbc.sh_path是您在此过程开始时编辑过的odbc.sh文件的完整路径,例如: ./usr/spss/odbc/odbc.sh 注意:此处的语法很重要;请在第一个句点和文件路径之间保留一个空格。
E保存modelerrun脚本文件。
配置ConnectforODBC以随IBMSPSSModelerBatch启动对于ODBC,无需配置IBM®SPSS®ModelerBatch脚本。
这是因为您是从SPSSModelerBatch连接到SPSSModelerServer来运行流。
确保已按照本节前面的说明完成了SPSSModelerServerODBC配置,并且能够正常工作。
添加或编辑数据源名称E编辑odbc.ini文件以包含新的或更改后的名称。
E按照本节前面的说明测试连接。
如果与SPSSModelerServer的连接工作正常,则新的或更改后的数据源也应与SPSSModelerSolutionPublisherRuntime和SPSSModelerBatch正常工作。
ConnectforODBC配置故障排除 未列出数据源,或显示随机文本 如果您打开数据库源节点,可用数据源列表为空或包含异常条目,则可能是由于启动脚本存在问题。
E检查在modelersrv.sh中是否定义了$ODBCINI,它要么在该脚本中明确定义,要么在modelersrv.sh引用的odbc.sh脚本中定义。
E对于后一种情况,应确保ODBCINI指向您用于定义ODBC数据源的odbc.ini文件的完整路径。
E如果在ODBCINI中正确指定了路径,则应通过回显modelersrv.sh中的$ODBCINI值,以检查在IBM®SPSS®ModelerServer环境中使用的变量值。
为此,应在modelersrv.sh中的ODBCINI定义位置添加以下行: echo$ODBCINI E保存并执行modelersrv.sh。
在SPSSModelerServer环境中设置的$ODBCINI值将被写入stdout以供验证。
E如果根本没有值返回到stdout,而且您是在odbc.sh脚本中定义$ODBCINI,并从modelersrv.sh中进行引用,则应检查引用语法是否正确。
它应为: 62附录B . 其中odbc.sh_path是您在此过程开始时编辑过的odbc.sh文件的完整路径,例如: ./usr/spss/odbc/odbc.sh 注意:此处的语法很重要;请在第一个句点和文件路径之间保留一个空格。
如果在运行modelersrv.sh时stdout回显了正确值,则在您重启SPSSModelerServer并从客户端进行连接后,应当在数据源节点中看到数据源名称。
在“数据库连接”对话框中单击“连接”时IBMSPSSModeler客户端挂起 这种情况可能是因为您的库路径未正确设置以包含ODBC库路径。
该库路径由$LD_LIBRARY_PATH定义(在64位版本上为$LD_LIBRARY_PATH_64)。
要在SPSSModelerServer守护进程环境中查看该库路径的值,则应从modelersrv.sh中回显适当的环境变量值(位于将ODBC库路径附加到库路径的所在行之后),并执行脚本。
在您下次执行脚本时,库路径值将回显到终端。
如果您从modelersrv.sh中引用odbc.sh来设置您的SPSSModelerServerODBC环境,则应从引用odbc.sh脚本的所在行之后回显库路径值。
要回显该值,应在脚本中添加以下行,然后保存并执行脚本文件: echo$ 其中是您的服务器操作系统的相应库路径变量。
库路径的返回值必须包含指向ODBC安装的lib子目录的路径。
否则,应将此位置附加到该文件。
如果您在运行64版本的SPSSModelerServer,则应$LD_LIBRARY_PATH_64将覆盖$LD_LIBRARY_PATH(如设置)。
如果您在某个64位平台上遇到此问题,则可从modelersrv.sh中回显LD_LIBRARY_PATH_64和$LD_LIBRARY_PATH,根据需要,设置$LD_LIBRARY_PATH_64以包含您的ODBC安装的lib子目录。
找不到数据源名称,且未指定默认驱动程序 如果您在“数据库连接”对话框中单击“连接”时看到此错误,通常表明您的odbc.ini文件定义不正确。
检查该文件顶部的[ODBCDataSources]部分中定义的数据源名称(DSN),它应与odbc.ini的较下方部分中定义DSN的方括号之间指定的字符串相符。
如果二者不同,则您在IBM®SPSS®Modeler中使用该DSN进行连接时将看到此错误。
以下示例显示了错误的指定: [ODBCDataSources]Oracle=OracleWireProtocol ….….[OracleDriver]Driver=/usr/ODBC/lib/XEora22.so 63 配置UNIX启动脚本 Description=SPSS5.2OracleWireProtocolAlternateServers=…. 您需要更改两个黑体字符串之
一,以确保它们完全相同。
这样即可解决此错误。
无法加载指定的驱动程序 该错误也表明odbc.ini文件定义不正确。
一种可能是在驱动程序部分中的驱动程序参数设置不正确,例如: [ODBCDataSources]Oracle=OracleWireProtocol ….….[Oracle]Driver=/nosuchpath/ODBC/lib/XEora22.soDescription=SPSS5.2OracleWireProtocolAlternateServers= E检查驱动程序参数指定的共享对象是否存在。
E如果不正确,则纠正共享对象的路径。
E如果其中以此格式指定驱动程序参数: Driver=ODBCHOME/lib/XEora22.so 这表明您尚未初始化ODBC相关脚本。
运行随驱动程序安装的setodbcpath.sh脚本。
有关详细信息,请参阅第59页码IBMSPSSModelerServer和数据访问包。
在您运行此脚本后,应能看到字符串“ODBCHOME”已被替换为您的ODBC安装的路径。
这应当可以解决该问题。
另一种原因可能是驱动程序库存在问题。
请使用ConnectforODBC提供的ivtestlib工具来确认是否无法加载驱动程序。
对于Connect64,请使用ddtestlib工具。
通过在启动脚本中设置库路径变量排除上述故障。
例如,如果对于32位安装无法加载Oracle驱动程序,请执行以下步骤: E使用ivtestlib工具来确认是否无法加载驱动程序。
例如,在UNIX提示符处输入: shcdODBCDIR.odbc.sh./bin/ivtestlibMFor815 在此将用ConnectforODBC安装目录的路径来替换ODBCDIR。
E查阅消息,看是否存在错误。
例如,消息为: MFor815.so加载失败:ld.so.1:bin/ivtestlib:严重错误:libclntsh.so:无法打开:文件或目录不存在 上述消息指出:Oracle客户端库(libclntsh.so)丢失或其库路径错误(例如,在Solaris中,客户端库的路径不是LD_LIBRARY_PATH)。
64附录
B E确认库的存在。
如果库不存在,则请重新安装Oracle客户端。
如果库存在,则请在UNIX命令提示符处输入以下命令序列: LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/bigdisk/oracle/product/8.1.6/libexportLD_LIBRARY_PATH./bin/ivtestlibMfor815 在此将用libclntsh.so的路径来替换/bigdisk/oracle/product/8.1.6/lib,LD_LIBRARY_PATH是针对操作系统的库路径变量。
请注意,如果正在Linux或Solaris上运行64位SPSSModeler,则库路径变量包含后缀_64。
因此,上一示例中的前两行将变为: LD_LIBRARY_PATH_64=$LD_LIBRARY_PATH_64:/bigdisk/oracle/product/8.1.6/libexportLD_LIBRARY_PATH_64 E查阅消息以确认现在是否可以加载驱动程序。
例如,消息为: MFor815.so加载成功,qehandle为0xFF3A1BE4 此消息说明可以加载Oracle客户端库。
E更正SPSSModeler启动脚本中的库路径。
E使用编辑过的启动脚本(modelersrv.sh或rc.modeler)重新启动SPSSModelerServer。
库路径 库路径变量的名称取决于您所用的操作系统。
当对系统进行配置或故障排除时,下表将作为指南来指导您做出相应的替换。
表B-2不同操作系统的库路径 操作系统AIXHP-UXSolaris或Linux32位Solaris或Linux64位 库路径变量名称LIBPATHSHLIB_PATHLD_LIBRARY_PATHLD_LIBRARY_PATH_64 为企业视图节点配置驱动程序 使用企业视图节点,可以在共享的IBM®SPSS®CollaborationandDeploymentServicesRepository中创建并维护IBM®SPSS®Modeler会话和IBMSPSSCollaborationandDeploymentServicesEnterpriseView间的连接。
有关详细信息,请参阅第9章中的存储和部署IBMSPSSCollaborationandDeploymentServicesRepository对象中的IBMSPSSModeler14.2用户指南。
65配置UNIX启动脚本 要将企业视图节点用于IBM®SPSS®ModelerServer,必须安装并配置IBM®SPSS®CollaborationandDeploymentServicesEnterpriseViewDriver。
有关安装此驱动程序的详细信息,请与本地管理员联系。
安装后,必须在启动脚本中添加对pev.sh的引用(添加到modelersrv.sh、rc.modeler或同时添加到这两者中),格式如下: ./usr/odbc/pev.sh C附录 在UNIX上以非根进程方式运行 简介 这些说明提供了在UNIX系统上以非根进程方式运行IBM®SPSS®ModelerServer的相关信息。
以根进程方式运行。
SPSSModelerServer的默认安装程序会假设服务器守护进程以根进程方式运行。
以根进程方式运行允许IBM®SPSS®Modeler对每位用户的登录进行安全验证,并且会在对应的UNIX用户帐户上启动用户会话。
这样可以确保用户只能访问他们各自的文件和目录。
但是,可能会按照下列说明在非根帐户上运行守护进程。
以非根进程方式运行。
如果没有根权限,SPSSModeler将通过专有密码数据库(与UNIX密码数据库不同)对用户进行验证,并且会在相同的UNIX用户帐户上启动所有用户会话。
这表示所有SPSSModeler用户都会共享任何SPSSModeler读写的文件数据。
由于用户必须分别在所用的每个数据库数据源上验证自己的身份,因此对数据库进行的访问不会受到影响。
以非根进程方式配置IBMSPSSModelerServer 以非根进程方式运行IBM®SPSS®ModelerServer表示具有为所选帐户设置的服务器守护进程的真实有效的用户ID。
您必须仍然以root或root的su身份进行登录,以启动和停止服务器,然后执行常规管理。
要配置SPSSModelerServer在非根帐户上运行,请执行下列步骤:
1.创建包含所有用户的组。
可以为该组命名任意名称,例如,称它为modelerusers。

2.创建在其上运行SPSSModelerServer的用户帐户。
该帐户仅用于SPSSModelerServer守护进程。
换句话说,您无法使用该帐户启动和停止服务器,或执行常规IBM®SPSS®Modeler管理。
例如,称它为modelerserv。
创建帐户时,请注意下列事项: 帐户无需登录功能。
主要的组应为先前创建的组。
主目录可以是SPSSModeler的安装目录或任何其他适当的默认目录(如果需要通过 帐户来继续进行升级,请考虑使用除安装目录之外的目录)。

3.然后,配置启动脚本,以使用新建帐户启动SPSSModelerServer。
找到相应的启动脚本并在文本编辑器中将其打开。
有关详细信息,请参阅第57页码附录B中的脚本。
E在相应的脚本中,更改设置MODELERUSER变量的行以引用所建用户帐户的名称,从而运行SPSSModelerServer。
例如: MODELERUSER=modelerserv CopyrightIBMCorporation1994,2011. 66 67在UNIX上以非根进程方式运行 E更改umask设置,以允许在下列创建的文件上至少可以进行组读取访问: umask027
4.编辑服务器选项文件config/options.cfg,以追加下列行通过专有密码数据库指定验证: authentication_methods,"pasw_modeler"
5.然后,需要创建存储在文件config/passwords.cfg中的专有密码数据库。
密码文件定义允许登录到SPSSModeler的用户名/密码组合。
注意:这些用户名和密码仅供SPSSModeler使用,与用于登录到UNIX的用户名和密码无关。
为方便起见,可以使用相同的用户名,但不能使用相同的密码。
要创建密码文件,需要使用密码实用程序pwutil,该程序位于SPSSModelerServer安装程序的分级目录中。
该程序的概要如下所示: pwutil[username[password]] 该程序使用用户名和纯文本密码,并且采用适合于包含在密码文件中的格式将用户名和加密密码写入标准输出。
例如,要定义其密码为“datamining”的用户modeler,您可以键入以下内容: bin/pwutilmodeler"datamining">config/passwords.cfg 大多数情况下,定义一个用户名就足够了,这样所有用户都使用同一用户名和密码进行登录。
但是,也可以创建其他用户,方法是:通过使用>>运算符在该文件中追加每个用户,例如: bin/pwutilmodeler"dataminer2">>config/passwords.cfg 注意:如果使用一个>,则每次会覆盖passwords.cfg的内容,从而会替换先前设置的所有用户。
记住,无论创建多少用户,所有用户都会共享同一UNIX用户帐户。

6.递归式地将SPSSModeler安装目录的所有权以及其内容更改为用户和组,其中所引用的名称为先前所创建的名称。
例如: chown-R-hmodelerserv:modelerusers.
7.考虑为SPSSModeler用户在数据目录中创建子目录,以便他们有足够的空间在互不影响的情况下存储工作数据。
这些目录应按组进行分组,并具备组读写和组搜索的权限。
例如,为用户bob创建工作目录: mkdirdata/bobchownbob:modelerusersdata/bobchmodug=rwx,o=data/bob 另外,可以在目录上设置设置组ID位,以便任何复制到目录的数据文件自动按进行分组: chmodg+sdata/bob 68附录
C 在AIX上作为非根用户运行IBMSPSSModelerServer 当在AIX上作为非根用户启动SPSSModelerServer时,错误lsattr未找到可能将被打印到控制台。
这是因为lsattr位于/usr/sbin目录中,但是当SPSSModelerServer登录一个新用户(以作为非根运行)时会重置路径,只包括/usr/bin和/bin。
如果出现此错误,解决方案是在/usr/bin下创建以下链接: sucd/usr/binln-s/usr/sbin/lsattrlsattr 创建链接后,请重新启动SPSSModelerServer。
D附录 使用服务器群集负载均衡 对于IBM®SPSS®CollaborationandDeploymentServices,可使用名为进程协调器的插件来管理网络上的服务。
进程协调器提供了服务器管理功能,旨在优化客户端和服务器之间的通信和处理。
要管理的服务,如IBM®SPSS®StatisticsServer或IBM®SPSS®ModelerServer,在启动时使用进程协调器注册并定期发送更新的状态消息。
服务还可在IBM®SPSS®CollaborationandDeploymentServicesRepository中存储任何必要的配置文件,并在初始化时检索这些文件。
图片D-1进程协调器体系结构 在服务器上执行IBM®SPSS®Modeler流可以增强性能。
在某些情况下,只能选择一个或两个服务器。
在另一些情况下,由于各个服务器之间存在本质差异,如服务器所有者、访问权限、服务器数据、测试及制作服务器等,所以可选择的服务器很多。
此外,如果在网络上安装了进程协调器,则会向您提供一个服务器群集。
服务器群集是一组可以根据配置和资源互相交换的服务器。
进程协调器使用根据多个标准(包括服务器加权、用户属性和当前处理量)平衡负载的算法,确定最适合响应处理要求的服务器。
有关详细信息,请参阅《进程协调器服务开发人员指南》,可从IBMCorp.索取。
无论何时连接到SPSSModeler中的服务器或服务器群集,都可以手动输入服务器名称或使用进程协调器搜索服务器或服务器群集。
有关详细信息,请参阅第3章中的连接到IBMSPSSModelerServer中的IBMSPSSModeler14.2用户指南。
CopyrightIBMCorporation1994,2011. 69 E附录 注意事项 Thisinformationwasdevelopedforproductsandservicesofferedworldwide. IBMmaynotoffertheproducts,services,orfeaturesdiscussedinthisdocumentinothercountries.ConsultyourlocalIBMrepresentativeforinformationontheproductsandservicescurrentlyavailableinyourarea.AnyreferencetoanIBMproduct,program,orserviceisnotintendedtostateorimplythatonlythatIBMproduct,program,orservicemaybeused.Anyfunctionallyequivalentproduct,program,orservicethatdoesnotinfringeanyIBMintellectualpropertyrightmaybeusedinstead.However,itistheuser’sresponsibilitytoevaluateandverifytheoperationofanynon-IBMproduct,program,orservice. IBMmayhavepatentsorpendingpatentapplicationscoveringsubjectmatterdescribedinthisdocument.Thefurnishingofthisdocumentdoesnotgrantyouanylicensetothesepatents.Youcansendlicenseinquiries,inwriting,to: IBMDirectorofLicensing,IBMCorporation,NorthCastleDrive,Armonk,NY10504-1785,
U.S.A. Forlicenseinquiriesregardingdouble-bytecharacterset(DBCS)information,contacttheIBMIntellectualPropertyDepartmentinyourcountryorsendinquiries,inwriting,to: IntellectualPropertyLicensing,LegalandIntellectualPropertyLaw,IBMJapanLtd.,1623-14,Shimotsuruma,Yamato-shi,Kanagawa242-8502Japan. 以下段落不适用于英国或任何其他此类条款与其当地法律不一致的国家:SPSSINC.,IBMCOMPANY一员,“按原样”提供本出版物,不包含任何类型的保证,无论是明示或默示的,包括但不只限于不侵权的默示保证、适销性或适用特定目的。
一些国家不允许某些交易中明示或默示保证的免责声明,因此本声明可能不适用于您。
本信息可能包含技术不准确性或印刷错误。
我们将定期对以上信息进行更改;这些更改将出现在本出版物的最新版本中。
SPSSInc.可能在任何时候对本出版物中介绍的产品和/或程序进行改进而不另行通知。
本信息中引用的任何非SPSS和非IBM网站只用于参考目的,在任何情况下都不作为对这些网站的背书。
这些网站上的资料不是本SPSSInc.产品资料的一部分,同时您要自行承担使用这些网站的风险。
当您发送信息给IBM或SPSS时,您将授予非独占权利给IBM和SPSS,允许它以其认为合适的任何方式使用或分发这些信息而不承担任何责任。
有关非SPSS产品的信息分别来自这些产品的供应商、已出版的公告或其它公开的来源。
SPSS尚未测试这些产品,同时无法确认性能的准确性、兼容性或与非SPSS产品相关的任何其他声明。
如果对非SPSS产品的性能有任何疑问,请咨询这些产品的供应商。
CopyrightIBMCorporation1994,2011. 70 71 注意事项 Licenseesofthisprogramwhowishtohaveinformationaboutitforthepurposeofenabling:(i)theexchangeofinformationbetweenindependentlycreatedprogramsandotherprograms(includingthisone)and(ii)themutualuseoftheinformationwhichhasbeenexchanged,shouldcontact: IBMSoftwareGroup,Attention:Licensing,233S.WackerDr.,Chicago,IL60606,USA. Suchinformationmaybeavailable,subjecttoappropriatetermsandconditions,includinginsomecases,paymentofafee. ThelicensedprogramdescribedinthisdocumentandalllicensedmaterialavailableforitareprovidedbyIBMundertermsoftheIBMCustomerAgreement,IBMInternationalProgramLicenseAgreementoranyequivalentagreementbetweenus. Anyperformancedatacontainedhereinwasdeterminedinacontrolledenvironment.Therefore,theresultsobtainedinotheroperatingenvironmentsmayvarysignificantly.Somemeasurementsmayhavebeenmadeondevelopment-levelsystemsandthereisnoguaranteethatthesemeasurementswillbethesameongenerallyavailablesystems.Furthermore,somemeasurementsmayhavebeenestimatedthroughextrapolation.Actualresultsmayvary.Usersofthisdocumentshouldverifytheapplicabledatafortheirspecificenvironment. Informationconcerningnon-IBMproductswasobtainedfromthesuppliersofthoseproducts,theirpublishedannouncementsorotherpubliclyavailablesources.IBMhasnottestedthoseproductsandcannotconfirmtheuracyofperformance,patibilityoranyotherclaimsrelatedtonon-IBMproducts.Questionsonthecapabilitiesofnon-IBMproductsshouldbeaddressedtothesuppliersofthoseproducts. AllstatementsregardingIBM’sfuturedirectionorintentaresubjecttochangeorwithdrawalwithoutnotice,andrepresentgoalsandobjectivesonly. 本信息包含用于日常商业运营的数据和报告示例。
为了尽可能完整的阐明,这些示例包含个人姓名、公司、品牌和产品名称。
所有这些名称都是虚构的,任何与实际公司名称和地址类似的情况实属巧合。
Ifyouareviewingthisinformationsoftcopy,thephotographsandcolorillustrationsmaynotappear. 商标 IBM、IBM徽标、和是IBMCorporation在全球多个国家注册的商标。
有关IBM商标的当前列表,请访问公司网站,网址为/legal/copytrade.shmtl。
SPSS是,已在全球多个国家注册。
Adobe、Adobe徽标、PostScript和PostScript徽标是AdobeSystemsIncorporated在美国和/或其他国家的注册商标或商标。
ITInfrastructureLibrary是中央计算机与电信总局的注册商标,该局目前是英国商务部的一部分。
72附录
E Intel、Intel徽标、IntelInside、IntelInside徽标、IntelCentrino、IntelCentrino徽标、Celeron、IntelXeon、IntelSpeedStep、Itanium和Pentium是IntelCorporation或其子公司在美国和其他国家的商标或注册商标。
Linux是LinusTorvalds在美国、其他国家或这两者的注册商标。
Microsoft、Windows、WindowsNT和Windows徽标是MicrosoftCorporation在美国、其他国家或这两者的商标。
ITIL是一个注册商标,以及英国商务部的注册社区商标,并在美国专利商标局注册。
UNIX是OpenGroup在美国和其他国家的注册商标。
CellBroadbandEngine是SonyComputerEntertainment,Inc.在美国、其他国家或这两者的商标,并许可使用。
Java以及所有基于Java的商标和徽标是SunMicrosystems,Inc.在美国、其他国家或这两者的商标。
LinearTape-Open,LTO,theLTOLogo,Ultrium,andtheUltriumlogoaretrademarksofHP,IBMCorp.andQuantumintheU.S.andothercountries. 其他产品和服务名称可能是IBM、SPSS或其他公司的商标。
索引 64位操作系统,7allow_modelling_memory_override options.cfg文件,25auto.sh(UNIX) 的位置,57pression options.cfg文件,25cache_connection选项,30chemsrv.sh(UNIX) 的位置,57CLEM表达式 SQL生成,51ConnectforODBC 基于UNIX进行配置,59COP,15 服务器群集,69负载均衡,69COP配置适用于IBMSPSSModelerServer,27cop_enabledoptions.cfg文件,27cop_hostoptions.cfg文件,27cop_passwordoptions.cfg文件,27cop_port_numberoptions.cfg文件,27cop_service_descriptionoptions.cfg文件,27cop_service_hostoptions.cfg文件,27cop_service_nameoptions.cfg文件,27cop_service_weightoptions.cfg文件,27cop_update_intervaloptions.cfg文件,27cop_user_nameoptions.cfg文件,27data_file_pathoptions.cfg文件,24data_files_restrictedoptions.cfg文件,24DB2SQL优化,42–43IBMSPSSModeler,1文档,2IBMSPSSModelerAdministrationConsole,20管理员访问权限,21IBMSPSSModelerServerCOP配置,27password,12temp目录,24不响应进程,19与客户端的不同结果,17主机名,12,14 供最终用户阅读的信息,16域名(Windows),12文件创建,16日志文件,23服务器进程,28用户ID,12用户帐户,16用户验证,16监视使用情况,28端口号,12,14,23管理,20管理员访问权限,21管理选项,20进程协调器配置,27配置选项,22IBMSPSSModelerServer的硬件建议,7IBMSPSSStatistics数据文件导入和导出,11IBMSPSSStatistics数据访问技术,9IBMSPSSStatistics许可证位置,30IBMSPSSTextAnalytics,2io_buffer_sizeoptions.cfg文件,25LDAP,35安全,35log_database_essoptions.cfg文件,23log_database_errorsoptions.cfg文件,23log_directoryoptions.cfg文件,23log_file_essoptions.cfg文件,23log_file_errorsoptions.cfg文件,23max_file_sizeoptions.cfg文件,24max_login_attemptsoptions.cfg文件,23max_parallelismoptions.cfg文件,25max_sessionsoptions.cfg文件,23max_sql_string_lengthoptions.cfg文件,26memory_usageoptions.cfg文件,25messages.log文件,36MicrosoftSQLServerSQL优化,42–43modelling_memory_limit_percentageoptions.cfg文件,25ODBC数据源ConnectforODBC和UNIX脚本,59和UNIX,59 73 74 索引 options.cfg文件,29Oracle SQL优化,42–43,55password IBMSPSSModelerServer,12port_number options.cfg文件,23program_file_path options.cfg文件,24program_files_restricted options.cfg文件,24RAM,9rc.modeler(UNIX) 的位置,57SPSSModelerServer,1SQL 优化Oracle,55查看模型块,47查询,54重复列名,54预览生成的,46SQLServerSQL优化,42–43SQL回送。
请参阅SQL生成,42SQL生成,38,42–43,49CLEM表达式,48,51启用,45对IBMSPSSModelerServer启用,26提示,48日志记录,40,46查看模型块,47流重写,48预览,40,46sql_generation_enabledoptions.cfg文件,26@SQLFN函数,54SSL,31概述,31确保通信安全,31SSL数据加密对IBMSPSSModelerServer启用,27ssl_certificate_fileoptions.cfg文件,27ssl_enabledoptions.cfg文件,27ssl_private_key_fileoptions.cfg文件,27ssl_private_key_passwordoptions.cfg文件,27stream_rewriting_enabledoptions.cfg文件,25temp目录适用于IBMSPSSModelerServer,24temp_directoryoptions.cfg文件,24UNC文件名,10 UNIX库路径,64用户验证,16配置文件权限,59 UNIX上的内核函数限制,19UNIX内核函数限制,19UNIX脚本 auto.sh,57modelersrv.sh,57rc.modeler,57编辑,58URL前缀,35临时文件,8权限(IBMSPSSModelerServer),16主机名IBMSPSSModelerServer,12,14优化,38SQL生成,42–43,45体系结构组件,5内存,9内存管理管理选项,25加密SSL,31单点登录,13商标,71回送,38,42–43,45,49CLEM表达式,51在UNIX上IBMSPSSModelerServer的状态,18停止IBMSPSSModelerServer,18启动IBMSPSSModelerServer,18在Windows上IBMSPSSModelerServer的状态,18停止IBMSPSSModelerServer,18域名(Windows)IBMSPSSModelerServer,12处理器,7多个,25多个流执行,26安全LDAP,35SSL,31文件创建,16配置UNIX中的文件创建,59安全套接字层,31层,数据库支持,9并行处理启用,38控制,25应用程序示例,2建模内存管理,25性能IBMSPSSModelerServer,38执行流时出现错误,26 操作系统64位,
7 数据库支持层,9访问,
9 数据库内挖掘,41数据库内高速缓存,29数据库服务器,41数据库连接 关闭,30数据库高速缓存 SQL生成,48从options.cfg中控制,29数据文件IBMSPSSStatistics,11导入和导出,11数据访问,9数据访问包ConnectforODBC(基于UNIX进行配置),59UNIX中的ConnectforODBC故障排除,61和UNIX库路径,64针对下列对象配置UNIX,59文件使用权限在IBMSPSSModelerServer上,16基于UNIX进行配置,59文件名UNIX,10Windows,10文档,2日志文件显示生成的SQL,40,46适用于IBMSPSSModelerServer,23,36服务器添加连接,14登录,12通过COP搜索服务器,15服务器的自动启动基于UNIX进行配置,57服务器端口设置options.cfg文件,25模型块查看SQL,47死进程,IBMSPSSModelerServer,19法律注意事项,70流重写,48启用,38消息显示生成的SQL,40,46添加IBMSPSSModelerServer连接,14–15用户IDIBMSPSSModelerServer,12用户帐户IBMSPSSModelerServer,16用户验证,16登录到IBMSPSSModelerServer,12硬盘,
9 75 索引 磁盘空间,8计算,
8 示例应用程序指南,2概述,
3 端口号IBMSPSSModelerServer,12,14,23 端口设置options.cfg文件,25 管理IBMSPSSModelerServer,20IBMSPSSStatistics许可证位置,30 管理员访问权限适用于IBMSPSSModelerServer,21 紫色节点,38SQL优化,43 结果Client和Server之间的差异,17取整,17记录顺序,17 缓存压缩,25节点 支持SQL生成,49节点缓存 SQL生成,48写入数据库,48路径,10运算符SQL生成,51进程,不响应,19进程协调器,15服务器群集,69负载均衡,69进程协调器配置适用于IBMSPSSModelerServer,27连接服务器群集,15至IBMSPSSModelerServer,12,14–15通过COP搜索连接,15配置选项COP,27IBMSPSSModelerServer,20SQL字符串长度,26SSL数据加密,27temp目录,24内存管理,25并行处理,25性能和优化,25数据文件访问,24日志记录,23概述,22流重写,25登录尝试,23端口号,23自动SQL生成,26进程协调器,27连接和会话,23 76 索引 防火墙设置options.cfg文件,26 预览SQL生成,46 验证,16高速缓存,数据库内,29

标签: #换行 #邮箱 #cdr #平局 #雷暴 #csgo #枪法 #宝箱