数据分析与数据挖掘
陈永强主编
这本书为什么好?
他涉及了除神经网络以外的几乎所有数据挖掘方法我来给你推荐一本好书吧,这个我也给别的提问的人推荐过、模型
给出了十分具体、解释
非常详细具体的解释了数据模型的各种结果、参数的数学意义
并且几乎所有模型都给出了实际案例分析
详细的图解,让你可以形象的了解如何操作SPSS软件,每个选项,我推荐你看这本书,它能让你对数据挖掘的理解立体,反馈不错
《SPSS多元统计分析方法及应用》
清华大学出版社
朱星宇、按钮的意义、会导致什么结果
如果你是市场人士、扎实,有理论还有实践,并且详细到了具体细节、深入的数学推导
数据挖掘类的国际顶尖会议有哪些?
顶级:SIGKDD
二流:ICDM,SDM ,EDBT等
上面是专门的数据挖掘会议,其他像SIGMOD,VLDB,ICDE等数据库类会议都会有专门的数据挖掘session ,下面是有人专门总结的,引用一下:
一流的:数据库三大顶级会议SIGMOD,VLDB,ICDE,数据挖掘KDD,实际相关的还有机器学习ICML,还有信息检索的SIGIR;数据库的理论会议PODS,但它是理论的会议所以和咱们就不大相关了
二流的:EDBT,ICDT,CIKM,SDM,ICDM,PKDD,还有ECML欧洲的机器学习会议(这个应该是1.5档的,比一般的二流好)
SIGMOD:97分,数据库的最高会议,涉及范围广泛,稍偏应用(因为理论文章有PODS)。没说的,景仰如滔滔江水。这个会议不仅是double-blind review,而且有rebuttal procedure,可谓独树一帜,与众不同。
VLDB:95分,非常好的数据库会议。与SIGMOD类似,涉及范围广泛,稍偏应用。
从文章的质量来说,SIGMOD和VLDB难分伯仲,没有说谁比谁更高。他们的范围也几乎一样。
不少牛人都认为,今年的rebuttal procedure其实并不怎么成功。投稿太多,很难做到每一
篇都公平公正。很多rebuttal没人看。
double-blind是把双刃剑。这几年来每年都有人冒充牛人的风格来投稿,有的还真进去了。
反而VLDB的审稿质量一直很高。每年的VLDB都有很理论的paper。
一般来说,我感觉大家还是认为SIGMOD要好那么一点点。根据我个人读过的文章,也有这样的感觉。不过这个并不重要了,有差别也是那么一点。
PODS:95分。是“数据库理论的最好会议,也是一个很好的理论会议”。每年总是co-located with SIGMOD。感觉其中算法背景的人占主流(你可以数数PODS文章中有多少来自Motwani group),也有一部分AI背景的人(毕竟SIGART也是主办者之一)。它的影响力远不及SIGMOD,然而其中文章的质量比较整齐,variance小于SIGMOD(以及其他任何数据库会议)。有一位牛人说:“PODS never had a really bad paper,”这是它值得骄傲的地方。
KDD::full paper 95分,poster/short paper 90分。数据挖掘的最高会议。由于历史积累不足以及领域圈子较小,勿用讳言KDD目前比SIGMOD尚有所不如。我觉得我们可以这样类比:KDD:SIGMOD=CRYPTO:STOC。回顾密码学的历史,真正最牛的文章一般发在STOC/FOCS而非C
RYPTO/EUROCRYPT,这和今天的数据挖掘何等类似!然而你看看今天的密码学文章,已经有顶级的密码学家(恕我不便写出名字)不再往STOC/FOCS投稿。我觉得同样的事情在不久的将来也会发生在数据挖掘中,让我们拭目以待。
这几年来KDD的质量都很高。其full paper的质量高于SIGMOD/VLDB中数据挖掘方面的paper的质量。原因是SIGMOD/VLDB审稿人中数据挖掘的人很少,审稿标准不一定能掌握得很好。
这几年好几篇SIGMOD/VLDB的数据挖掘paper都follow一些KDD的paper。而在KDD,要拿一篇full paper真难。去年复旦拿了一篇,实属难能可贵。今年他们又拿了一个SIGMOD demo,说明工作的确很扎实。
听说在很多地方,如果能有一篇SIGMOD/VLDB/KDD,就能博士毕业,能有两篇就能找到不错的工作。“革命尚未成功,同志仍需努力!”
ICDE:92分。很好的数据库会议,也是一个大杂烩。好处是覆盖面广、包容性强,坏处是文章水平参差不齐。
EDBT:88分,不错的数据库会议,录取率很低然而历史积累不足,影响还明显不及ICDE。
ICDT:88分,PODS的欧洲版,数据库理论第二会议。
和SIGMOD/VLDB一样,ICDE和EDBT在质量和影响上都不相上下。
其它的如CIKM,ICDM,SDM,SSDBM,PKDD等等都比以上的会议差一截。
CIKM:85分。
SDM:full paper 90分,poster/short paper 85分。SIAM的数据挖掘会议,与ICDM并列为数据挖掘领域的第二位,比KDD有明显差距。好像其中统计背景的人比较多,也有一部分机器学习背景的人,比较iversified。
ICDM:full paper 90分,poster/short paper 85分。IEEE的数据挖掘会议,与SDM并列为数据挖掘领域的第二位,比KDD有明显差距。
PKDD:83分(因为poster/short paper数量很少,所以不予区分)。好像是KDD的欧洲版,但与KDD差距很大。