第三届“泰迪杯”全国大学生数据挖掘竞赛,第三届“泰迪杯”

热水器 3
全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:一等奖作品单位:南京财经大学作品成员:纪明明李翰林王攀指导教师:李冠艺 泰迪杯大学生数据挖掘竞赛论文报告 基于电商平台热水器的消费者需求及产品数据挖掘分析 摘要:本文对三大电商平台、六大热水器品牌和五大热水器类型的评论数据通过数据清洗、数据集成和融合、数据变换、数据规约等方法进行了预处理;在此基础上,使用情感词典和语义规则进行极性累加,进行评论的情感分析;最后采取了消费者决策的AHP-FCE(层次分析法与模糊综合评判)分析,结合参考百度指数及F-IDF评论词频得出的分层评判及模糊综合评判的数值化求解,最终得出对某一种类热水器品牌差异化评分,并得出及探究了各热水器品牌类型的用户购买原因和差异化卖点,实现数据挖掘后对数据的实际应用。
关键词:数据预处理、情感分析、层次分析、模糊评判 第1页 泰迪杯大学生数据挖掘竞赛论文报告 Datamininganalysisbasedonwaterheatersconsumerdemandandproductofmerceplatforms Abstract:Thispapermentsdatathreemercialplatforms,sixwaterheaterbrandsfivewaterheatertypestoimplementdatapreprocessingthroughdatacleaning,dataintegrationandfusion,datachanging,anddataStatute.ThispaperusesemotionaldictionaryandsemanticrulestoimplementsentimentanalysisbythemethodofPolarcumulative.Andthen,thispaperusesBaiduindexandfrequencyofmentstoachievethenumericalsolutionoflayeredevaluationandfuzzysyntheticevaluation,reachesthescoreofacertaintypeofwaterheaterbranddifferences,explorestheuserpurchasedcausesanddifferencesofsellingofdifferentwaterheaterbrandsandimplementspracticalapplicationofdatamining. Keywords:DataPreprocessing,SentimentAnalysis,AnalyticHierarchyProcess,FuzzySets 第2页 泰迪杯大学生数据挖掘竞赛论文报告
一、研究目标
二、分析方法与过程 (一)总体流程(二)具体步骤
1.数据获取
2.数据处理(三)结果分析
1.情感分析
2.AHP-FCE分析
三、结论
四、参考文献 目录 第1页 泰迪杯大学生数据挖掘竞赛论文报告
一、研究目标 本次数据挖掘通过火车头和八爪鱼两个软件实现,通过对三大电商平台、六大热水器品牌和五大热水器制热类型的热水器进行价格、型号、评论时间、评论数据的挖掘,获取到电商平台数据后,对数据进行处理,剔除造假数据和无意义数据。
对处理过后的数据进行分析,运用情感分析方法分析评论数据,发掘用户情感倾向,进一步分析个热水器产品的优势和劣势、差异化买点和用户个性化需求。

二、分析方法与过程 (一)总体流程 数据获取:通过火车头和八爪鱼两个软件实现,通过对三大电商平台、六大热水器品牌和五大热水器制热类型的热水器进行价格、型号、评论时间、评论数据的挖掘。
数据处理:通过简单的对评论数据去重以后,对接下来的数据进行数据清理,以此对含噪、错误、确实、冗余的数据进行处理;在数据集成和融合的基础上,再对数据进行数据变换以此使数据规范化;最后对数据进行数据规约,并以可视化呈现。
数据分析:采用了情感分析和AHP-FCE分析法。
情感分析主要通过情感词典和语义规则的方法进行分析,在此基础上进行极性累加;AHP-FCE分析首先对购买的决策层级进行划分,再对AHP进行定性描述,最后对购买决策FCE进行综合评判。
(二)具体步骤
1.数据获取 根据中国网商行情系统数据,截至2014年6月,我国电商平台热水 第1页 泰迪杯大学生数据挖掘竞赛论文报告 器销售市场份额情况如下图所示,天猫商城、京东商城和苏宁易购位列电商平台销售市场份额前
三,其中天猫商城占整个市场份额的46.7%,京东商城占37.8%,苏宁易购占8.7%,其余6.8%是其他电商平台(国美、易迅等)所占市场份额。
由于销售市场份额前三的电商平台所占市场份额之和已达到所有电商平台销售市场份额的90%以上,所以我们的数据主要从天猫商城、京东商城和苏宁易购采集,并且采集的数据具有足够的代表性。
其次,根据品牌划分,我国电商平台的热水器品牌市场份额中,万家乐、美的、海尔、万和、阿里斯顿和能率六个品牌位列市场份额前
六,总计占电商平台市场份额的81.6%,所以在数据采集时,主要采集天猫、京东、苏宁易购三大电商平台中,该六个品牌的热水器的数据。
第2页 泰迪杯大学生数据挖掘竞赛论文报告 根据淘宝指数数据,在2014年5月至2015年5月期间,各种类型的热水器的销售市场份额占比如上图所示,电热水器、燃气热水器即热式热水器位列前
三,紧随其后的分别是空气能热水器和太阳能热水器,以上五种热水器类型占到了整个市场的94.27%。
因此,在采集数据时,我们选择了以上五种类型的热水器进行评论采集,使得采集的数据具有充分的代表性。

2.数据处理 数据处理是数据分析过程中最花费时间、最乏味的,但也是最重要的一步.该步骤处理得当,可以有效地提升数据质量,减轻下一步工作量,并作为数据精准分析的基础.本文数据处理的过程主要分为以下几步: 1)数据粗处理 在充分采集三个电商平台相关数据的基础上,获取了海量而驳杂的数据。
出于评论内容真实有效的考虑,在整个数据集中,本文选取了三个无效属性进行并集删除操作(A∪B∪C),分别为:
A.评论项为空
B.评论不含中文
C.不含关键词的评论作为预处理之前的粗处理,京东、天猫和苏宁三个平台的平均去除率在7.3%左右。
2)数据预处理 a)数据清洗 与资讯,微博不同,商品评论文本的噪声更少,除了粗处理去除的无效数据,主要就在于商家恶意刷的重复评论。
在对文本的进一步观察和相应网站的考证基础上,再次发现了大量短时间内不断重复的虚假评论。
基于层次分析法的模型,采用凝聚层次聚类的算法,对整个数据集中的五个相关联的属性进行交集删除操作(A∩B∩C∩D∩E),分别为:
A.评论时间(不同评论相隔60s以内) 第3页 泰迪杯大学生数据挖掘竞赛论文报告
B.评论内容(100%相似度)
C.相同平台
D.相同品牌
E.相同型号三家电商平台热水器的清洗结果见表1: 电商平台平均去重率 京东36.4% 天猫39.7% 苏宁90.0%以上 b)数据集成和融合 本文的集成合并多家电商平台中采集到的多个热水器品类数据,存放到一个一致的数据存储中。
本文的融合仅限于数据层的数据融合,即把数据融合的思想引入到数据预处理的过程中,加入数据的智能化合成,产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断。
按照模式集成和对象匹配的原则,通过对数值属性的相关系数Rab(见公式1)的判定检测冗余,按照统一的构造集成融合,进而提升其后挖掘过程的准确度和速度。
其中,n是数据集样本个数, 分别是元组i中a和b的值, 分别是a和b的均值; 分别是a和b的标准差。
c)数据变换 本文进行数据变换的目的在于将多维数据压缩成较少维数的数据,消
除不同平台各型号热水器数据在时间、空间、属性及精度等特征表现方面的差异。
这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性,主要步骤如下: 数据平滑去噪,使连续数据离散化,增加粒度数据聚集对数据进行汇总;数据概化减少数据复杂度,用excel中的分类汇总使各数据落入指定条目区域属性构造。
第4页 泰迪杯大学生数据挖掘竞赛论文报告 d)数据规约 本文用数据规约技术得到数据集的规约表示,主要通过数据立方体聚集、属性子集的分类选择得到更易于处理的文本数据,且不损伤原始数据的完整性。

三、结果分析
1.评论情感分析 已采集的数据中,评论所体现的复杂信息含有很多隐藏价值,本文在此从情感分析的角度对其进行挖掘。
与传统较长的文本(新闻、博客、微博等)不同,商品的评论信息文本简短,字数一般在10-30字左右,语句随意,一条评论语句中除了文字信息,还穿插着标点符号商品评论的这些特征对文本的情感分析会产生一定影响,通常一条评论的情感与它所含符号的情感也是相符的。
例如~表达的一般是正面的情感。
本文采用基于情感词典和基于语义规则的两种方法,对处理后的评论进行情感分析。
1)基于情感词典的方法 词典资源是基于情感词典方法的前提,本文使用台湾大学ntusd(简体中文2810正面词语+8276负面性词语)和HowNet评价词词典(9,193个中文评价词语/短语)作为词库,然而词库有褒贬分类,但是没有标注情感极性强度。
本文把褒义词语的情感极性值设为0.7,贬义词语情感极性值设为-0.7,作为评判基准,采用极性累加的算法进行估算。
基于情感词典的方法首先对每条评论进行分词、词性标注等预处理,然后依据情感词典判断每条商品评论中出现的所有情感词以及强度,并采用极性累加的方法来计算每条评论的情感极性,算法如下: 其中:为一条微博中所含的情感词; 为一个情感词的情感极性; 为一条评论的情感极性;若结果大于零,评论为褒义倾向,若结果小于零,表明结果为贬义倾向,否则为中性。
2)基于语义规则的方法 考虑到基于情感词典的方法有着明显的缺点:对独立的词语来进行分析的,也就是把词语从句子中孤立出来,忽略词语的前后联系。
简单举例,海尔的热水器不好,只提取情感词难以得出正确的结论。
孤立地分析情感词,并不能完全正确地反映评论信息的情感倾向,必须将语句的联系考虑 第5页 泰迪杯大学生数据挖掘竞赛论文报告 进来,才能够提高分析的准确度。
因此,在词语情感计算的基础上,本文同时也着眼于语句中能够改变词语情感倾向或者情感强度的修饰副词等。
将会改变词语极性强度的修饰副词分为两类,第一类是否定词,它会改变极性倾向,比如上个例子的“不”就是反义;第二类是程度词,它会改变极性强度,如“比较”、“非常”等。
同时,简短的评论文本有其自身的特征,本文只考虑最高频出现的消息文本中的符号,如“!
”、“~”等符号,其他对评论文本的情感极性没有什么影响的,不予以考虑。
3)基于PMI-IR算法与搜索引擎结合进行分类 使用PMI-IR算法,以情感词语为中心,通过搜索引擎返回的结果来计算文本中的情感要索和背景情感词之间的点互信息值,从而对文本进行情感分类,方便下一步情感词汇的整合。
a)情感词汇 情感词是判断电热水器评论文本是否具有情感倾向的一个重要特征。
根据人们留言习惯和大量语料分析得知,人们在商品评论中反馈大多是通过情感词的形式实现的,情感词的褒贬也通常代表这句子的褒贬。
通常情况下商品评论文本中都是比较简单的句子,情感词的倾向很多时候决定了商品评论的情感倾向,情感词的数量和情感强度对每条商品评论的情感倾向有较大的影响,因此仍然采用极性累加的方法,即通过情感词极性累加的公式2来计算每条商品评论的情感极性。
b)细分程度副词语态 情感词典分析用词表中提供了程度级别词语,本文以此为基础,参考商品评论评论中高频出现的词汇添加人工整理的程度副词表,把程度副词分为三个级别。
第一级的程度词对所修饰的情感词的情感强度大大加强,例如“极”、“最”;第二级的程度词对所修饰的情感词的情感强度是加强作用,如“很”、“非常”。
第三级的程度词对所修饰的情感词的情感强度是削弱作用,如“有些”、“稍微”。
三个级别程度词对所修饰情感词的情感强度扩大倍数分别设置为第一级2倍、第二级1.5倍、第三级0.5倍。
倘若句子中情感词语前面有程度词修饰,那么被修饰的情感词语的情感强度必然发生改变,进而会影响到这个句子的情感强度。
一个程度副词后面可以有多个情感词,同样一个情感词也可以被多个程度副词所修饰。
本文处理程度副词的方法是把情感强度加到其后修饰的第一个情感词上,情感强度 对情感词w_i的影响因子σ定义为: 其中: 为程度副词的情感强度扩大倍数。
c)增加否定词影响 第6页 泰迪杯大学生数据挖掘竞赛论文报告 本文选取“不想、不会、不要、没有”等30个常见否定词作为否定副词表,并将其极性强度设置为-
1。
例如“没有配套的上门安装服务,虽然热水器很好”,在情感词前面加上否定词“没有”,整个句子的情感极性就会发生改变。
本文处理否定词的方法是将否定加到其后的第一个情感词上,当一个情感词前面出现不只一个否定词时,根据否定词出现的次数来判断情感词的极性。
出现奇数次则情感词的极性逆转,否则情感词的极性不发生改变。
所以,否定词对情感词w_i的影响因子ϵ定义为: d)增加符号的影响 很多买家在发布评论时喜欢加上一些表符号,比如“~”表示褒扬,“…”表示无语或不满等,本文将常用表情符号分为正向和负向两类。
一般情况 下,如果一条 包含表情符号,将正向和负向符号转化为上文程度 副词中的第三级词汇,再加以进行计算。
4)情感极性计算 综合考虑上述几个特征,使用公式3对评论信息的情感倾向值Polarity(T)进行计算: = 若Polarity(T)计算结果大于零,表明评论信息为褒义倾向,若结果小于零,表明评论信息为贬义倾向,否则为中性。
5)主客观判断 因为本文立足于无监督学习的方法,将采取人工检验的结果进行二次 检验。
本文将处理的不同子属性进行整理,分散给学校不同专业背景的成 绩正常的学生进行人工主客观判断,采用分级制度,用
0(不确定)、1(基 本确定)、2(确定)、3(非常确定)对结果进行标注,来达到主客观判断 的目的。
以预处理的一条子属性结果为例,对京东-能率-燃气热水器进行分析。
首先进行分词,词性标注等预处理,然后分别采用上文介绍的基于情感词 典的方法和基于语义规则的方法分析处理评论,最后分别得到正面、负面 和中性的评论数目,并且通过上文的主客观程度判断方法,计算
2种方法 的准确率(P)。
实验结果如表2所示。
方法 情感词典 增加语义规则 类别 自动识别数正确数准确率自动识别数确数准确率 能率 189 GQ-1150FE 107 56.4% 189 12867.8% 第7页 泰迪杯大学生数据挖掘竞赛论文报告 能率 3050 181859.6% 3050 208668.4% GQ-1350FE 能率 2519 148458.9% 2519 168366.8% GQ-1650FE 能率 2315 135658.6% 2315 152565.9% GQ-1070FE 能率 1699 980 57.7% 1699 114767.5% GQ-1180 AFE 能率 129 79 61.3% 129 9070.0% GQ-1680 AFE-
A 能率 91 46 50.2% 91 5965.1% GQ-1380C AFE 由表2

可以看出,结合基于语义规则分析的方法相对于基于情感词典 的方法在准确度方面有了明显的提升,极性累加的算法对于简短的热水器商 品评论的情感的自动判断已经达到了一定程度的准确率,可以对用户在选择 商品所查看评论的大体情感反馈中起到辅助决策的作用,具有实际商业应用 的价值。

2.

消费者决策的AHP-FCE分析 1)方法介绍 AHP(AnalyticalHierachyProcess,应用层次分析法)是匹兹堡大学
T.L.Saaty教授在20世纪70年代初期提出对定性问题进行定量分析的一种渐变灵活的多准则决策方案,其特点在于把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对有一定客观现实的主观两两比较,把专家意见和分析者的客观判断结果直接有效的结合起来,而后利用数学方法计算每一层元素相对重要性次序的权值,最终通过所有层次间的总排序计算所有元素的相对权重并进行排序从而分析消费者决策。
FCE(FuzzyComprehensiveEvaluation,模糊综合评判)20世纪80年代初,我国模糊数学领域的汪培庄教授提出了综合评判模型,并通过广大实际工作者的不断的补充发展,衍生出的适用于各种领域的评判方法。
模糊综合评判的过程可简述为:决策者将价目标看成是由多重因素组成的因素集
U,再设定这些因素所能选取的评审等级,组成评语的评判集合
V,分别求出各单一因素对各个评审等级的模糊矩阵,然后根据各个因素在评价中的权重分配,通过模糊矩阵合成,求出评价的定量值。
但是这两种方法各有利弊:AHP中的能够准确的对决策定性,但其决策过程过程需要经过大量数据比对来最终通过概率确定权重;而FCE中虽然有很好的定量评价但是无法很好地对决策定性。
因此我们通过对二者的结合来寻求更加完善的问题解决方案。
AHP-FCE模型需要经历以下三个步骤:①划分因素层 第8页 泰迪杯大学生数据挖掘竞赛论文报告 ②应用AHP构造消费者心理的隶属函数和因素权集合③对所求结果进行综合评判本次所建立模型需要经过两次模糊评判。
2)模型建立 i.模型概述 使用AHP与FCE对电商平台上热水器的购买决策分析。
ii.层次划分及指标权重的建立 本次数据挖掘处理所涉及到的变量有:电商平台,热水器功能,热水器品牌,为了说明其中 我们从存在竞争关系的品类中,选取定元和不定元,得出我们需要分析的问题为 ①同一品牌同一型号在不同电商平台的决策②相同功能,不同品牌的用户决策③相同品牌,不同功能的用户决策根据不同的定元选取,需要建立不同的层次划分:首先以体系a入手用户电商平台热水器购买指标体系的建立体系假设a:以用户购买同品牌同一产品分析 二级评判 用户购买同款热水器 天猫 京东 苏宁 一级评判 优惠力度 安装方便 售后服务 运送速度第9页 泰迪杯大学生数据挖掘竞赛论文报告 指标因素权重的确定:本次选取本次与处理后的评论数据,并从评论数据中提取关键字的方法来确认各个评判指标中两两比较生成的对比程度,构造判断矩阵 矩阵的元素代表与相比的重要程度,一般采用Saaty提出的1-9标度方法: 确定权值计算各指标的权值 1)计算判断矩阵每一行元素的乘积 2)计算的n次方根 3)权重计算,向量归一化 4)一致性检验偏差的一致性指标 第10页 泰迪杯大学生数据挖掘竞赛论文报告 RI为平均随机一致性指标 当CR小于0.1,矩阵一致性被认可5)分析评判矩阵 对于可能分析到的①对天猫用户购买热水器判断矩阵的因素权值计算 百度指数 1.0003.2472.9944.630 F-IDF评论权重 0.3081.0000.9211.550 0.3341.0861.0001.550 0.2160.7010.6451.000 0.0840.2710.2500.400 1.0000.4401.634 2.2721.0003.717 0.6120.2691.000 0.7380.3251.206 0.2470.1090.404 第11页 泰迪杯大学生数据挖掘竞赛论文报告 1.355 0.829 0.829 1.000 ②对京东用户购买热水器判断矩阵的因素权值计算百度指数 1.0001.5751.5025.102 0.6351.0000.9253.509 0.6661.0811.0003.509 0.1960.3080.2851.000 0.241 0.1070.1700.1590.564 F-IDF评论权重 1.0000.3481.3931.044 2.8731.0004.0000.758 0.7180.2501.0000.758 0.9580.3331.3201.000 0.2870.1000.3990.213 ③对苏宁用户购买热水器判断矩阵的因素权值计算百度指数 1.0003.1062.8656.135 0.3221.0000.9222.146 0.3491.0851.0002.146 0.1630.5060.4661.000 0.0760.2350.2160.473 第12页 泰迪杯大学生数据挖掘竞赛论文报告 F-IDF评论权重 1.0000.3761.9011.311 2.661.0005.0510.689 0.5260.1981.0000.689 0.7630.2871.4511.000 0.2410.0910.4580.211 ④对三种电商平台所提供的判断矩阵进行因素权值计算百度指数 1.0000.3974.405 2.5171.00011.111 0.2270.0901.000 0.2200.1100.670 F-IDF评论权重 1.0000.7166.944 1.3971.0009.709 0.1440.1031.000 0.1650.1280.706 6)综合指数数据得出综合权值向量天猫用户 第13页 泰迪杯大学生数据挖掘竞赛论文报告 京东用户苏宁用户对三种电商平台重要程度的二级综合评判 iii.热水器购买决策的模糊综合评判 1)应用最大隶属原则综合考虑相关因素,进行等级和类别评判。
①建立评判因素集
U 相应的评判因素集为取上一节的五个一级评判指标作为一级评判因素集,即: 取三种电商平台作为二级评价因素集,即: ②评语集V及因素在V上的隶属度将评判一级因素集合的评语分为五级,及评论集 将二级因素集合的评语同样分为五级 根据Satty提出1-9标度方法,相应的等级矩阵值③进行多层次模糊综合评判 第14页 泰迪杯大学生数据挖掘竞赛论文报告 U中个元素u,即各个评价项目包含不同的子因素,其影响权重不同,将其表现为U上的一个模糊子集
A,U中元素u对A的隶属度,有 且对评判矩阵R做加权模型 求多级评判的时,加权评判模型B构成次级评判矩阵并对次级④综合评价系数 归一化得 2)样本提取及数据采集从预处理后的某一个热水器评论集(见附件)分层提取有效评论集合。
3)进行一级评判选取一种热水器(以能率燃气热水器为例)在三种电商平台的评论结果 该热水器在天猫的对其各因素的评价集频数如下表 因素集
U (好) (较好)(一般)(较差)(差) (优惠) 3534 4507 1007 904 105 (安装) 1755 2877 4632 1247 207 (售后) 2043 1756 4672 2561 507 (配送) 1454 2716 2704 1720 104 令
因素集评判矩阵 ,且S为每行评论总数(行归一化处理),得出因素集单 则对第一种热水器的第一级综合评判结果为: 第15页 泰迪杯大学生数据挖掘竞赛论文报告 4)进行二级评判将上述计算结果B作为二级评判时的评价矩阵第一种热水器的综合评判结果 将综合评判结果归一化得综合价值系数 5)同理,对不同产品运用综合评判得出万和:万家乐:史密斯: 从评价结果得知,运用AHP-FCE对不同品牌的燃气热水器的评判结果为: 第16页 泰迪杯大学生数据挖掘竞赛论文报告 对比2014年燃气热水器市场份额,基本可以得出本次评判结果符合大众消费心理。
iv.基于百度指数的用户需求倾向性分析 结合百度指数中的热点新闻分析:以空气能为代表的更为高能效、清洁、安全的热水器将获得更多的政策性支持,并迎来新一轮的发展。
对一年的数据进行分析,以四季为区间:从全国的范围来看,人们在春夏两季的需求比较平淡,在秋冬两季的需求量开始猛增,商家可以针对消费需求衡量营销的主要时间和金钱投入比例,以达到最大的回报率 第17页 泰迪杯大学生数据挖掘竞赛论文报告 对月度的数据进行分析,按周为区间划分:分析发现,一般情况下的峰值都为周六或者周日,结合人们的购买习惯,商家可以把营销的重点细分,更多精力放在周末 结合百度知道的关键词提问分析:商家可以此针对自己的商品找出需要改进的问题,不断从消费者的角度出发,生产更符合市场需求的产品。
第18页 泰迪杯大学生数据挖掘竞赛论文报告 从地域和品牌的角度来分析:不同品牌可以结合自身情况,从地域的角度来调整自己的推广策略,从而提升广告投放的准度,同时市场份额在某些地域比较低的商家也可以学习该地区市场份额最高的竞争对手的模式,进一步开发市场 从人群属性的角度来分析:从目标年龄,性别的属性来划分,在不同人群集聚地做更为精准的推广
四、结论 本文是团队三人两周以来对于电商平台热水器消费者需求的数据挖掘分析这一命题,从认知到应用方法解决全程的总结。
文章可分为三个部分,也正好体现团队合作的三个阶段:
1.从数据挖掘的实现方法入手,结合运用八爪鱼、火车头等数据挖掘工具, 通过直接获取和官方数据二次挖掘得出原始数据;之后进行的数据粗、预处理,筛选有效数据并以此评判三个电商平台的差异化,对分析后期处理数据的提供了良好条件。

2.情感分析阶段,本文参考极限累加方法,基于情感词典和语义规则按照情感词的成分进行数值转化,对褒贬、中性词提取分析,并把情感强度转化为分析每条评论的情感数值。
通过统计学方法对情感分析结果的检验,基本满足置信区间。

3.在对用户需求分析方面,我们采取建立评价体系的数学建模思想,结合层次分析法和模糊综合评判的优点,对热水器选购构建一级和二级评价指标,结合参考百度指数及F-IDF评论词频得出的分层评判及模糊综合评判的数值化求解,最终得出对某一种类热水器品牌差异化评分,并得出及探究了各热水器品牌类型的用户购买原因和差异化卖点,实现数据挖掘后对数据的实际应用。
第19页 泰迪杯大学生数据挖掘竞赛论文报告
五、参考文献 [1].Applyingabilingualmodeltominemercesatisfactionsentiment.JournalofManagementAnalytics,2014.1
(4):p.285-300.[2].张紫琼,叶强与李一军,互联网商品评论情感分析研究综述.管理科学学报,2010.13
(6):第84-96页.[3].郑安怡,用于文本情感分析的特征加权改进算法.计算机工程与应用,2015.[4].赵文清,侯小可与沙海虹,语义规则在微博热点话题情感分析中的应用.智能系统学报,2014
(1):第121-125页.[5].谢丽星,周明与孙茂松,基于层次结构的多策略中文微博情感分析和特征抽取.中文信息学报,2012(01):第73-83页.[6].徐健,基于网络用户情感分析的预测方法研究.中国图书馆学报,2013(03):第96-107页.[7].张四维.AHP在优化高校教学活动管理研究中的应用[J].太原工业大学学报,1994,4:106-113.[8].周泽义,樊耀波,王敏健.视频污染综合评价的模糊教学方法[J].环境科学,2000,21
(3):22-26 第20页

标签: #房子 #好用 #哪个国家 #中国 #牛排 #主机名 #域名 #十大