第三届“泰迪杯”全国大学生数据挖掘竞赛,第三届“泰迪杯”

网络语言 11
全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:一等奖作品单位:华南师范大学作品成员:赵晓荣叶呈成黄佳锋指导老师:薛云 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 基于深度学习的电热水器评论数据挖掘分析 摘要:近年来,随着互联网的广泛应用和电子商务的迅速发展,网络文本及用户评论分析意义日益凸显,因此网络文本挖掘及网络文本情感分析技术应运而生,通过对文本或者用户评论的情感分析,企业能够进行更有效的管理等。
本文针对电商平台的电热水器的评论数据,利用基于半监督递归自编码(RAE)的深度学习模型,进行评论的情感分析。
为了保证评论数据挖掘分析的质量和全面性,我们重新从京东和苏宁易购平台爬取了评论数据集,对数据进行预处理——评论“去空、去重”、中文分词、停用词过滤等,再利用半监督RAE深度学习模型对这些评论进行情感分析。
之后,本文主要进行两个方面的数据挖掘分析工作:一方面是根据不同品牌电热水器的评论数据情感分析结果,提炼出各个品牌产品的差异化卖点;另一方面是根据不同电商平台的评论数据情感分析结果,进行不同电商平台的服务质量比较,进而可以使电商平台根据自身优势吸引消费者。
关键词:深度学习,情感分析,RAE,差异化卖点 第1页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip DataMiningonCommentsofElectricwaterheaterBasedonDeepLearning Abstract:Recently,withthewideapplicationofandtherapiddevelopmentofmerce,worktextanduserreviewanalysisisofgreatsignificance,textminingandsentimentanalysisworktextariseatthehistoricmoment,andtheemotionalanalysisofthetextormentsismoreeffectiveinenterprisemanagementandsoon.Electricbusinessplatform,thispaperapplyadeeplearningmethodbasedonsemi-supervisedrecursiveencoding(RAE)onanalysisoftheemotionmentswhichusersdeliveredaboutelectricwaterheater.Inordertoensurethequalityofthedatamininganalysis,wecrawledthementsdatasetsfromJingdongandSuningplatform.Thenwementsdataonwiping"emptyandheavy"out,Chinesewordsegmentation,filteringwords,wordfrequencystatistics,etc.Nextweanalyzesentimentonmentsusingamethodbasedonsemi-supervisedRAE.Later,thispaperanalyzedmentsintwoaspectsofdataminingwork:ontheonehand,ordingtosentimentanalysisresultofmentsofdifferentbrandelectricwaterheater,extractingdifferentiationofvariousbrandproductssellingpoint;Ontheotherhand,ordingtomentsofdifferentelectricbusinessplatformdatasentimentanalysisresults,paredifferentelectricbusinessplatformofservicequality,andelectricbusinessplatformcantakemeasurestoattractconsumersordingtotheirownadvantages. Keywords:deeplearning;sentimentanalysis;RAE;differentiationofsellingpoint 第2页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 目录
1.挖掘目标....................................................................................12.分析方法与过程.........................................................................1 2.1.总体流程.........................................................................................................1
2.2.具体步骤.........................................................................................................2
2.3.结果分析

.......................................................................................................18
3.

结论..........................................................................................

204.参考文献..................................................................................21 第1页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip
1.挖掘目标 本次建模针对电商平台上关于电热水器的评论数据,采用基于半监督RAE深度学习模型的数据挖掘方法,达到以下两个目标:1)利用半监督RAE模型对同一品牌电热水器的评论进行情感分析,根据分析 结果得到用户针对各属性的满意度,从而提炼出该产品的优势和劣势。
分析不同品牌电热水器的评论数据,提炼出其差异化卖点。
2)对不同电商平台对应相同电热水器的评论数据进行情感分析,根据分析结果得出各个电商平台服务的优势与劣势。

2.分析方法与过程 2.1.总体流程 图1总体流程图 第1页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 本用例主要包括以下几个步骤:步骤一:爬取网络评论数据,评论数据的获取是本次数据挖掘分析的第一步。
本文中利用火车头数据采集器,对评论文本进行抽取,最后将评论文本批量存进txt文件中,得到实验数据。
步骤二:数据预处理,直接从网上爬取的评论数据中往往不能直接分析需要进行数据预处理。
第一步要“去空、去重”;第二步对评论数据进行中文分词,将一句评论分成多个词语进一步分析;第三步进行停用词过滤,去除掉评论中与情感判定不相关的词。
步骤三:文本矩阵转化,使用基于半监督RAE深度学习模型进行情感分析,需要将文本词语全部转换为词向量,本论文中构建了一个词表和词向量表,词表中为全部文本词语和词语的编号,词向量表中为全部词语的词向量。
步骤四:情感分析,构建基于半监督RAE的深度学习模型,利用选出的积极、消极评论各占一半左右的数据集训练情感分析模型,并进行测试,得到符合要求的模型。
利用构建的模型分析得出评论数据的情感倾向。
步骤五:属性提取并统计,将所有提及到电热水器的某些属性的评论数据从实验数据集中筛选出来,统计各个属性相关评论数据的积极评论和消极评论占该产品的积极评论和消极评论的百分比。
步骤六:结果分析,根据分析结果提取产品的差异化卖点或者每个电商平台的竞争优势和劣势,进而制定合适的营销策略。
2.2.具体步骤 步骤一:爬取网络评论数据随着电子商务的迅速发展,网购的消费者越来越多,他们不再只是被动的获 取网络知识,而是可以通过网络发表产品评论来分享自己的用户体验,而评论中所包含的丰富信息,对企业管理具有重要的价值。
通过数据挖掘等技术手段实现对客户评论的智能分析,商家可以获得客户对产品的意见和态度,获取网络评论数据中的有价值的信息,做出相应的营销策略和产品改进方案等。
而网络数据挖掘分析的第一步就是爬取网络评论数据。
本次论文中采用火车头数据采集器爬取网上评论数据,将批量的URL存放 第2页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 进采集队列中,设置采集内容的规则,从评论网页上爬取实验需要的评论文本数据,详细步骤如下:1)采集网址规则 我们首先采集美的F50-21W6的评论数据,打开它的评论页面我们要采集的评论共有6065条,分203页显示,如图2所示: 图2美的F50-21W6评论页面为采集该商品的所有评论数据,这里采用批量网址采集,将203个网址导入进行数据采集,如图3所示: 第3页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图3批量网址采集规则设置 2)设置采集内容规则为了抽取出网页中有用的网络商业评论信息,还需要对采集内容规则进行设 置。
首先在京东网上打开美的F50-21W6的评论页面,可以看到在京东网上评论的标签为“心得”。
接下来打开该页面的源代码,搜索到“心得”部分,可以发现它的结构如下:
心得:
不错!性价比非常高!
其中的“不错!性价比非常高!”就是我们想要的网络商业评论文本。
最后,根据评论在HTML文档中的结构分布,设置采集内容规则,如图4所示 第4页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图4采集内容规则设置 3)结果发布为了后续研究工作的方便,本文选择将采集到的网络商业评论存储在同一个 txt文件中,文件编码为”UTF-8”,最终得到一个存储全部评论文本的txt文件。
美的F50-21W6的评论示例如下: 美的电热水器质量不错,价格比店里要便宜。
物流给力机子不错很好很好看也很实用,配送很快,安装师傅人也很好的。
头天下单,第二天就到货安装好了,非常满意 本文实验中:从京东上选择了三个品牌的电热水器的评论数据进行抓取——美的F50-21W6、海尔EC5002-
D、格兰仕G50E302T,用于提炼不同品牌产品的差异化卖点;从苏宁易购上爬取了美的F50-21W6电热水器的评论数据,用于比较和京东电商平台的服务特点。
本次实验数据见附件。
第5页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 步骤二:数据预处理与数据库中的结构化数据相比,从网页上爬取的数据属于半结构化或者非结 构化数据,即具有有限的结构,或者根本就没有结构,即使具有一些结构,也是着重于格式,而非文档内容,不同类型文档的结构也不一致。
此外,网页数据缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现有价值的信息,因此有些数据挖掘技术并不适用于网络文本挖掘,即使可用也需要建立在对网络文本数据进行预处理的基础之上。
如果要对网络评论数据进行情感分析,就必须先将文本数据进行预处理,转化为结构化的数据。
该步骤中,从以下几个方面对步骤一中从网页上爬取的评论数据进行预处理。
1)“去重”、“去空” 对于存储了全部网络商业评论的txt文件,每行代表了一个评论文本但是难免会出现两个完全一样的文本和一些空行。
所以本文首先进行了“去重”、“去空”的预处理工作。
在导入评论文本时,同时进行了是否为空的判断,只导入不为空的文本,从而过滤掉了空白文本,“去空”的程序段如图5所示: 图5“去空”程序段将非空的评论文本导进List后,再进行去除重复处理,过滤掉重复的评论文本,“去重”的程序段如图6所示: 第6页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图6“去重”程序段2)中文分词 中文分词(ChineseWordSegmentation),也可称为中文切词,指的是通过某种特定的规则,将中文文本切分成一个一个单独的词。
本文使用NLPIR汉语分词系统(又名ICTCLAS2015)进行分词,它是中科院张华平博士主持开发的中文汉语分词工具,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。
新增微博分词、新词发现与关键词提取功能。
本文用到了在NLPIR官网上下载到的NLPIR.dll程序包,在MicrosoftVisualStudio2012编程环境中用C#高级语言程序对NLPIR.dllC++程序包进行调用,实现对网络商业评论文本进行批量分词处理和词性标注。
主要程序段如图7所示: 第7页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图7批量中文分词程序段分词结果示例:分词前:物流快!服务好!物品嘉!分词后:物流/n快/a!/wt服务/v好/a!/wt物品/n嘉/b!/wt从上述结果可以看出,本文已经将网络商业评论文本切分成一个个的词语,“/”后面是对应词语的词性标注(如:“v”代表动词,可对照中科院《计算所汉语词性标记集》)。
3)停用词过滤评论文本在经过去重、去空、中文分词后,并非所有的剩下的词语都可以作为特征词,里面还有一些包含的信息量很低甚至没有信息量的词语,需要将它们过滤掉,否则将会影响下文的分析的正确率。
在信息检索中,为节省存储空间和 第8页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 提高搜索效率,在处理自然语言之前会自动过滤掉某些字或词,这些字或词即被称为Words(停用词)。
本文采用了“词性+停用词表”的过滤方法。
在上文已经提到了中文分词后的词语还带有词性的标注,所以本文根据中科院《计算所汉语词性标记集》将上述停用词词性都写进wordPropsList里面,如图8所示,然后对每个分词后的文本进行遍历扫描,把对应词性的词语全部过滤掉。
图8停用词词性列表(部分)为了把评论文本中包含的停用词过滤干净,本文还利用了《哈工大停用词表》进行辅助过滤,在词性过滤后再把文本中存在于停用词表的词语过滤掉,进一步过滤掉评论文本中的停用词。
停用词过滤结果示例:分词后:第一/m次/qv在/p苏宁/nz易/ad购/vg购买/v,/wd购买/v和 售/v后/f都/d很/d满意/v,/wd不仅/c优惠/vn事/n,/wd下次/t继续/v合/v又/c省/n作/v停用词过滤后:第一苏宁易购购买购买售后都很满意优惠事 下次继续合省作 经过上述步骤的数据预处理后,实验数据的数量如下表1所示:表1预处理后的评论数据数量 京东美的F50-21W6 1381 京东海尔EC5002-D 1293 京东格兰仕G50E302T 1636 苏宁美的F50-21W6 2775 第9页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 步骤三:文本矩阵转化目前,在文本情感分析中,主要的研究方法还是基于机器学习的方法。
如果 想利用机器学习的方法进行情感分析,第一步就是要找一种方法将文本数据特征符号数学化,将文本数据转化为计算机可以识别的数字信息。
最初的学者利用传统的One-hotRepresentation的方式实现文本矩阵转化,建立一个词库向量维度等于词表大小,某句文本评论中出现某个词语,该词语对应的维度的值为
1,不出现则为
0,用这种方法建立的文本矩阵是一个维数较大且稀疏的向量矩阵,使后面情感分析的计算量大大增加,且准确率不高。
本文中是将词语用一个n维实数向量去表示,其基本的思想是通过训练,将语料中的词语映射到n维实数向量,这种词语的表示方式优于One-hotRepresentation方法,n维向量不但包含了词语间的潜藏语义关系,同时也避免了维数灾难。
RonanCollobert和JasonWeston于2008年推出SENNA系统,使用词向量方法去完成自然语言处理中的各种任务,例如,词性标注、命名实体识别、短语识别、语义角色标注等。
本文中也利用词向量的方法将文本数据转化为结构化的向量矩阵,进一步进行情感分析。
1)向量化概述 文本矩阵转化的第一步就是词向量化,顾名思义,词向量化即用空间向量模型表示各个词语,进而提高计算机对自然语言的处理能力。
词向量具有良好的语义特性,是表示词语特征的常用方式。
情感分析中把对文本内容的处理简化成对一定长度的向量的处理时,通常使用较低维度的空间向量来表示词语的特征,避免数据维数灾难。
词向量中每一维的值代表一个具有一定的语义和语法上解释的特征。
词向量化后便可以将评论的文本数据转化向量矩阵了。
通常情况下,我们将词语w映射到n维空间向量,即wRn,一个文本或者句子中含有m个词语,把这m个n维空间向量堆放在一起,就得到整个文本或句子的空间向量模型——
个词向量矩阵LRmn。
例如给定句子c含有m个词语,1in,wi为句子c的空间向量矩阵L中的第ki列,即可wiLekiRn,ekRm,且除了第ki个分量为
1,其余分量 i 第10页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 均为
0.将一个文本或者一句评论映射成一个词向量矩阵后,即将中文文本数据转化 成计算机可以识别的信息格式,继而利用基于递归自编码的深度学习方法进行情感分析。
2)文本矩阵转化过程 通过编写程序产生随机的向量词表,每个词对应一个唯一的词标识号和词向量,如图9和图10所示,例如“认识”的词标号为
3,在词向量表中,列号为3对应的列向量便是标识“学会”的词向量。
词向量表生成后,通过扫描,将每句评论转化成一个词向量矩阵,将中文文本数据转化成数字数据——计算机可以识别的数据信息,进而进行文本情感分析。
此步骤的详细实现程序见附件。
图9词表 第11页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图10词向量表步骤四:情感分析 情感分析自从2002年由BoPang提出之后,获得了很大程度的关注,特别是在在线评论的情感倾向性分析上获得了很大的发展。
文本情感分类在情感分析研究中占有举足轻重的地位,在信息爆炸的21世纪,海量数据的情感分类研究吸引了很多的研究者,如何深入学习文本的语义信息,准确表达语义特征,提高情感分类的准确性是研究的目标。
目前,情感分析的主要研究方法还是一些基于机器学习的传统算法,例如,SVM、信息熵、CRF等,机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮。
以往的情感分析主要是采用浅层学习,但是无法学习文本语义信息,随着技术的发展和科技的进步,人们的要求也随之越来越高。
在大数据的分析和处理上浅层学习存在的弊端导致情感分析遇到了瓶颈,因此人们将焦点转移到了可以改善这一弊端的深度学习的研究。
2003年Bengio等人提出用神经网络构建二元语言模型的方法;2006年,机器学习领域的泰斗,加拿大多伦多大学教授GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表文章,从此开启了在学术界和工业界对深度学习的研究浪潮,他们提出来两个观点:其
一,多隐层的人工神经网络具备着优异的学习特征的能力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务;其
二,深度神经网络在训练的时候存在一定的难度,这些可通过 第12页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip “逐层初始化”(layer-wisepre-training)的方法来有效的克服掉,在文章中是采用无监督学习来完成逐层初始化的工作的。
2006年,Hinton等人基于深信度网络(DBN,DeepBeliefNets)提出了非监督学习的贪心逐层训练算法,给解决深层结构中相关的优化难题带来了希望,之后提出了多层自动编码器的深层结构。
后来,Lecun等人采用的是卷积神经网络(CNNs,ConvolutionalNeuralNetworks),这是第一个真正具有多层结构的学习算法,它使用空间的相对关系来减少参数数目进而提高BP训练性能。
2011年,Socher提出基于递归自编码器(RecursiveAutoEncoder,RAE)的树回归模型用来分析句子的情感倾向性,本文引用Socher提出的半监督RAE的深度学习模型进行情感分析。
1)半监督RAE的情感分析模型概述a.传统的递归自编码(简称RAE) 传统的递归自编码(简称RAE)是自编码方法的一个变种,它属于深度学习一种方法,近年来被Socher等人应用于情感分析领域,这种深度学习的方法是多隐层的神经网络结构,可以逐层分析,优化每一层学习得到的特征向量表示,因此它抽取的文本特征向量可以更准确的表达语义信息,提高分类结果。
自编码的作用是学习输入数据隐含的特定结构,传统的自编码会对输入给定一个树结构,图11表示的就是一个给定的递归自编码的树状结构,此时假设我们给出一个句子的词向量的列表xx1,,,xm,错误!未找到引用源。
上 一层节点以及二叉树结构的输入用一个包含一个父节点和两个子节点的三元组表示:pc1c2。
每个子节点可以是一个输入字向量xi或者是树中的非终端节点。
以图11为例,我们有以下三元组:y1x3x4,y2y1x2,y3y2x1,其中隐层 表示yi必须与词向量xi的维度相同。
第13页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图11递归自编码的树结构 从这种树状图中,我们可以计算父节点的表示。
这第一个父节点向量yi通 过子节点c1,c2x3,x4: p  f 1 (w c1;c2 1 b)
(1) 其中, 1 w  Rn2n 是参数矩阵, 1 b 是偏差,n 为空间向量的维度。
我们乘以 1n2n两个并置子节点参数矩阵wR错误!未找到引用源。
,加入偏差项之后, 我们把每个结果带入函数中如双曲正弦中去评估所得到的向量,此外,通过增加 重构层(图中空心部分)重构该父节点的子节点的方式判断得到的父亲节点是否
能够很好的表示子节点信息,评估的方法之一就是如何更好的用n维向量表示为了重构在重构层的子节点。
c ';c '  2 w p  2 b  12 
(2) 训练过程中,目标是最小化重构子节点与原来的子节点之间的误差,即重构 误差。
图中矩形框中的部分是RAE方法中的一次迭代计算,在每次迭代中,采 用欧氏距离衡量衡量重构误差,如公式所示 
1 2 Erec([c1,c2])c1;c2c1';c2'
2
(3) 至此,一个三元组的向量表示确定,而树形结构中的其他三元组的计算也采 第14页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 用相同的计算方法,实质上,就是重复上述动作,直至重构误差达到设定的阈值。
b.基于半监督RAE的深度学习模型 传统的RAE递推自编码是完全无监督和一般情况下多字词组的语义捕捉,他的一个缺点就是词与词之间没有建立联系。
我们扩大传统无监督RAE的应用范围到半监督RAE,引入半监督RAE的机制,预测句子或者短语的情感分布。
它的核心思想在于计算文章中的交叉熵误差(cross-entropyerror)和重构误差(reconstructionerror)。
在半监督RAE中,在每一个父节点上增加一个简单的softmax层,辅助预测类分布: d(p;)softmax(wlabelp)
(4) 假设有K个情感标签,dRK是K维向量分布而且k1dk1(如果只有两类情 感分布:积极和消极,此时便是2位向量分布[0,1]或者[1,0])。
图12,表示的 就是一个半监督RAE过程,让tK成为多项指标标签t中的第k个元素项,这 softmax层的输出作为条件概率dkP(k|c1,c2)的表示,因此,交叉熵误差是 
K EcEp,t;k1tklogdkp;
(5) 图12半监督RAE的非终端树节点半监督的RAE最终用下式表示语料库中的每对(句子,标签): 第15页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip
1
2 JE(x,t;) N(x,t)
2
(6) 每个实体的误差由贪婪RAE方法构造的二叉树上的所有节点的误差的总和构 成: Ex,t;sT(RAE(X))Ec1;c2s,ps,t,
(7) 每个非终端节点的误差由它的重建误差和交叉熵误差构成: Ec1;c2s,ps,t,Erecc1;c2s;1EcEps,t;
(8) 上式中的为超参数,表示节点的重构误差在总误差中所占权重。
使用这个模型时预测句子的情感分布时,利用树的的顶节点的向量表示,并 训练简单的逻辑回归分类器。
2)情感分析过程a.构建半监督RAE的模型 通过人工标记,得到积极、消极评论各占一半左右的数据集用于模型的构建,将经过预处理和文本矩阵转化的数据集作为输入,通过以下步骤构建半监督RAE深度学习模型(本实验中的训练集和测试集是在模型训练过程中按照分别占60%和40%随机分配的)。
训练模型:训练数据集作为输入,利用L-BFGs算法训练模型,实现程序见 附件;评价模型:将随机生成的测试集用来测试上一步中构建的半监督RAE模型 并进行评价在情感分析研究中,常用的评价指标有准确率,召回率,F值等,本文中采用的是准确率。
本次建模的测试结果如图13所示,用测试集测试模型,达到了85.13%的准确率; 第16页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图13模型测试结果情感分析:利用上一步中构建的半监督RAE深度学习模型,分析本次实验 的实验数据,分析得到每句评论的情感倾向性,结果如图14所示:第k列的情感标签表示相应停用词过滤后的评论数据中第k行的评论的情感倾向性,0表示消极,1表示积极。
京东美的F50-21W6、京东海尔EC5002-
D、京东格兰仕G50E302T、苏宁美的F50-21W6的评论情感分析结果分别存在mlabel.mat、hlabel.mat、glabe.mat、Slabel.mat文件中,数据文件见附件。
图14情感分析结果步骤五:属性提取并统计 本步骤主要是结合步骤三得到词表和步骤四得到的情感分析结果,进行统计,得到包含某属性的评论数据中积极、消极评论所占的百分比。
继而分析用户对产品的某个属性或者电商平台的服务的满意程度。
1)根据步骤三中生成的词表提取出属性相关词并分类,结果如图15所示,每 个属性对应的是步骤三中的词表中属性相关词的编号。
前面11个是电热水 第17页 泰迪杯大学生数据挖掘竞赛论文报告 器的属性,后3个是电商平台的服务质量的属性。
www.tip 图15属性相关词提取结果2)利用程序遍历,统计分析得出包含某个属性相关词的评论数据中的积极评论 与消极评论的数量,和各自占该商品的与该属性相关的所有评论数量的比重。
具体实现程序见附件。
2.3.结果分析 将上述步骤五得到的结果进行以下几个方面的详细分析:1)同一电商平台销售的同一产品的不同属性分析,提炼该商品的竞争优势与劣 势,并提出产品改进方案。
a.京东美的F50-21W6的各个属性的积极百分比值比较结果如图16所示,该电 热水器最大的特点就是能耗较低,而对于美的公司来说,电热水器的加热和控制方面需要进一步的技术改进,以更好的吸引消费者。
第18页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 图16京东美的F50-21W6的各个属性的积极百分比值b.京东海尔EC5002-D的各个属性的积极百分比值比较结果如图17所示,海尔 的这款电热水器能耗、价格、加热等方面较有优势,为了提高该产品的销售额,吸引更多消费者,海尔公司应该在产品的外观和使用控制方面进一步的改进。
图17京东海尔EC5002-D的各个属性的积极百分比值c.京东格兰仕G50E302T的不同属性的积极百分比值比较结果如图18所示, 格兰仕的该款电热水器最大的特色就是水流方面质量非常好,此外能耗方面也是比较符合用户需求的,该产品在外观和热水器控制方面可以做进一步,提高销售额。
图18京东格兰仕G50E302T的各个属性的积极百分比值2)针对同一个属性,比较不同品牌的电热水器的差别,提炼出各个品牌的差异 化卖点。
结果如图19所示,对于美的该款电热水器来说,竞争优势不是特别大,但是相比海尔的这款产品,在售后、能耗、材料等方面有一定的竞争优势;海尔的这款电热水器价格实惠,用户对它的加热也比较满意,但在其 第19页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 他方面没有什么优势了;格兰仕的这款电热水器整体上竞争力较强,能耗低较能吸引更多的消费者。
图19三个品牌各个属性的比较结果3)不同电商平台间的服务质量比较,各个属性相关评论中积极评论百分比结果 如图20所示,京东在质量、物流、售后、价格方面的服务质量均比苏宁易购的高,说明京东是一个比较受消费者欢迎的购物平台,但在售后和价格方面仍有提升空间;相比之下,苏宁易购没有什么明显竞争优势,该平台可以首先考虑从商品价格和质量上做些改进,以吸引更多消费者(注:由于实验中使用的数据有限,关于电商平台的比较结果可能不具有代表性)。

3.结论 图20不同电商平台的比较 总结本次比赛,我们根据网上的电热水器评论数据的特点,利用构建的半监督RAE深度学习模型进行情感分析,统计分析出评论数据的情感倾向性以及用户对每个产品或者电商平台的某个属性的满意程度。
实现了本次的挖掘目标:提 第20页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 炼出来不同品牌电热水器的差异化卖点和产品改进方案;得到了两个电商平台的竞争优势与劣势。
本次评论数据挖掘分析的过程中,每一步都通过程序实现,进行了大量的数据挖掘分析工作,实验中的每一步都有理有据,各个步骤之间联系密切,条理清晰且系统地完成了本次数据挖掘分析工作。
但是在实验过程中依旧遇到了很多瓶颈问题,例如关于产品或者电商平台的属性分析问题,本次实验中的情感标签分为积极和消极,利用每句评论的情感倾向性,去估测用户对某个属性的满意程度,属于粗粒度的情感分析。
在之后的研究学习过程中,我们将继续针对某属性,进行以下两个方面的细粒度情感分析: 1)将属性的情感标签多级量化进行情感分析。
2)细粒度分析某属性,因为一个句子中可能对多种属性进行了评论,不同 属性的评论可能情感不一致,将一个句子继续细分,分析其中每个属性的情感倾向性。

4.参考文献 [1]梁军,柴玉梅,原慧斌,等.基于深度学习的微博情感分析[J].中文信息学报,2014,Vol.28No.5:155-161[2]朱少杰,基于深度学习的文本情感分类研究.哈尔滨工业大学:硕士学位论文.2014[3]SocherR,PenningtonJ,EricH.H.,etal.Semi-SupervisedRecursiveAutoencodersforPredictingSentimentDistributions[C].EMNLP.2011[4]张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010.Vol.13No.6:84-96[5]王继成,潘金贵,张福炎.Web文本挖掘技术研究.计算机研究与发展,2000,Vol.37,No.5[6]QuocLe,TomasMikolov.DistributedRepresentationsofSentencesandDocuments,cs.CL,2014.05[7]孙莹.基于Web文本挖掘的企业口碑情感分类模型研究.华中师范大学:硕士学位论文.2013.05[8]王雅思.深度学习中的自编码器的表达能力研究.哈尔滨工业大学:硕士学位论文.2014[9]徐德.关于互联网文本数据挖掘的一些关键技术研究.电子科技大学:硕士学位论文.2011[10]祖李军,王卫平.中文网络评论中提取产品特征的研究.计算机系统应用.2014 第21页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 第22页 泰迪杯大学生数据挖掘竞赛论文报告 www.tip 第23页

标签: #计算机 #软件 #快捷键 #阳性 #心肺 #java #有什么 #激活码