2019/10/24
搜索引擎优化(SEO)
主讲:于俊清
参考教材
❖杨帆.SEO攻略,人民邮电出版社,2009❖JaimieSirovich著,邓少鹍译,搜索引擎优化高
级编程,清华大学出版社,2008❖JerriL.Ledford著,陈钢译.搜索引擎优化宝典,
清华大学出版社,2009
2 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 信息和信息资源 ❖信息 ▪人们通过感觉器官与外界进行交换的一切内容 ❖信息资源 ▪信息被视为一种客观存在的自然和社会财富,其来源称为信息资源
3 4 搜索引擎作用 ❖搜索引擎(searchengine) ▪指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
•摘自百度百科: ❖搜索引擎的核心价值 ▪让人们最便捷地获取信息,找到所求 网页浏览注意力”F现象” ❖用户对网页的浏览视线呈"F"型 ▪即网页浏览注意力"F现象" ❖倾向于在网页顶部阅读长句,随着网页越往下阅读兴趣降低 ❖每个网页内容开头应该包含重要信息
5 6
1 2019/10/24 搜索引擎应用情况 用户对搜索结果的关注度自然排序 ❖排名对点击率的影响 ▪排名前10名的网站占据了72%点击率▪排名第10-20之间的网站拥有17.9%点击率▪排名20以后的所有网站只有10%的点击率 ❖搜索结果第1位:100%❖搜索结果第2位:100%❖搜索结果第3位:100%❖搜索结果第4位:85%❖搜索结果第5位:60%❖搜索结果第6位:50%❖搜索结果第7位:50%❖搜索结果第8位:30%❖搜索结果第9位:30%❖搜索结果第10位:20%
7 8 Google关键词广告用户关注程度 ❖关键词广告第1位-50%❖关键词广告第2位-40%❖关键词广告第3位-30%❖关键词广告第4位-20%❖关键词广告第5位-10%❖关键词广告第6位-10%❖关键词广告第7位-10%❖关键词广告第8位-10% 结论 ❖如何提高网站的排名已经成为企业的提高知名度的主要途径之
一 ❖如何才能提高网站的排名呢? ▪竞价排名,出高价▪提高网站质量-搜索引擎优化
9 10 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 搜索引擎营销(SEM) ❖搜索引擎营销 ▪SearchEngineMarketing,SEM ❖SEM是一种新的网络营销形式,就是全面而有效地利用搜索引擎进行网络营销和推广 11 12
2 2019/10/24 搜索引擎营销的目标层次 搜索引擎营销的主要任务 ❖构造适合于搜索引擎检索的信息源❖创造网站/网页被搜索引擎收录的机会❖让网站信息出现在搜索结果中靠前位置❖以搜索结果中有限的信息获得用户关注❖为用户获取信息提供方便 13 14 搜索引擎对网络营销的主要作用 ❖网站推广❖产品促销❖网络品牌❖网上市场调研❖网站优化检测❖竞争者分析❖排他性(竞争性)营销手段❖作为网络广告媒体 搜索引擎营销知识演进 ❖第一阶段(1994-1999):无知识壁垒阶段 ▪了解主要搜索引擎(分类目录),免费提交网站信息▪搜索引擎优化思想萌芽 •针对搜索引擎的网站首页META标签 ▪最有“技术含量”的工作 •初步的META标签设计,全站通用 15 16 搜索引擎营销知识演进 ❖第二阶段(2000-2003):搜索引擎知识扩展阶段 ▪分类目录作用下降,搜索引擎逐渐成为主流▪主要的搜索引擎优化知识 •网站标题及每个网页的标题设计•每个网页的META标签设计、关键词选择、网站内容策略•网站地图、网站链接策略•搜索引擎关键词广告•选择搜索引擎平台•设计关键词组合、竞争状况分析、推广预算控制•点击率分析、用户转化率、网站流量统计分析 17 搜索引擎营销知识演进 ❖第三阶段(2004-):搜索引擎营销知识体系形成阶段 ▪搜索引擎营销组合策略▪搜索引擎营销目标层次▪规范的网站优化思想▪搜索引擎营销效果跟踪评价 18
3 2019/10/24 什么是搜索引擎优化? ❖搜索引擎优化 ▪SearchEngineOptimization,SEO▪含义:针对各种搜索引擎的检索特点,让网站建设和 网页设计的基本要素适合搜索引擎的检索原则(即搜索引擎友好),从而获得搜索引擎收录并在检索结果中排名靠前▪搜索引擎优化是搜索引擎营销的常见形式之一 19 什么是搜索引擎优化? ❖SEO属于SEM(搜索引擎营销)的范围,网络营销的重要部分 ❖SEO是一种技能,或一种工具❖SEO不是学术研究,没有很强的技术性,其本身 并不神秘,主要在于从实践中总结经验 20 搜索引擎优化的作用 ❖以搜索引擎友好度为标准,规范化网站,获得长远发展 ❖提高自然排名,获得可观流量以及流量所带来的价值转换 ❖网络品牌效应❖用户粘度 (附:艾瑞网2006年12的一份调查图表) 21 搜索引擎优化的作用 ❖建立长尾效应 ▪TheLongTailEffect▪所有非流行的市场累加起来就会形成一个比流行市场还 大的市场 22 搜索引擎优化的目标 ❖目标 ▪搜索引擎优化的着眼点不能只是考虑搜索引擎的排名规则如何 ▪更重要的是要为用户获取信息和服务提供方便▪搜索引擎优化的最高目标是为了用户,而不是为了搜 索引擎 ❖那么搜索引擎优化应该重视什么呢?
▪网站结构▪网站内容▪网站功能▪网站服务 23 搜索引擎优化能带来多大价值? ❖网站通过自然检索的访问量达到60-90%❖用户通过搜索结果感知对网站信息的信任❖用户来到网站可以获得有价值的信息和服务❖对提高用户转化率提供最大的支持❖对竞争者施加营销壁垒 24
4 2019/10/24 如何合理的进行SEO? ❖理念 ▪SEO一种综合策略▪遵循UCD(User-CenteredDesign) ❖站内优化 ▪网站结构优化(清晰,条理化)▪页面代码优化 •规范,Title,Meta,关键词密度,不利因素利用 ▪站内链接策略(网状链接、无死链) 如何合理的进行SEO? ❖站外环境优化 ▪搜索引擎,人工目录提交▪外部链接(保证质量,平衡发展数量)▪人际,合作,口碑效应❖站内优化与站外环境是相互结合 25 26 SEO效果观察/分析/改进 ❖利用统计观察SEO效果❖分析用户行为❖根据分析结果进行相应改进与完善 SEO应注意的一些问题 ❖自然 ▪站在搜索引擎角度思考 ❖简单 ▪差还有弥补的空间▪做过了影响很难消除 ❖全面 ▪多元化多方式▪从实战中积累经验 ❖远离黑帽技术 27 28 搜索引擎优化的基本工作内容 搜索引擎优化的基本步骤 ❖让网站有合理的结构和层次 ❖网站优化状况诊断 ❖为每个网页设置一个相关的标题 ❖网站核心关键词设计 ❖尽量使用静态网页,动态网页做优化处理 ❖竞争环境分析 ❖网页内容包含丰富关键词的文字信息 ❖网站栏目结构优化设计 ❖重视外部网站链接的数量和质量❖为搜索引擎访问网站提供方便❖保持网站一定的更新频率 ❖网站内容发布优化设计❖网站内容策略❖相关网站链接❖网站优化状况的跟踪管理 29 30
5 2019/10/24 SEO的管理 ❖Google沙盒效应 ▪新网站优待,然后正常▪新的高排名网站隔离检查3个月 ❖GoogleDance ▪Google的8个数据中心1万台服务器每月升级数据库,影响排名 ▪其间PR值、排名不稳定▪其间应加大提交、更新力度▪结束后分析调整策略 31 SEO管理 ❖搜索引擎对网站数据更新快慢的因素 ▪网站自身更新频率▪网站的结构▪服务器、带宽的性能▪PR值的高低▪总结:网站维护得力是搜索引擎经常更新数据的根本原 因 ❖网站流量统计 ▪服务器安装流量统计/采用第三方流量统计▪两个重要指标:访问来源、搜索关键词 32 建议 课程内容 ❖对于网站开发、设计人员,搜索引擎优化没有多少技术含量,不要因此而觉得工作没有挑战性 ❖搜索优化的效果是无数个细节问题的综合表现 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用 ❖搜索引擎优化没有大问题,但每个小问题都不能忽视 ❖细心,用心,耐心,责任心 3网站优化技术4Spam的识别和剔除 ❖不要采用任何作弊手段,不要做垃圾SEO 入迷+动手+动脑 33 34 对网站优化的认识 ❖网站优化=搜索引擎关键词排名?❖网站优化的三层含义: ▪对用户优化▪对搜索引擎优化▪对网站管理维护优化 ❖网站优化 ▪从网络营销总体策略高度进行的一项系统的工作,主要通过对网站结构、内容等基本要素的优化设计,为用户获取网站信息提供方便 网站优化设计的原则 ❖坚持用户导向而不是搜索引擎导向❖网站基本要素的优化是网站优化的基础 35 36
6 2019/10/24 网站优化与搜索引擎排名的关系 ❖网站优化 ▪全局性、系统性、效果持久性▪注重网站内部基本要素的优化▪以用户获取有效信息为基本出发点 ❖搜索引擎排名 ▪注重网站链接等外部因素,属于局部性的工作,并且仅仅关注少数重要关键词的排名位置,忽略用户的需求特征检索行为 ❖网站优化可以达到搜索排名的效果,搜索排名无法替代全面的网站优化 域名对SEO的影响 ❖IP ▪IP的地域、同一IP其他网站的影响 ❖二级域名与独立域名❖域名中的字符 ▪英文关键词、拼音关键词、分隔符用“-”▪不要用“_”或者没有分隔▪百度支持拼音更好,Google支持英文更好▪百度支持更好,Google支持更好 37 38 域名对SEO的影响 ❖工具 ▪查域名IP:▪IP反查:http://www.whois.sc/members/reverse- ip.html▪域名查询: 39 主机选择与SEO ❖重要内容不要用免费主机 ▪虚拟主机(数据量少、速度普通、价格低廉、维护简便) ▪专用主机(数据多、速度快、价格高、专业人员维护) ❖选择有信誉的主机提供商 ▪稳定、安全、速度、24小时客户服务 ❖主机转移❖完全可以没有任何间断 40 关键词策略 ❖核心关键词,围绕核心关键词排列组合产生关键词组及短句 ❖关键词选择技巧 ▪站在用户角度考虑▪将关键词扩展成系列词组及短语(可用 google/baidu/overture等工具)▪进行多重排列组合▪不要用太广泛的关键词 •例如电话区号查询不要用“电话” 关键词策略 ❖关键词选择技巧 ▪用自己的品牌做关键词▪使用地理位置 •例如027社区中的武汉二手电脑市场 ▪参考竞争者使用的关键词▪不用与自己无关的关键词 •不用无关热门词、竞争对手品牌 ▪控制关键词的数量 •一页三个词以内,太多词就做成多页 41 42
7 2019/10/24 关键词策略 ❖关键词密度 ▪网页文本中适当出现关键词▪关键词在网页文本中占的比例就是关键词密度,一般 在1%-7%范围内为佳▪不要不出现或者过分堆砌 关键词策略 ❖关键词分布 ▪网页代码中的标题title,meta标签 •关键词Keywords及描述description ▪网页正文最吸引注意力的地方 •顶部、左边、标题、正文前200字等 ▪超级链接文本(相关推荐、友情链接)▪Header标签 •
”、“=”、“%”、“&”、 “$”等符号对SEO很不利,应设法静态化网页 46 网页设计优化 ❖导航结构(栏目、菜单、帮助、布局等统称)▪主导航醒目清晰 •主栏目在首页第一屏醒目位置,用文字而非图片、Flash链接 ▪面包屑型路径 •主导航到目标网页的访问路径,例如:“一把刀实用查询:首页>生活类>疾病查询” ▪首页突出重要内容 •热点、重点反复突出 ▪使用网站地图 •静态、直观、扁平、简单,用户使用普通网站地图,google使用专门googlesitemaps 47 网页设计优化 ❖框架结构▪蜘蛛不喜欢框架,尽量不用frame▪一定要用的话要增加“Noframe”标签(内含关键词及链接)▪可用iframe,蜘蛛认为iframe中是另外一个无关页面 ❖图像优化▪蜘蛛看不懂图像,尽量不用图像▪为图片Alt增加搜索引擎可见的文本描述(含关键词),在图片周围增加描述文字、header▪压缩图像文件大小,减色、缩小、压缩分辨率、大图切割等 48
8 2019/10/24 网页设计优化 ❖Flash优化 ▪蜘蛛看不懂Flash,尽量不用Flash▪加辅助HTML版本▪Flash嵌入HTML文件 ❖表格使用 ▪用表格分隔长篇文字;不要内嵌套太多表格 ❖网页减肥 ▪采用CSS样式,美观、统
一、减肥▪JavaScript移到页面底部,可外置.js文件 49 网页设计优化 ❖动态页面 ▪蜘蛛难理解“?
”、“=”、“%”、“&”、“$”▪模拟静态化:建立静态入口,“静动结合、以静制 动”,重要内容静态化,不要怕麻烦,首页尽量用纯静态▪付费收录▪尽量不用“?
”、”SessionID”、参数不要超过2个 50 链接策略 ❖Google排名的重要依据:高质量外部链接的数量 ❖搜索引擎分类目录 ▪开放式目录ODP、Yahoo!、搜狐、网易、新浪等的分类目录 ❖免费登录、Yahoo!
的要求 ▪原创而非复制▪不作假、不作弊▪网站外观良好▪提交到正确目录▪记下提交日期、目录、编辑邮箱▪不要重复提交 51 链接策略 ❖付费登录:普通登录及固定排名❖高质量导入链接标准 ▪搜索引擎目录中的链接及已加入目录的网站的链接▪与你的主题相关或者互补的网站▪PR值不低于4的网站▪流量大、知名度高、频繁更新的重要网站▪具有很少导出链接的网站▪以你的关键词在搜索结果中排名前三位的网站▪内容质量高的网站 52 链接策略 ❖垃圾链接,对排名不起作用或者起反作用 ▪留言板、评论或者BBS中大量发帖夹带网站链▪已经加入太多导出链接的网站▪加入LinkFarm、大宗链接交换程序、交叉链接,与大 量会员网站自动交换链接 ❖以下办法不能增加链接广度 ▪点击付费的搜索引擎广告链接▪多层次的网络会员制联盟 53 链接策略 ❖如何获得高质量导入链接 ▪向搜索引擎目录提交网站▪寻找网站交换链接对象 •已经进入搜索引擎分类目录的相关网站、与你的竞争对手链接的相关网站、生意链中的对象,提供链接代码,一对一联系而不是垃圾邮件群发 ▪网站被主动链接或者转载▪在重要网站发表专业文章▪在所在的行业目录提交网站 ❖工具:link: 54
9 2019/10/24 链接策略 参考资料 ❖导出链接▪适量、适当的导出链接获得好印象▪但不要过多,一般控制在15个以下 ❖/❖ ❖内部链接▪增加相关文章等内部链接▪建立多个二级域名,子网站互相之间链接获得好印象 ❖消除死链接!检查工具:Xenu ❖❖/❖SEO论坛: ❖关键词链接文本及上下文语义 ▪导入、导出、内部链接的链接文本中含关键词会获得好印象;链接周围的上下文分析 55 56 SEO工具 ❖在线工具 ▪SEO论坛中“SEO工具”一帖建议收藏 ❖IBP(BusinessPromoter) ▪搜索引擎提交辅助软件 ❖SEOElite ▪网站链接观察/分析软件 ❖SEOMonitor ▪关键词排名观察工具 SEO工具 ❖搜索引擎及目录免费登录入口: ▪Google:/intl/zh-CN/add_url.html ▪百度:/search/url_submit.htm ▪中搜/Netsearch/pageurlrecord/frontpageurl.jsp ▪搜狐:/regurl/regform.asp?
Step=REGFORM&;class= ▪网易:/cgi-bin/search/add_url.cgi ▪新浪: ▪一搜:/search_submit,html?
source=yisou_www_hp ▪雅虎中国目录:(分类目录) ▪DMOZ目录:/World/Chiness_simplified(分类目录) ▪英文搜索引擎自动提交: 57 /searchsubmit.php 58 SEO工具 ❖域名与主机工具: ▪域名批量查询:http://www.whois.sc▪IP转换成域名:(查看 某IP地址下共享哪些域名。
免费注册) ❖关键字工具: ▪GoogleAdwords关键字工具:查询特定关键词的常见查询及扩展匹配▪/select/KeywordSandbox▪百度关键字工具:查询特定关键词的常见查询、扩展匹配及查询热度▪/inquire/dsquery.php▪搜狐关键字工具:关键字搜索热度▪/regurl/pv_price/query_consumer.asp▪网易关键字工具:关键字搜索热度▪/find_price.php▪Overture关键字使用频率工具(英文):特定关键词的常见查询及被查 询次数▪/d/searchinventory/suggestion▪关键字密度检查(英文):频繁出现的关键词及其密度▪www.seotoolkit.co.uk/keyword_density_analyser.asp 59 SEO工具 ❖内容与结构检测工具: ▪新竞争力网站专业性评价:\pingjia.htm(基于数千网站研究获得的120项评测指标) ▪蜘蛛程序模拟器:模拟蜘蛛可抓取到的文本及链接 ▪/search-engine-spider-simulator.php ▪/seotoolkit/spider_viewer.asp ▪URL检测工具:检测网站URL结构、无效链接等 ▪下载地址:/soft/XENU.ZIP ▪HTTP:///checklink ▪相似页面检测器:对比两个页面间的相似度,来判断是否有受到惩罚的危险 ▪/similar-page-checker.php ❖链接广度检测工具: ▪/so/(综合查询:含链接广度、PR、ALEXA) ▪/publinkpop(可同时与多个竞争对手网站进行比较) ▪(同时检测10个搜索引擎的收录情况) ▪www.seotoolkit.co.uk/link_popularity_checker.asp ▪www.123promotion.co.uk/directory/index.php(检测网站是否登录多 个重要分类目录) 60 10 2019/10/24 SEO工具 ❖
SEO效果检测工具: ▪/▪排名监测工具:网站以某一关键词在搜索引擎中的排名。
▪(查Google排名)▪/keyrank.php(查goole、yahoo排名)▪(注:由于排名检测占用了本来可以用来响应用户请求的服务器资源, 违反了Google服务条款。
因此Google强烈要求不要使用排名检查工具) ❖查看网页级别: ▪Google工具栏下载:(PageRank值)▪/pagerank.php(PageRank值)▪/seo-tools/future-pagerank(查看PR值是否处 于更新期间)▪/tools/webrank(Yahoo的WebRank值) ❖查看ALEXA网站访问量全球排名: ▪ALEXA工具栏下载:/index.cgi?
p=Dest_w_b_40_T1 ▪/sitepopularity.php 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 61 62 SearchEnginesDirectTraffic ❖SignificantamountoftrafficresultsfromSearchEngine(SE)referrals ▪E.g.JacobNielsen’ssite“HyperTextNow”receivesonethirdofitstrafficthroughSEreferrals ❖OnlysitesthatarehighlyplacedinSEresults(forsomequeries)benefitfromSEreferrals 63 WaystoIncreaseSEReferrals ❖Buykeyword-basedadvertisements❖Improvetherankingofyourpages ▪Providegenuinelybettercontent,or▪“Game”thesystem ❖“SearchEngineOptimization”isathrivingbusiness ▪SomeSEOsareethical▪Somearenot… 64 WebSpam DefiningWebSpam ❖WorkingDefinition ▪Spamwebpage:Apagecreatedforthesolepurposeofattractingsearchenginereferrals(tothispageorsomeother“target”page) ❖Ultimatelyajudgmentcall ▪Somewebpagesareborderlineuseless▪Sometimesapagemightlookfinebyitself,butin contextitclearlyis“spam” 65 66 11 2019/10/24 Whywebspamisbad ❖Badforusers ▪Makesithardertosatisfyinformationneed▪Leadstofrustratingsearchexperience ❖Badforsearchengines ▪Burnscrawlingbandwidth▪Pollutescorpus(infinitenumberofspampages!
)▪Distortsrankingofresults 67 DetectingWebSpam ❖Spamdetection:Aclassificationproblem ▪Givensalientfeatures,decidewhetherawebpage(orwebsite)isspam ❖Canuseautomaticclassifiers ▪Plethoraofexistingalgorithms(Bayes,C4.5,SVM,…) ▪Usedatasetstaggedbyhumanjudgestotrainandevaluateclassifiers(thisisexpensive!
) 68 DetectingWebSpam ❖Butwhatarethe“salientfeatures”?
▪Needtounderstandspammingtechniquestodecideonfeatures ▪Findingtherightfeaturesis“alchemy”,notscience ▪Spammersadapt–it’sanarmsrace!
TaxonomyofwebSpamTechniques ❖“Keywordstuffing”(关键词堆砌)❖“Linkspam”(链接欺骗)❖“Cloaking”(掩饰) 69 70 KeywordStuffing ❖Searchenginesreturnpagesthatcontainqueryterms ❖OnewaytogetmoreSEreferrals: ▪Createpagescontainingpopularqueryterms(“keywordstuffing”) ❖Threevariants ▪Hand-craftedpages(ignoredinthistalk)▪Completelysyntheticpages▪Assemblingpagesfrom“repurposed”content 71 ExamplesofSyntheticContent ization RandomwordsWell-formedsentencesstitchedtogether Linkstokeepcrawlersgoing 72 12 2019/10/24 ExamplesofSyntheticContent Someone’sweddingsite!
73 Featuresidentifyingsyntheticcontent ❖Averagewordlength ▪ThemeanwordlengthforEnglishproseisabout5characters ❖Wordfrequencydistribution ▪Certainwords(“the”,“a”,…)appearmoreoftenthanothers ❖N-gramfrequencydistribution ▪Somewordsaremorelikelytournexttoeachotherthanothers ❖Grammaticalwell-formedness ▪Alas,natural-languageparsingisexpensive 74 Reallygoodsyntheticcontent “NigritudeUltramarine”:Anpetition Linkstokeepcrawlersgoing Grammaticallywell-formedbutmeaninglesssentences Content“repurposing” ❖Contentrepurposing:Thepracticeofincorporatingallorportionsofother(unaffiliated)webpages ▪A“convenient”waytomachinegeneratepagesthatcontainhuman-authoredcontent ▪Notevennecessarilyillegal… ❖Twoflavors ▪Incorporatelargeportionsofasinglepage▪Incorporatesnippetsofmultiplepages 75 76 Exampleofpage-levelcontentrepurposing Exampleofpage-levelcontentrepurposing 77 78 13 2019/10/24 Techniquesfordetectingcontentrepurposing ❖Single-pageflavor:Clusterpagesintoequivalenceclassesofverysimilarpages ▪Ifmostpagesonasiteaverysimilartopagesonothersites,raisearedflag ▪(Therearelegitimatereplicatedsites;e.g.mirrorsofLinuxmanpages) ❖Many-snippetsflavor:Testifpageconsistsmostlyofphrasesthatalsoursomewhereelse ▪Computationallyhardproblem▪Haveprobabilistictechniquethatmakesittractable 79 Detour:Link-basedranking ❖Mostsearchenginesusehyperlinkinformationforranking ❖Basicidea:Peerendorsement ▪Webpageauthorsendorsetheirpeersbylinkingtothem ❖Prototypicallink-basedrankingalgorithm:PageRank ▪Pageisimportantiflinkedto(endorsed)bymanyotherpages ▪Moresoifotherpagesarethemselvesimportant 80 Linkspam ❖Linkspam:Inflatingtherankofapagebycreatingnepotisticallinkstoit ▪Fromownsites:Linkfarms(一组网页之间互相链接) ▪Frompartnersites:Linkexchanges ▪Fromunaffiliatedsites(e.g.blogs,guestbooks,webforums,etc.) ❖Themorelinks,thebetter ▪Generatelinksautomatically ▪Usescriptstoposttoblogs ▪Synthesizeentirewebsites ▪Synthesizemanywebsites(DNSspam) ❖Themoreimportantthelinkingpage,thebetter ▪Buyexpiredhighly-rankeddomains ▪Postlinkstohigh-qualityblogs 81 Linkfarmsandlinkexchanges 华中科技大学数字媒体实验室 82 Featuresidentifyinglinkspam ❖Largenumberoflinksfromlow-rankedpages❖Discrepancybetweennumberoflinks(peer endorsement)andnumberofvisitors(userendorsement)❖Linksmostlyfromaffiliatedpages ▪Samewebsite;samedomain▪SameIPaddress▪Sameowner(ordingtoWHOISrecord) ❖Evidencethatlinkingpagesaremachinegenerated 83 Cloaking ❖Cloaking:Thepracticeofsendingdifferentcontenttosearchenginesthantousers ❖Techniques: ▪Recognizepagerequestisfromsearchengine(basedon“user-agent”infoorIPaddress) ▪Makesometextinvisible(i.e.blackonblack)▪UseCSStohidetext▪UseJavaScripttorewritepage▪Use“meta-refresh”toredirectusertoother page ❖Hard(butnotimpossible)forSEtodetect 84 14 问题解答 85 2019/10/24 15
2 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 信息和信息资源 ❖信息 ▪人们通过感觉器官与外界进行交换的一切内容 ❖信息资源 ▪信息被视为一种客观存在的自然和社会财富,其来源称为信息资源
3 4 搜索引擎作用 ❖搜索引擎(searchengine) ▪指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
•摘自百度百科: ❖搜索引擎的核心价值 ▪让人们最便捷地获取信息,找到所求 网页浏览注意力”F现象” ❖用户对网页的浏览视线呈"F"型 ▪即网页浏览注意力"F现象" ❖倾向于在网页顶部阅读长句,随着网页越往下阅读兴趣降低 ❖每个网页内容开头应该包含重要信息
5 6
1 2019/10/24 搜索引擎应用情况 用户对搜索结果的关注度自然排序 ❖排名对点击率的影响 ▪排名前10名的网站占据了72%点击率▪排名第10-20之间的网站拥有17.9%点击率▪排名20以后的所有网站只有10%的点击率 ❖搜索结果第1位:100%❖搜索结果第2位:100%❖搜索结果第3位:100%❖搜索结果第4位:85%❖搜索结果第5位:60%❖搜索结果第6位:50%❖搜索结果第7位:50%❖搜索结果第8位:30%❖搜索结果第9位:30%❖搜索结果第10位:20%
7 8 Google关键词广告用户关注程度 ❖关键词广告第1位-50%❖关键词广告第2位-40%❖关键词广告第3位-30%❖关键词广告第4位-20%❖关键词广告第5位-10%❖关键词广告第6位-10%❖关键词广告第7位-10%❖关键词广告第8位-10% 结论 ❖如何提高网站的排名已经成为企业的提高知名度的主要途径之
一 ❖如何才能提高网站的排名呢? ▪竞价排名,出高价▪提高网站质量-搜索引擎优化
9 10 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 搜索引擎营销(SEM) ❖搜索引擎营销 ▪SearchEngineMarketing,SEM ❖SEM是一种新的网络营销形式,就是全面而有效地利用搜索引擎进行网络营销和推广 11 12
2 2019/10/24 搜索引擎营销的目标层次 搜索引擎营销的主要任务 ❖构造适合于搜索引擎检索的信息源❖创造网站/网页被搜索引擎收录的机会❖让网站信息出现在搜索结果中靠前位置❖以搜索结果中有限的信息获得用户关注❖为用户获取信息提供方便 13 14 搜索引擎对网络营销的主要作用 ❖网站推广❖产品促销❖网络品牌❖网上市场调研❖网站优化检测❖竞争者分析❖排他性(竞争性)营销手段❖作为网络广告媒体 搜索引擎营销知识演进 ❖第一阶段(1994-1999):无知识壁垒阶段 ▪了解主要搜索引擎(分类目录),免费提交网站信息▪搜索引擎优化思想萌芽 •针对搜索引擎的网站首页META标签 ▪最有“技术含量”的工作 •初步的META标签设计,全站通用 15 16 搜索引擎营销知识演进 ❖第二阶段(2000-2003):搜索引擎知识扩展阶段 ▪分类目录作用下降,搜索引擎逐渐成为主流▪主要的搜索引擎优化知识 •网站标题及每个网页的标题设计•每个网页的META标签设计、关键词选择、网站内容策略•网站地图、网站链接策略•搜索引擎关键词广告•选择搜索引擎平台•设计关键词组合、竞争状况分析、推广预算控制•点击率分析、用户转化率、网站流量统计分析 17 搜索引擎营销知识演进 ❖第三阶段(2004-):搜索引擎营销知识体系形成阶段 ▪搜索引擎营销组合策略▪搜索引擎营销目标层次▪规范的网站优化思想▪搜索引擎营销效果跟踪评价 18
3 2019/10/24 什么是搜索引擎优化? ❖搜索引擎优化 ▪SearchEngineOptimization,SEO▪含义:针对各种搜索引擎的检索特点,让网站建设和 网页设计的基本要素适合搜索引擎的检索原则(即搜索引擎友好),从而获得搜索引擎收录并在检索结果中排名靠前▪搜索引擎优化是搜索引擎营销的常见形式之一 19 什么是搜索引擎优化? ❖SEO属于SEM(搜索引擎营销)的范围,网络营销的重要部分 ❖SEO是一种技能,或一种工具❖SEO不是学术研究,没有很强的技术性,其本身 并不神秘,主要在于从实践中总结经验 20 搜索引擎优化的作用 ❖以搜索引擎友好度为标准,规范化网站,获得长远发展 ❖提高自然排名,获得可观流量以及流量所带来的价值转换 ❖网络品牌效应❖用户粘度 (附:艾瑞网2006年12的一份调查图表) 21 搜索引擎优化的作用 ❖建立长尾效应 ▪TheLongTailEffect▪所有非流行的市场累加起来就会形成一个比流行市场还 大的市场 22 搜索引擎优化的目标 ❖目标 ▪搜索引擎优化的着眼点不能只是考虑搜索引擎的排名规则如何 ▪更重要的是要为用户获取信息和服务提供方便▪搜索引擎优化的最高目标是为了用户,而不是为了搜 索引擎 ❖那么搜索引擎优化应该重视什么呢?
▪网站结构▪网站内容▪网站功能▪网站服务 23 搜索引擎优化能带来多大价值? ❖网站通过自然检索的访问量达到60-90%❖用户通过搜索结果感知对网站信息的信任❖用户来到网站可以获得有价值的信息和服务❖对提高用户转化率提供最大的支持❖对竞争者施加营销壁垒 24
4 2019/10/24 如何合理的进行SEO? ❖理念 ▪SEO一种综合策略▪遵循UCD(User-CenteredDesign) ❖站内优化 ▪网站结构优化(清晰,条理化)▪页面代码优化 •规范,Title,Meta,关键词密度,不利因素利用 ▪站内链接策略(网状链接、无死链) 如何合理的进行SEO? ❖站外环境优化 ▪搜索引擎,人工目录提交▪外部链接(保证质量,平衡发展数量)▪人际,合作,口碑效应❖站内优化与站外环境是相互结合 25 26 SEO效果观察/分析/改进 ❖利用统计观察SEO效果❖分析用户行为❖根据分析结果进行相应改进与完善 SEO应注意的一些问题 ❖自然 ▪站在搜索引擎角度思考 ❖简单 ▪差还有弥补的空间▪做过了影响很难消除 ❖全面 ▪多元化多方式▪从实战中积累经验 ❖远离黑帽技术 27 28 搜索引擎优化的基本工作内容 搜索引擎优化的基本步骤 ❖让网站有合理的结构和层次 ❖网站优化状况诊断 ❖为每个网页设置一个相关的标题 ❖网站核心关键词设计 ❖尽量使用静态网页,动态网页做优化处理 ❖竞争环境分析 ❖网页内容包含丰富关键词的文字信息 ❖网站栏目结构优化设计 ❖重视外部网站链接的数量和质量❖为搜索引擎访问网站提供方便❖保持网站一定的更新频率 ❖网站内容发布优化设计❖网站内容策略❖相关网站链接❖网站优化状况的跟踪管理 29 30
5 2019/10/24 SEO的管理 ❖Google沙盒效应 ▪新网站优待,然后正常▪新的高排名网站隔离检查3个月 ❖GoogleDance ▪Google的8个数据中心1万台服务器每月升级数据库,影响排名 ▪其间PR值、排名不稳定▪其间应加大提交、更新力度▪结束后分析调整策略 31 SEO管理 ❖搜索引擎对网站数据更新快慢的因素 ▪网站自身更新频率▪网站的结构▪服务器、带宽的性能▪PR值的高低▪总结:网站维护得力是搜索引擎经常更新数据的根本原 因 ❖网站流量统计 ▪服务器安装流量统计/采用第三方流量统计▪两个重要指标:访问来源、搜索关键词 32 建议 课程内容 ❖对于网站开发、设计人员,搜索引擎优化没有多少技术含量,不要因此而觉得工作没有挑战性 ❖搜索优化的效果是无数个细节问题的综合表现 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用 ❖搜索引擎优化没有大问题,但每个小问题都不能忽视 ❖细心,用心,耐心,责任心 3网站优化技术4Spam的识别和剔除 ❖不要采用任何作弊手段,不要做垃圾SEO 入迷+动手+动脑 33 34 对网站优化的认识 ❖网站优化=搜索引擎关键词排名?❖网站优化的三层含义: ▪对用户优化▪对搜索引擎优化▪对网站管理维护优化 ❖网站优化 ▪从网络营销总体策略高度进行的一项系统的工作,主要通过对网站结构、内容等基本要素的优化设计,为用户获取网站信息提供方便 网站优化设计的原则 ❖坚持用户导向而不是搜索引擎导向❖网站基本要素的优化是网站优化的基础 35 36
6 2019/10/24 网站优化与搜索引擎排名的关系 ❖网站优化 ▪全局性、系统性、效果持久性▪注重网站内部基本要素的优化▪以用户获取有效信息为基本出发点 ❖搜索引擎排名 ▪注重网站链接等外部因素,属于局部性的工作,并且仅仅关注少数重要关键词的排名位置,忽略用户的需求特征检索行为 ❖网站优化可以达到搜索排名的效果,搜索排名无法替代全面的网站优化 域名对SEO的影响 ❖IP ▪IP的地域、同一IP其他网站的影响 ❖二级域名与独立域名❖域名中的字符 ▪英文关键词、拼音关键词、分隔符用“-”▪不要用“_”或者没有分隔▪百度支持拼音更好,Google支持英文更好▪百度支持更好,Google支持更好 37 38 域名对SEO的影响 ❖工具 ▪查域名IP:▪IP反查:http://www.whois.sc/members/reverse- ip.html▪域名查询: 39 主机选择与SEO ❖重要内容不要用免费主机 ▪虚拟主机(数据量少、速度普通、价格低廉、维护简便) ▪专用主机(数据多、速度快、价格高、专业人员维护) ❖选择有信誉的主机提供商 ▪稳定、安全、速度、24小时客户服务 ❖主机转移❖完全可以没有任何间断 40 关键词策略 ❖核心关键词,围绕核心关键词排列组合产生关键词组及短句 ❖关键词选择技巧 ▪站在用户角度考虑▪将关键词扩展成系列词组及短语(可用 google/baidu/overture等工具)▪进行多重排列组合▪不要用太广泛的关键词 •例如电话区号查询不要用“电话” 关键词策略 ❖关键词选择技巧 ▪用自己的品牌做关键词▪使用地理位置 •例如027社区中的武汉二手电脑市场 ▪参考竞争者使用的关键词▪不用与自己无关的关键词 •不用无关热门词、竞争对手品牌 ▪控制关键词的数量 •一页三个词以内,太多词就做成多页 41 42
7 2019/10/24 关键词策略 ❖关键词密度 ▪网页文本中适当出现关键词▪关键词在网页文本中占的比例就是关键词密度,一般 在1%-7%范围内为佳▪不要不出现或者过分堆砌 关键词策略 ❖关键词分布 ▪网页代码中的标题title,meta标签 •关键词Keywords及描述description ▪网页正文最吸引注意力的地方 •顶部、左边、标题、正文前200字等 ▪超级链接文本(相关推荐、友情链接)▪Header标签 •
含关键词
、 ▪图片Alt属性 43 44 关键词策略 ❖标题Title ▪Title简短精练、高度概括、含关键词▪关键词在Title的前面部位▪Title组织成符合语法的短语,避免罗列 ❖关键词Keywords ❖描述Description ▪简短的句子说明本页主要内容▪描述中出现关键词,与正文内容相关▪同样简短,字符数在260以内▪补充title和keywords中未能表述的内容▪首页、分类页、栏目页、内页最好都有针对性单独写 45 网页设计优化 ❖目录结构和URL(清晰、简短、规范)▪目录层次 •图形、脚本等单独存放,小型网站一级目录•大型网站二至三级目录/dir1/dir2/dir3/page.htm•不要超过四层 ▪目录及文件命名 •可用拼音、英文关键词,“-”为分隔符,URL越短越好 ▪绝对URL与相对URL:部分搜索引擎不太在意▪动态URL:出现“?”、“=”、“%”、“&”、 “$”等符号对SEO很不利,应设法静态化网页 46 网页设计优化 ❖导航结构(栏目、菜单、帮助、布局等统称)▪主导航醒目清晰 •主栏目在首页第一屏醒目位置,用文字而非图片、Flash链接 ▪面包屑型路径 •主导航到目标网页的访问路径,例如:“一把刀实用查询:首页>生活类>疾病查询” ▪首页突出重要内容 •热点、重点反复突出 ▪使用网站地图 •静态、直观、扁平、简单,用户使用普通网站地图,google使用专门googlesitemaps 47 网页设计优化 ❖框架结构▪蜘蛛不喜欢框架,尽量不用frame▪一定要用的话要增加“Noframe”标签(内含关键词及链接)▪可用iframe,蜘蛛认为iframe中是另外一个无关页面 ❖图像优化▪蜘蛛看不懂图像,尽量不用图像▪为图片Alt增加搜索引擎可见的文本描述(含关键词),在图片周围增加描述文字、header▪压缩图像文件大小,减色、缩小、压缩分辨率、大图切割等 48
8 2019/10/24 网页设计优化 ❖Flash优化 ▪蜘蛛看不懂Flash,尽量不用Flash▪加辅助HTML版本▪Flash嵌入HTML文件 ❖表格使用 ▪用表格分隔长篇文字;不要内嵌套太多表格 ❖网页减肥 ▪采用CSS样式,美观、统
一、减肥▪JavaScript移到页面底部,可外置.js文件 49 网页设计优化 ❖动态页面 ▪蜘蛛难理解“?
”、“=”、“%”、“&”、“$”▪模拟静态化:建立静态入口,“静动结合、以静制 动”,重要内容静态化,不要怕麻烦,首页尽量用纯静态▪付费收录▪尽量不用“?
”、”SessionID”、参数不要超过2个 50 链接策略 ❖Google排名的重要依据:高质量外部链接的数量 ❖搜索引擎分类目录 ▪开放式目录ODP、Yahoo!、搜狐、网易、新浪等的分类目录 ❖免费登录、Yahoo!
的要求 ▪原创而非复制▪不作假、不作弊▪网站外观良好▪提交到正确目录▪记下提交日期、目录、编辑邮箱▪不要重复提交 51 链接策略 ❖付费登录:普通登录及固定排名❖高质量导入链接标准 ▪搜索引擎目录中的链接及已加入目录的网站的链接▪与你的主题相关或者互补的网站▪PR值不低于4的网站▪流量大、知名度高、频繁更新的重要网站▪具有很少导出链接的网站▪以你的关键词在搜索结果中排名前三位的网站▪内容质量高的网站 52 链接策略 ❖垃圾链接,对排名不起作用或者起反作用 ▪留言板、评论或者BBS中大量发帖夹带网站链▪已经加入太多导出链接的网站▪加入LinkFarm、大宗链接交换程序、交叉链接,与大 量会员网站自动交换链接 ❖以下办法不能增加链接广度 ▪点击付费的搜索引擎广告链接▪多层次的网络会员制联盟 53 链接策略 ❖如何获得高质量导入链接 ▪向搜索引擎目录提交网站▪寻找网站交换链接对象 •已经进入搜索引擎分类目录的相关网站、与你的竞争对手链接的相关网站、生意链中的对象,提供链接代码,一对一联系而不是垃圾邮件群发 ▪网站被主动链接或者转载▪在重要网站发表专业文章▪在所在的行业目录提交网站 ❖工具:link: 54
9 2019/10/24 链接策略 参考资料 ❖导出链接▪适量、适当的导出链接获得好印象▪但不要过多,一般控制在15个以下 ❖/❖ ❖内部链接▪增加相关文章等内部链接▪建立多个二级域名,子网站互相之间链接获得好印象 ❖消除死链接!检查工具:Xenu ❖❖/❖SEO论坛: ❖关键词链接文本及上下文语义 ▪导入、导出、内部链接的链接文本中含关键词会获得好印象;链接周围的上下文分析 55 56 SEO工具 ❖在线工具 ▪SEO论坛中“SEO工具”一帖建议收藏 ❖IBP(BusinessPromoter) ▪搜索引擎提交辅助软件 ❖SEOElite ▪网站链接观察/分析软件 ❖SEOMonitor ▪关键词排名观察工具 SEO工具 ❖搜索引擎及目录免费登录入口: ▪Google:/intl/zh-CN/add_url.html ▪百度:/search/url_submit.htm ▪中搜/Netsearch/pageurlrecord/frontpageurl.jsp ▪搜狐:/regurl/regform.asp?
Step=REGFORM&;class= ▪网易:/cgi-bin/search/add_url.cgi ▪新浪: ▪一搜:/search_submit,html?
source=yisou_www_hp ▪雅虎中国目录:(分类目录) ▪DMOZ目录:/World/Chiness_simplified(分类目录) ▪英文搜索引擎自动提交: 57 /searchsubmit.php 58 SEO工具 ❖域名与主机工具: ▪域名批量查询:http://www.whois.sc▪IP转换成域名:(查看 某IP地址下共享哪些域名。
免费注册) ❖关键字工具: ▪GoogleAdwords关键字工具:查询特定关键词的常见查询及扩展匹配▪/select/KeywordSandbox▪百度关键字工具:查询特定关键词的常见查询、扩展匹配及查询热度▪/inquire/dsquery.php▪搜狐关键字工具:关键字搜索热度▪/regurl/pv_price/query_consumer.asp▪网易关键字工具:关键字搜索热度▪/find_price.php▪Overture关键字使用频率工具(英文):特定关键词的常见查询及被查 询次数▪/d/searchinventory/suggestion▪关键字密度检查(英文):频繁出现的关键词及其密度▪www.seotoolkit.co.uk/keyword_density_analyser.asp 59 SEO工具 ❖内容与结构检测工具: ▪新竞争力网站专业性评价:\pingjia.htm(基于数千网站研究获得的120项评测指标) ▪蜘蛛程序模拟器:模拟蜘蛛可抓取到的文本及链接 ▪/search-engine-spider-simulator.php ▪/seotoolkit/spider_viewer.asp ▪URL检测工具:检测网站URL结构、无效链接等 ▪下载地址:/soft/XENU.ZIP ▪HTTP:///checklink ▪相似页面检测器:对比两个页面间的相似度,来判断是否有受到惩罚的危险 ▪/similar-page-checker.php ❖链接广度检测工具: ▪/so/(综合查询:含链接广度、PR、ALEXA) ▪/publinkpop(可同时与多个竞争对手网站进行比较) ▪(同时检测10个搜索引擎的收录情况) ▪www.seotoolkit.co.uk/link_popularity_checker.asp ▪www.123promotion.co.uk/directory/index.php(检测网站是否登录多 个重要分类目录) 60 10 2019/10/24 SEO工具 ❖
SEO效果检测工具: ▪/▪排名监测工具:网站以某一关键词在搜索引擎中的排名。
▪(查Google排名)▪/keyrank.php(查goole、yahoo排名)▪(注:由于排名检测占用了本来可以用来响应用户请求的服务器资源, 违反了Google服务条款。
因此Google强烈要求不要使用排名检查工具) ❖查看网页级别: ▪Google工具栏下载:(PageRank值)▪/pagerank.php(PageRank值)▪/seo-tools/future-pagerank(查看PR值是否处 于更新期间)▪/tools/webrank(Yahoo的WebRank值) ❖查看ALEXA网站访问量全球排名: ▪ALEXA工具栏下载:/index.cgi?
p=Dest_w_b_40_T1 ▪/sitepopularity.php 课程内容 1搜索引擎对信息获取的影响2搜索引擎优化的概念和作用3网站优化技术4Spam的识别和剔除 61 62 SearchEnginesDirectTraffic ❖SignificantamountoftrafficresultsfromSearchEngine(SE)referrals ▪E.g.JacobNielsen’ssite“HyperTextNow”receivesonethirdofitstrafficthroughSEreferrals ❖OnlysitesthatarehighlyplacedinSEresults(forsomequeries)benefitfromSEreferrals 63 WaystoIncreaseSEReferrals ❖Buykeyword-basedadvertisements❖Improvetherankingofyourpages ▪Providegenuinelybettercontent,or▪“Game”thesystem ❖“SearchEngineOptimization”isathrivingbusiness ▪SomeSEOsareethical▪Somearenot… 64 WebSpam DefiningWebSpam ❖WorkingDefinition ▪Spamwebpage:Apagecreatedforthesolepurposeofattractingsearchenginereferrals(tothispageorsomeother“target”page) ❖Ultimatelyajudgmentcall ▪Somewebpagesareborderlineuseless▪Sometimesapagemightlookfinebyitself,butin contextitclearlyis“spam” 65 66 11 2019/10/24 Whywebspamisbad ❖Badforusers ▪Makesithardertosatisfyinformationneed▪Leadstofrustratingsearchexperience ❖Badforsearchengines ▪Burnscrawlingbandwidth▪Pollutescorpus(infinitenumberofspampages!
)▪Distortsrankingofresults 67 DetectingWebSpam ❖Spamdetection:Aclassificationproblem ▪Givensalientfeatures,decidewhetherawebpage(orwebsite)isspam ❖Canuseautomaticclassifiers ▪Plethoraofexistingalgorithms(Bayes,C4.5,SVM,…) ▪Usedatasetstaggedbyhumanjudgestotrainandevaluateclassifiers(thisisexpensive!
) 68 DetectingWebSpam ❖Butwhatarethe“salientfeatures”?
▪Needtounderstandspammingtechniquestodecideonfeatures ▪Findingtherightfeaturesis“alchemy”,notscience ▪Spammersadapt–it’sanarmsrace!
TaxonomyofwebSpamTechniques ❖“Keywordstuffing”(关键词堆砌)❖“Linkspam”(链接欺骗)❖“Cloaking”(掩饰) 69 70 KeywordStuffing ❖Searchenginesreturnpagesthatcontainqueryterms ❖OnewaytogetmoreSEreferrals: ▪Createpagescontainingpopularqueryterms(“keywordstuffing”) ❖Threevariants ▪Hand-craftedpages(ignoredinthistalk)▪Completelysyntheticpages▪Assemblingpagesfrom“repurposed”content 71 ExamplesofSyntheticContent ization RandomwordsWell-formedsentencesstitchedtogether Linkstokeepcrawlersgoing 72 12 2019/10/24 ExamplesofSyntheticContent Someone’sweddingsite!
73 Featuresidentifyingsyntheticcontent ❖Averagewordlength ▪ThemeanwordlengthforEnglishproseisabout5characters ❖Wordfrequencydistribution ▪Certainwords(“the”,“a”,…)appearmoreoftenthanothers ❖N-gramfrequencydistribution ▪Somewordsaremorelikelytournexttoeachotherthanothers ❖Grammaticalwell-formedness ▪Alas,natural-languageparsingisexpensive 74 Reallygoodsyntheticcontent “NigritudeUltramarine”:Anpetition Linkstokeepcrawlersgoing Grammaticallywell-formedbutmeaninglesssentences Content“repurposing” ❖Contentrepurposing:Thepracticeofincorporatingallorportionsofother(unaffiliated)webpages ▪A“convenient”waytomachinegeneratepagesthatcontainhuman-authoredcontent ▪Notevennecessarilyillegal… ❖Twoflavors ▪Incorporatelargeportionsofasinglepage▪Incorporatesnippetsofmultiplepages 75 76 Exampleofpage-levelcontentrepurposing Exampleofpage-levelcontentrepurposing 77 78 13 2019/10/24 Techniquesfordetectingcontentrepurposing ❖Single-pageflavor:Clusterpagesintoequivalenceclassesofverysimilarpages ▪Ifmostpagesonasiteaverysimilartopagesonothersites,raisearedflag ▪(Therearelegitimatereplicatedsites;e.g.mirrorsofLinuxmanpages) ❖Many-snippetsflavor:Testifpageconsistsmostlyofphrasesthatalsoursomewhereelse ▪Computationallyhardproblem▪Haveprobabilistictechniquethatmakesittractable 79 Detour:Link-basedranking ❖Mostsearchenginesusehyperlinkinformationforranking ❖Basicidea:Peerendorsement ▪Webpageauthorsendorsetheirpeersbylinkingtothem ❖Prototypicallink-basedrankingalgorithm:PageRank ▪Pageisimportantiflinkedto(endorsed)bymanyotherpages ▪Moresoifotherpagesarethemselvesimportant 80 Linkspam ❖Linkspam:Inflatingtherankofapagebycreatingnepotisticallinkstoit ▪Fromownsites:Linkfarms(一组网页之间互相链接) ▪Frompartnersites:Linkexchanges ▪Fromunaffiliatedsites(e.g.blogs,guestbooks,webforums,etc.) ❖Themorelinks,thebetter ▪Generatelinksautomatically ▪Usescriptstoposttoblogs ▪Synthesizeentirewebsites ▪Synthesizemanywebsites(DNSspam) ❖Themoreimportantthelinkingpage,thebetter ▪Buyexpiredhighly-rankeddomains ▪Postlinkstohigh-qualityblogs 81 Linkfarmsandlinkexchanges 华中科技大学数字媒体实验室 82 Featuresidentifyinglinkspam ❖Largenumberoflinksfromlow-rankedpages❖Discrepancybetweennumberoflinks(peer endorsement)andnumberofvisitors(userendorsement)❖Linksmostlyfromaffiliatedpages ▪Samewebsite;samedomain▪SameIPaddress▪Sameowner(ordingtoWHOISrecord) ❖Evidencethatlinkingpagesaremachinegenerated 83 Cloaking ❖Cloaking:Thepracticeofsendingdifferentcontenttosearchenginesthantousers ❖Techniques: ▪Recognizepagerequestisfromsearchengine(basedon“user-agent”infoorIPaddress) ▪Makesometextinvisible(i.e.blackonblack)▪UseCSStohidetext▪UseJavaScripttorewritepage▪Use“meta-refresh”toredirectusertoother page ❖Hard(butnotimpossible)forSEtodetect 84 14 问题解答 85 2019/10/24 15
声明:
该资讯来自于互联网网友发布,如有侵犯您的权益请联系我们。