10种提高站点蜘蛛爬行的方法

文/bansi
发布:2010年8月1日
话题: 蜘蛛  每日抓取量  网站收录  

我Google查看了一下“10种提升站点蜘蛛爬行的方法”的文章,其内容剽窃于Ann Smarty《10 Ways to Increase Your Site Crawl Rate》一文。原文中一些精要的东西被弄丢了,很多内容也与原文本意相去甚远。

下面附上原文。原文上面是自己翻译理解提炼的要点,下面是自己的注解:

1、保持网站的更新频率,发布的内容要表达出自己的观点让它变得独一无二

Update your content often and regularly (and ping Google once you do) – well, an obvious one, so not much to describe here; in a word, try to add new unique content as often as you can afford and do it regularly (3 times a week can be the best solution if you can’t update your site daily and are looking for the optimal update rate).
Bansi:一个更新活跃的站点会受到搜索引擎的青睐,从而会给出更多的蜘蛛访问。原文建议每天更新。如果做不到每天更新则保持一周三次的更新频率。

2、确保服务器的稳定性

Make sure your server works correctly: mind the uptime and Google Webmaster tools reports of the unreached pages. Two tools I can recommend here are Pingdom and Mon.itor.us.
Bansi:服务器故障对蜘蛛的抓取影响很大,毕竟每天光临小站的蜘蛛数量与次数有限。这里推荐一款合适国内站长查看服务器主机访问速度的在线工具---卡卡网站速度测试。另外,使用Log日志进行服务器的安全检测也是一个非常好的方法。

3、注意网页加载时间:避免蜘蛛的不必要开支。

Mind your page load time: note that the crawl works on a budget – if it spends too much time crawling your huge images or PDFs, there will be no time left to visit your other pages.
Bansi:蜘蛛的访问时间有限。原文建议是不要让蜘蛛花费过多的时间在大文件的图片(image)与PDF文档上面。那样,蜘蛛将没有时间去访问你的其他页面。

4、检查网站内部链接:避免多个URL返回同一个内容

Check the site internal link structure: make sure there is no duplicate content returned via different URLs: again, the more time the crawler spends figuring your duplicate content, the fewer useful and unique pages it will manage to visit.
Bansi:原文本意是说避免内容重复,所以我直接采用了Google站长指南对于内容重复的说法:避免多个URL返回同一个内容。另外,作者强调了观点3:避免蜘蛛不必要的开支。避免蜘蛛将时间花费在没有益处的重复内容上而减少对有益的、内容独一无二的页面抓取。(这里建议大家看原文,原文是说蜘蛛花费时间去计算重复内容,但这应该是抓取完链接以后才会执行的过程,当然只是个人见解,欢迎讨论!)

5、多从蜘蛛活跃的站点建立反向链接

Get more back links from regularly crawled sites

6、使用Google网站管理员工具调整蜘蛛抓取频率

Adjust the crawl speed via Google Webmaster tools.

7、添加HTML与XML格式的网站地图

Add a sitemap (though it’s up for a debate whether the sitemap can help with crawling and indexing issues, many webmasters report they have seen increased crawl rate after adding it).

8、正确返回服务器的数据包头信息

Make sure your server returns the correct header response. Does it handle your error pages properly? Don’t make the bot figure out what has happened: explain it clearly.
Bansi:从原文意思以及SEO的知识点来看应该是指跳转的页面以及不存在的这类页面要正确返回301、404的HTTP状态码(其包含在header response信息中,SEO非常重视这个信息,这方面的话题讨论也很多)。你可以使用谷歌网站管理员工具LOG日志检查蜘蛛返回的301、404信息。

9、确保每个页面都有独一无二的标题与描述

Make sure you have unique title and meta tags for each of your pages.

10、使用Google管理员工具中的“抓取统计信息”监控网站

Monitor Google crawl ratefor your site and see what works and what not:
access crawl stats viaGoogle Webmaster tools:
bansi:抓取统计信息可以监控到蜘蛛每日的抓取量、下载数据量、下载页面所用时间,通过对三个曲线的分析能够监控到一些异常的情况。比如:当抓取量减少时下载页面所用时间却增加,这时服务器的稳定性就需要引起我们的注意。

如何衡量网站每日抓取量的好坏

一个简单的计算方法:每日抓取量/网站页面数。大站小站略有不同,小站本身内容不多一天抓取几十页很正常,大站则有可能每天几万的抓取量。
总结:Bansi个人认为文中最为精要的地方是避免蜘蛛的不必要开支。文中没有就这点深入展开,本博会另外整理一篇日志深入讨论这个话题。以上内容若理解有误欢迎提出讨论,这也是贴出原文内容的原因之一。

« 服务器日志分析(Log File)与网站优化浅析谷歌收录骤减,收录越来越少现象 »

已有5人发表了评论

hafid 2010-8-13 9:07:13

2
Bansi绝对是研究型的SEOer
这贴我收藏了!哈哈
bansi 于 2010-8-16 14:15:03 回复
哈,这篇文章确实值得收藏,原文在08年就发布了,国外的SEO技术确实比国内领先。

回复该留言  引用回复

saikehb 2010-11-23 11:50:46

3
学习了,也收藏起来慢慢学习
回复该留言  引用回复

溶解氧仪 2010-11-23 11:56:41

4
望老师能够多多更新文章啊,分享多一点学习资料。不然我就像无头苍蝇一样乱撞学和使用SEO,不是很系统。
回复该留言  引用回复

bansi 2010-11-26 14:44:41

5
:)空了分享一份系统学习SEO的文章。
回复该留言  引用回复

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。