« 毕业一年工作总结格式研究js输出链接的抓取实验结果 »

网页快照是什么

文/Bansi 发表于:2009-5-22 14:55:28
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。
http://sem80.com/blog/other/what-web-cache.html

这篇日志算是Bansi对于网页快照方面的知识梳理,某些文字引自网络。

网页快照是什么
英文名叫Web Cache,网页缓存。从字面上直译就是把网页的画面照下来(信息大多是文本),以备份并存在搜索引擎服务器的缓存中。由于快照是存储在搜索引擎的服务器中,所以查看网页快照的速度往往比直接访问网页要快的多。

网页快照的作用
当搜索的网页被删除或连接失效时,可以使用网页快照来查看这个网页,起到“救急作用”。比如你的某网站上发布了一些文章,该网站已经无法再访问,用户就可以通过在搜索引擎中搜索该文章的关键词,然后以快照形式进行访问将文章内容进行备份。

补充点
当用户在搜索引擎中键入一个关键词并点击确定以后的一秒内,就会返回搜索结果。这个过程之前,搜索引擎使用专门的程序--蜘蛛去把互联网中网页搜集回来放进一个数据库中,当用户请求的时候就直接从这个库中搜索,而不是实时地在浩瀚地互联网中去搜寻这些数据。显然前者的效率是更高的。

而网页快照是记录网站近期的情况。但有的网站更新的快,有的网站更新的慢,比如新闻张几乎天天都在更新,那么快照的内容与网站实时内容差别过大,那么搜索引擎会比较照顾会经常放蜘蛛去抓取网页,快照时间也更新的比较快。而有的网站的内容几乎不更新,快照的时间也就更新的慢一些了。

快照不是实时更新原因:
1。搜索引擎自身的服务器受不了。
2。当放蜘蛛抓取网页的时候,如果抓取过去频繁,会加大个人站长的流量压力以及服务器压力。很多站长除了主流机器人外,都会在robot.txt中限制蜘蛛来抓取网页。
3。有的网站更新频率并没有那么快,搜索引擎会根据该站的以往更新数据而给一个抓取的频率,而不是每一次都放蜘蛛去都抓不到东西。

参考资料:
[网页快照 - 维基百科] http://zh.wikipedia.org/wiki/%E7%BD%91%E9%A1%B5%E5%BF%AB%E7%85%A7
[搜索引擎原理PDF电子书 - PDF在线阅读] http://fliiby.com/file/96164/s2sd6ww85a.html 

相关文章:

    已有2人发表了评论

    大鹏
    1楼的大鹏(http://www.npxzl.org/ ) on 2009-12-17 20:20:19 say:
    谢谢,学习了!
    mbt
    2楼的mbt(http://www.cheapmbtshoe.com ) on 2010-2-8 10:16:46 say:
    谢谢LZ的分享

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    发表评论: