搜索引擎快照更新实验
观察的搜索引擎:百度(www.baidu.com)
Goole(www.google.cn)
本次试验共有9864篇文章,日期:2010-7-30 20:11:56
标题3,http://003.html
网页快照是什么
英文名叫Web Cache,网页缓存。从字面上直译就是把网页的画面照下来(信息大多是文本),以备份并存在搜索引擎服务器的缓存中。由于快照是存储在搜索引擎的服务器中,所以查看网页快照的速度往往比直接访问网页要快的多。
网页快照的作用
当搜索的网页被删除或连接失效时,可以使用网页快照来查看这个网页,起到“救急作用”。比如你的某网站上发布了一些文章,该网站已经无法再访问,用户就可以通过在搜索引擎中搜索该文章的关键词,然后以快照形式进行访问将文章内容进行备份。
补充点
当用户在搜索引擎中键入一个关键词并点击确定以后的一秒内,就会返回搜索结果。这个过程之前,搜索引擎使用专门的程序--蜘蛛去把互联网中网页搜集回来放进一个数据库中,当用户请求的时候就直接从这个库中搜索,而不是实时地在浩瀚地互联网中去搜寻这些数据。显然前者的效率是更高的。
而网页快照是记录网站近期的情况。但有的网站更新的快,有的网站更新的慢,比如新闻张几乎天天都在更新,那么快照的内容与网站实时内容差别过大,那么搜索引擎会比较照顾会经常放蜘蛛去抓取网页,快照时间也更新的比较快。而有的网站的内容几乎不更新,快照的时间也就更新的慢一些了。
快照不是实时更新原因:
1。搜索引擎自身的服务器受不了。
2。当放蜘蛛抓取网页的时候,如果抓取过去频繁,会加大个人站长的流量压力以及服务器压力。很多站长除了主流机器人外,都会在robot.txt中限制蜘蛛来抓取网页。
3。有的网站更新频率并没有那么快,搜索引擎会根据该站的以往更新数据而给一个抓取的频率,而不是每一次都放蜘蛛去都抓不到东西。