前段时间Bansi做了一个针对图像映射验证搜索引擎是否识别的实验,从多个案例的收录情况来看,搜索引擎目前可能没办法识别出图像映射里的URL链接。
什么是图像映射?
图像映射是网页设计人员常用的一种HTML技术。能够将链接映射在图片的某个区域之内,并且这个区域可能是圆形或者是其他形状,这是图片链接与锚文本链接所无法做到。
HTML图像映射的一个实验:
http://www.youmo8.org/labs/image-map/image-map.html
最后的实验结果是搜索引擎收录了图像映射里链接所指向的文件,但经过分析,存在变量因素,结果不能说明搜索引擎就能够识别图像映射里的链接。经过与Lonmen的讨论,并且搜集了足够的案例说明:搜索引擎,它们是有能力自动遍历网站目录并抓取目录下文件的,除非有协议说明不给抓取。
讨论后的数日我找到的一篇文章支持了这个观点:
Googlebot开始检索网站深层内容
Lonmen也在数日后与络龙医搜的老总交谈中获得一个信息:即使没有链接,搜索引擎也可以自动搜索得来的IP对目录进行抓取,但有一个前提条件:文件允许目录浏览。
也就是说,你不想给搜索引擎抓取某目录下的文件有两个方法:一个是设置目录的安全权限,一个是设置robots.txt文件。 另外,百度比较特别。凡是没有锚文本链接或是图像链接指向的文件均不抓取。可以 site:http://www.icl.pku.edu.cn 看看结果。里面被抓取到的DOC以及PDF文件均是被其他论坛所引用时链接指向所抓取的。另外,感兴趣的朋友也可以找一些首页使用图像映射的网站来site一下看看百度的结果。
总结一下:
1。目前的实验条件没办法验证搜索引擎不能抓取图像映射里的链接。
2。Google能够检索到图像映射里的链接可能是自身抓取目录下文件的能力,也可能是能够识别图像映射里的连接。
3。凡是没有锚文本链接或是图像链接指向的文件百度均不抓取。
BanSi建议:图像映射技术使用需谨慎,如果是比较重要的页考虑使用文本链接,保证网站连接的畅通性。