« 人脑做什么运算最快子页面是否可以吸引蜘蛛检索目录 »

PDF文件优化研究

文/Bansi 发表于:2009-6-25 10:22:7
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。
http://sem80.com/blog/seo/PDF-YouHua.html
PDF文件优化第一部分:
1、PDF文件可被索引;
2、PDF文件为什么会获得高权重;
3、搜索引擎能够识别PDF文件中的链接。
 
早在03年车东在Google搜索排名优化-面向搜索引擎的网站设计中就写道PDF可被索引,并说明了为什么PDF、DOC(word)、PPT(power point)等文档会受搜索引擎青睐而获得高权重。引用原文内容:
 
文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。
 
由于PDF文件所具备的高权重,不由得就想到对PDF文件优化获得高排名。而Bansi关注PDF文件优化则是在去年看到很多PDF、DOC文件在搜索引擎中排名有良好的表现,并且发现很多文件还获得了很高的PR值,当时有个想法:如何将PDF、DOC文件的PR值传递一些出来。想到过301转向,但那样PDF文件将没办法访问,后来则发现原来PDF文件中也是可以添加链接的,进而我的兴趣被吸引到:搜索引擎是否可以识别PDF中的链接,假如可以识别,那么该链接的价值有多大?是否比普通的HTML文档中的链接更高质。
 
在08年7月我做了一个实验,验证搜索引擎是否抓取PDF文件中的,最后发现PDF文件中的链接是可以被搜索引擎抓取到的。http://hi.baidu.com/gif8/blog/item/3d4d9f163e014e54f2de323c.html (由于是个人的流水空间,没人对那东西感兴趣,也就没把结果写出来)
 
原来,07年国外就有人反映在外链查询中有来自PDF以及DOC文件的。详见:Google Search News
 
 

PDF文件优化第二部分:

1、文件优化;
2、内容优化。
 
先说明下文件优化跟内容优化的区别。文件优化即对文件名,以及PDF文件属性中的标题、作者、描述等进行优化。去年我研究PDF文件优化的时候曾自以为是最早的,后来才发现人家国外老早就研究了,而国内却很少去研究这么细节的东西。

转一个国外翻译过来的教程:七个PDF文件优化的技巧(教程里使用的PDF软件是Adobe Reader,我使过其他的PDF阅读软件好象是不带文档属性那些功能的):

1. 确定你的PDF文件是基于文本的,否则用其他程序打开PDF文件可能会发生一些问题。
2. 优化PDF文件属性中的title标题一项(文件>>文档属性)。属性中的标题title(不是文件名称)会变成title标签,并且在搜索引擎的搜索结果页面也会显示这个标题。
3. 不要忘记可用性。你要知道不是每个人使用的都是Adobe Reader的最新版本,所以你要尽量将你的PDF文件保存为低的版本。
4. 指定阅读顺序。这可以让搜索引擎知道哪部分文字是最重要的。
5. 放置链接指向PDF文件,并确保链接是(被搜索引擎蜘蛛)可以跟随的。
6. 放置PDF文件的位置要尽量靠近网站的根目录。
7. 链向PDF的超文本链接中要包含关键字。

英文原文:Optimization Tips for PDFs: Great Advice for B2B Search Marketers
http://blog.searchenginewatch.com/blog/080404-100034


内容优化思路:
在Google中搜索结果中,如果是PDF、DOC等文件。下面会有字样:文件格式: PDF/Adobe Acrobat - HTML 版。由于搜索引擎索引的是PDF转化为HTML以后的内容,那么只要掌握好PDF转换为HTML的规律则可以在PDF文件制作的时候做到内容的相关优化。这部分的规律有做一个比较杂的记录,有两三页的长度,我为了方便制作弄成了DOC文件。PDF、PPT、DOC转换为HTML的规律.doc

本文完。欢迎分享与交流你的意见。

相关文章:

    已有0人发表了评论

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    发表评论: