SEO detail

最近发现SEO中有些东西满有趣,当然这并不表示我要作什么SEO站之类的,也没打算让我的内容非常少的网站做什么面向搜索引擎的优化,仅仅是一些细碎的关键词:细节\乐趣\吸引

有找过专门的软件和工具,以及一些测试方法,发现SEO还是满简单的一件事,其实如果网站够大,都是可以忽略的小细节罢了,而我喜欢细节的刻画

其实要说的事情很简单,通过对我自己网站的连接的测试以及内容的反复修改

我发现很多小细节容易被人忽视

这要归功于服务器端iis/apache等,因为他们把我们没有作的细节都补上了

看起来还没有进入主题,那么现在开始

1:隐含的自制301

像我网站首页上,有一个http://moontoc.com/music/, 我在html中写的是简单的href="music",但实际上,服务器端是把它当作根域下的一个名为music的文件来查找的,如果没有的情况下,服务器将生成一个301重定向,指向music/这个目录,而这时候搜索引擎是不吭声的,浏览器也不会,而只是自动转过去了,但这样的小细节,说来也没什么,只是多了一步罢了,搜索引擎不讨厌301,但发现这个细节后我把网站上的连接都重新定义了一次,将所有的目录指向都从 ** 改成了 **/ ,为什么要多一步呢?我不喜欢罢了,如果网速慢,来回跳转,将非常烦琐,其实这个细节并不对什么有影响的,如果你不在意,它就只是,废话,

2:消灭无关痛痒的404

这件事说简单真的很简单,那就是把被你遗忘的404了的东西补上

比如这两个:
/robots.txt
/favicon.ico

robots.txt常被人遗忘,因为自己的网站几乎没有不希望人访问的内容,所以忽略它,但它会生成天文数字的404次数,因为每个搜索引擎都会先搜索它,当然,robots不存在并不会被google认为是一般的404而被认为是错误,因为它只是搜索引擎才需要的东西,如果你真的没东西不可以让人看,那么为什么不放一个空的robots.txt给你的网站,而让它输出几k的404页面来占用网络带宽呢

而favicon.ico则同样如此,也许大家都习惯了ie6对它的无敌支持,认为它可有可无,但现在ie7的出现将在未来的日子改变这一切,因为ie7不久将被纳入自动更新的行列,届时,ie/ff/sf/opera/mt等,应该说,到ie7普及的时候,那么世界上所有的浏览器都将先访问你的favicon.ico再访问页面,如果你的网站足够大,想像一下你的网站需要生成多少次404页面给浏览器,实际上这些页面404页面都是不输出给你看的,但它将被浏览器每次都重新读取并且保留下来来占用可怜的网络带宽

3: Http Status Code 的生成

作网站最初的时候,我也搞不清楚为什么404和403之外的http状态码有存在意义,并且从1.0保留到1.1,而且还增加了,

实际上所有的状态码对我们几乎都有用,但大部分都是给浏览器看的,我们很少看到,多数常能见到的集中在3**/4**,而5**,基本上是权限设置错误,或是服务器执行出错/服务器基本瘫痪了,

哦,跑题了,我想说的是如何生成对搜索引擎和用户浏览器都友好的状态提示,

举例说,比如你的文件被你删除了,你预设了404的页面来提示找不到它,是不是真的就了事了呢,

另外,当你的一个目录不希望被用户浏览,是不是403是最好的方式呢,

在google的管理员工具中,我发现网站上很多访问错误都是一些一年甚至两年前的已失效文件,这和很多网站以及google的帮助所说的,搜索引擎将停止索引这些内容的话并不一致,确切的说,google的爬行几乎是找茬的方式在进行的,一方面它说404,403等将不再索引,一方面又给我列出早在一两年前就停止的本身就不是正式位置的moontoc.com/bbs和/blog,而从头到现在,我的404,403的提示仅仅给用户有用,而对google的抓取根本停止不了,

404是找不到文件,这是我们都清楚的解释,而我查了http/1.1的标准文档,我发现404的解释里,语意很大程度上是在说管理员的失职,而不是用于提示用户文件被转移或删除了,

我最后决定对大型网站的类似事情作测试,RP够强又和google肯定完全无关的自然是MS,我发现在MS上采用的方式是先301再404的方式,这真的有些让人哑口无言,一方面301是永久转向,而404是给用户提示,

MS让搜索引擎认为文件转向了,之后再404告诉用户文件不存在,而这个404的浏览器页面将给你详细的MS地图让你继续在MS的网站打转,而绝不希望你走出这个网站,

这样作之后,引擎对它的收录是这样的,
引擎先抓取到的是301,因为是301,所以它本身地址不被保留,而引擎会把它当作一个旧索引保留,它只是转向了,而之后再404,这个404的路径是301而来的,它有自己的新地址,因为它来自永久转向301,它不像直接生成的404是没有自己地址的,因为是301转来,所以它有自己的地址,而这错误的地址被保留下来并索引进数据库,重复几次之后,那么下次引擎到这里就不再继续抓取,因为这个404的地址是全站一致的,它早已进了引擎的数据库,以至于MS上完全没有失效文件...

如果上面的话,你看懂了,那么我想你应该知道怎么让自己的网站没有抓取错误,实际上正常情况下,我们不必要在意这样的混蛋细节,如果你的一个目录或文件真的放在了其他地方,请保留你的上一个目录,文件不需要存两份而是301统一转去就好,而如果你确定要删除某个文件,一种方式是你可以滑头的301转到类似网站地图或是类似连接,或者干脆410告诉所有用户或搜索引擎,你的文件不存在,而不是找不到

另外,我在MS上完全找不到403的迹象,其实这是非常好的做法,好的网站不需要403,你不需要人浏览的位置,可以设置一个index.html或301,不应该让用户认为你的网站上存在不能让它看的东西,google管理员工具里,我的所有403都被视为网络错误,这比404对搜索引擎的抓取影响更让人讨厌,

简单说,我短期内没想过作有盈利的网站,就算盈利,也不会是http://moontoc.com/以及它子域名的一切,但我相信无论盈利与非盈利或纯个人网站,你给用户和搜索引擎留一个好印象,它自然会给你一份回报,短期长期不好说,但至少,会的

UP 2006.12.9

This entry was posted in Lab. Bookmark the permalink.

2 Responses to SEO detail

  1. wangkaye says:

    非常有用,谢谢!

  2. amio says:

    哈哈不错不错,挺有用处的月经贴

Comments are closed.