事件:
只要了解SEO的朋友都知道最近利用搜狐微博搶奪百度長尾詞流量的事情。由于各種原因,蘇笛康并未攙和進這件事。2011年6月9日,蘇笛康所在的團隊QQ群突然轉(zhuǎn)發(fā)一個消息,稱搜狐微博屏蔽百度蜘蛛了,并提供了一個Admin5論壇的帖子的URL。經(jīng)過分析,蘇笛康認為,搜狐微博并未屏蔽百度蜘蛛,上述言論是對搜狐微博的Robots.txt文件誤讀引起的。
材料:
搜狐微博Robots.txt文件內(nèi)容(2011年6月9日晚):
User-agent: Baiduspider
Disallow:
User-agent: Sogou
Allow: /
User-agent: *
Disallow: /
分析:
首先,我們看搜狐微博Robots.txt第一部分,針對的是百度蜘蛛。
在百度搜索幫助中心的指南()可以找到這么一句——“Disallow:”說明允許robot訪問該網(wǎng)站的所有URL。
因此,第一部分的語句,允許百度蜘蛛抓取所有的URL。
第二部分就不用看了,界定的是搜狗搜索引擎的蜘蛛抓取權(quán)限。
最后我們看第三部分,這部分使用通配符,限定所有的搜索引擎,不允許抓取根目錄(相當于不允許抓取任何URL)。這里我們?nèi)匀恍枰P(guān)注百度搜索幫助中心的解釋。百度官方的文件是這樣說的——需要特別注意的是Disallow與Allow行的順序是有意義的,robot會根據(jù)第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。所以,第三部分的禁止指令,對百度蜘蛛而言,是無效的。百度蜘蛛根據(jù)第一部分的要求,可以抓取所有URL。
實測:
空口無憑,我們可以實際測試一下。已知百度和Google對待Robots.txt文件的處理方式是一樣的,故而我們可以使用谷歌網(wǎng)站管理員工具中的“抓取工具的權(quán)限”功能來測試一下。
由于谷歌網(wǎng)站管理員工具只能測試已經(jīng)驗證所有權(quán)的網(wǎng)站,我這里用自己的博客來測試。
首先在測試用的Robots.txt中填寫如下信息:
User-agent: Googlebot
Disallow:
User-agent: Sogou
Allow: /
User-agent: *
Disallow: /
(注意,受測試環(huán)境影響,使用Googlebot代替百度蜘蛛,不過這不影響測試結(jié)果)
然后用谷歌網(wǎng)站管理員工具測試Googlebot抓取首頁()的結(jié)果,反饋如下:
第 2 行 Disallow: 允許訪問此網(wǎng)址
檢測為目錄;具體文件可能有不同限制
實測證明,搜狐微博的Robots.txt沒有屏蔽百度蜘蛛。
經(jīng)驗:
從事SEO工作,要重視兩個東西:第一,搜索引擎官方的公開文檔,尤其是百度和Google的正式資料,這些資料會透露很多搜索引擎對網(wǎng)頁的處理方法;第二,要重視谷歌提供的各種工具,尤其是網(wǎng)站管理員工具,可以通過這些工具進行各種測試。
本文作者:網(wǎng)絡(luò)營銷分析師蘇笛康,國內(nèi)第一批通過中國電子商務(wù)協(xié)會認證SEO工程師。個人博客: (郵件訂閱該博客贈送微博營銷電子書)。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!