不清楚您的網(wǎng)站日志中是否有出現(xiàn)過一個不太常見的CC蜘蛛,訪問名稱為:CCBot/2.0,下面我們具體來了解一下CCbot是什么蜘蛛?
一. CCbot是什么蜘蛛?
CCbot,全稱為Common Crawl Bot,是一個非營利性基金會致力于提供可以被所有人訪問和分析的Web爬網(wǎng)數(shù)據(jù)的開放存儲庫。
二. 你如何處理CCbot蜘蛛?
方法1. 使用robots.txt
使用robots.txt文件來允許或禁止蜘蛛訪問頁面的權(quán)限。robots.txt是放在網(wǎng)站根目錄中,蜘蛛來訪問時會先查找并查看robots.txt文件,并遵守robots協(xié)議來訪問網(wǎng)站上的內(nèi)容,允許訪問則訪問,不允許訪問蜘蛛則離開。
①. 不允許任何蜘蛛訪問您站點的任何部分
User-agent:*
Disallow:/
②. 允許任何蜘蛛訪問您站點的任何部分
User-agent:*
Disallow:
③. 不允許CCbot蜘蛛訪問網(wǎng)站的任何部分
User-agent:ccbot
Disallow:/
④. 允許CCbot蜘蛛訪問您站點的任何部分
User-agent:ccbot
Disallow:
⑤. 允許CCbot蜘蛛訪問您站點,但不允許CCbot訪問“wp-admin”文件夾
User-agent:ccbot
Disallow:/wp-admin
方法2. 使用元標記
可以在頁面中使用元標記來幫助控制搜索引擎蜘蛛對您網(wǎng)站的訪問權(quán)限。如果您為所有頁面使用模板,則可以在和之間添加元標記, 它將適用于使用該模板的所有頁面。如果要控制特定頁面,可以在和之間的各個頁面上添加元標記 。
①. 允許所有蜘蛛訪問您的頁面
②. 允許所有蜘蛛訪問您的網(wǎng)頁并跟蹤頁面上的鏈接
③. 允許所有蜘蛛訪問您的網(wǎng)頁,但不允許他們跟蹤鏈接
④. 不允許任何蜘蛛訪問您的網(wǎng)頁
⑤. 允許CCbot訪問您的網(wǎng)頁
⑥. 不允許CCbot訪問您的頁面
⑦. 允許CCbot訪問您的頁面并跟蹤更多頁面的鏈接
如果你在網(wǎng)站日志中也發(fā)現(xiàn)了CCbot,不要驚慌,你接下來需要做的就是是允許它繼續(xù)爬行還是禁止爬行?May個人覺得這類蜘蛛沒有多大的意義,一旦發(fā)現(xiàn)這類蜘蛛爬行比較頻繁,最好的方式就是禁止這些蜘蛛繼續(xù)訪問我們的網(wǎng)站。
原創(chuàng):MAY的SEO博客 https://may90.com/share/ccbot.html 未經(jīng)允許,請勿轉(zhuǎn)載!
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!