當(dāng)前位置:首頁 >  站長 >  網(wǎng)站運營 >  正文

百度,請別在動我的蛋糕(cookie)!

 2007-08-14 15:51  來源:   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

    不靠譜

    包子餡不靠譜,

    包子餡的報道更不靠譜

    韓國隊不靠譜

    日本隊也不靠譜

    中國隊掉鏈子靠譜

    17tech說呂博望的報告不靠譜

    呂博望說CNNIC的報告不靠譜

    雅虎覺得艾瑞報告不靠譜

    搜狗覺得易觀報告的不靠譜

    百度說,你們都不靠譜,我來做報告

    這是我在上一篇文章《誰的話不靠譜》的結(jié)尾。

    最近不靠譜的事情太多,不靠譜的人也太多。不過,呂伯望的報告就因為四舍五入產(chǎn)生了0.1%的誤差,遭遇質(zhì)疑,筆者看來頗有些冤枉;而他在第一次IT龍門陣上所演示的CNNIC的報告的缺陷,倒有幾分道理。之后的幾份搜索報告(艾瑞和易觀)也因調(diào)查結(jié)果大相徑庭而遭遇了質(zhì)疑,看來搜索報告還真沒有多少靠譜的。

    百度卻是真的開始作報告了。最近百度新開辟了二級頻道:百度數(shù)據(jù)研究中心(data.baidu.com),其中有六個行業(yè)的報告可供了下載,分別是銀行行業(yè)、基金行業(yè)、網(wǎng)絡(luò)游戲、汽車業(yè)、化妝品和家電業(yè)。

    大型網(wǎng)站網(wǎng)絡(luò)調(diào)查優(yōu)勢

    我對大網(wǎng)站涉足咨詢行業(yè)還是有些信心,他們至少能在數(shù)據(jù)源的樣本數(shù)量上能得到充分的保證,照理說應(yīng)該比較靠譜。呂伯望在回答我關(guān)于調(diào)查成本的問題時表示,電話調(diào)查雖然相對入戶調(diào)查成本大大降低,但也因此產(chǎn)生了一些誤差,調(diào)查受資金限制而產(chǎn)生了一些誤差。在我看來,CNNIC只要把中國有多少上網(wǎng)人口調(diào)查出來即可,其他關(guān)于互聯(lián)網(wǎng)用戶更深入的調(diào)查完全可以通過網(wǎng)絡(luò)問卷的方式完成。網(wǎng)絡(luò)調(diào)查成本極低,而調(diào)查樣本可以大大增加,數(shù)據(jù)的準(zhǔn)確性也有了保證。因此,大型網(wǎng)站在數(shù)據(jù)收集方面擁有一定的優(yōu)勢。

    百度的報告靠譜么?

    百度雖然一下子編制了6本報告,人們卻沒有看到相關(guān)網(wǎng)絡(luò)調(diào)查表,那么百度是通過什么方法獲得數(shù)據(jù)的呢?筆者打開了其中的一份報告,關(guān)于調(diào)查方法是這樣描述的:

    搜索引擎能采集用戶主動需求的文字表達(dá)(即關(guān)鍵詞查詢),因此對用戶真實需求的把握較之門戶網(wǎng)站更占優(yōu)勢。通過 Cookie 跟蹤,能把關(guān)鍵詞與具體的需求掛上鉤。我們假設(shè)每一個Cookie 代表一個潛在消費者(在技術(shù)上和統(tǒng)計學(xué)上是成立的,同時技術(shù)后臺可屏蔽掉多個用戶使用的 Cookie,如網(wǎng)吧 Cookie),那么該 Cookie 在一定時間內(nèi)的關(guān)鍵詞集合能全面反映他(她)關(guān)注的信息。我們對這些信息進(jìn)行系統(tǒng)編碼、清理和分析,把不同 Cookie 檢索的關(guān)鍵詞進(jìn)行交叉分析,發(fā)現(xiàn)網(wǎng)民搜索的群體行為,最后整合成行業(yè)報告。

    原來百度是依靠用戶的cookie和對關(guān)鍵詞的整理分析生成的報告。那么百度的報告靠譜么?

    從采樣數(shù)量看,百度是中國流量最高的網(wǎng)站,每天訪問人次數(shù)以億計,百度的報告稱采樣的數(shù)量達(dá)到了百萬數(shù)量級??梢?,從調(diào)查用戶的數(shù)量上看的確非??捎^。

    但從調(diào)查方法上看,筆者認(rèn)為還是存在一定的漏洞。

    其一、百度的技術(shù)后臺“屏蔽掉多個用戶的cookie”,那么意味著,網(wǎng)吧用戶的統(tǒng)計被剔除掉。但國內(nèi)網(wǎng)民在網(wǎng)吧上網(wǎng)的比例有1/3強(qiáng),絕對數(shù)量巨大。去掉這些信息會導(dǎo)致結(jié)果出現(xiàn)偏差,這在網(wǎng)絡(luò)游戲上的結(jié)果上最為 明顯。

    其二、國內(nèi)上網(wǎng)用戶還普遍存在一個家庭多個用戶的情形,如夫妻共用一臺電腦,家庭共用一臺電腦的情形(筆者認(rèn)為這些也比較普遍);

    其三、某些用戶使用多臺電腦,例如筆者辦公和家庭就使用不同的電腦,按照百度的統(tǒng)計口徑,這些用戶的數(shù)據(jù)被重復(fù)計算了,而這正是統(tǒng)計學(xué)所忌諱的。

    其四、百度所有用戶的調(diào)查結(jié)果是基于百度搜索用戶的。非搜索引擎用戶或者非百度用戶,就難以統(tǒng)計進(jìn)去,這部分用戶的比例保守估計也在1/3左右(根據(jù)CNNIC的搜索引擎數(shù)據(jù))。

    因此,百度的報告正如CNNIC的報告一樣,在計算方法上還存在一定的漏洞,盡管龐大的采樣數(shù)據(jù)能夠彌補(bǔ)其中一些不足。筆者認(rèn)為百度的報告只具有一定參考意義,并不能完全反映行業(yè)全貌。

    當(dāng)然,筆者更關(guān)心的是百度是如何利用我們的cookie來制作報告的,百度是不是動了我們的cookie,動了我們的蛋糕。

    百度,請別動我的蛋糕

    Cookie,英文指就著牛奶一起吃的點心,我直接翻譯為“蛋糕”。在因特網(wǎng)內(nèi),“cookie”這個字有了完全不同的意思。“cookie”是小量信息,由網(wǎng)絡(luò)服務(wù)器發(fā)送出來以存儲在網(wǎng)絡(luò)瀏覽器上,從而下次這位獨一無二的訪客又回到該網(wǎng)絡(luò)服務(wù)器時,可從該瀏覽器讀回此信息。

    Cookie可以保持登錄信息到用戶下次與服務(wù)器的會話,換句話說,下次訪問同一網(wǎng)站時,用戶會發(fā)現(xiàn)不必輸入用戶名和密碼就已經(jīng)登錄了。我們在登錄論壇的時候就經(jīng)常發(fā)現(xiàn)這種情形。

    百度的報告編制說明中,特意提到了Cookie:

    通過“關(guān)鍵詞組合”判斷各個 Cookie 代表的個人信息,比如性別傾向、收入范圍、行業(yè)領(lǐng)域的相關(guān)喜好,我們對各種需求有一個“群”的把握,比如剛畢業(yè)(21-23 歲)的女性的總體消費特征。

    但百度不以具體用戶的個人信息作為分析對象,一個 Cookie 只是收集需求(關(guān)鍵詞)的橋梁,它代表的人其實是一個與實際需求相聯(lián)系的虛擬人,我們完全不知道他(她)是誰,也沒有聯(lián)系方式,但通過他們的檢索軌跡,我們可以知道他(她)的需求。

    看來cookie在百度的報告中是十分關(guān)鍵的一環(huán)。它居然能讓百度不利用傳統(tǒng)的市場調(diào)查問卷,僅憑對用戶cookie的分析,就能夠收集各種個人信息:通過人們的檢索軌跡,而得到用戶的需求資料,最后形成報告。

    百度所利用的cookie數(shù)據(jù)應(yīng)該有以下兩種:

    第一種是大多數(shù)情況下,人們并不是登錄百度就進(jìn)行搜索的,由于沒有錄入帳號和密碼,百度就沒法通過用戶ID和密碼來區(qū)分調(diào)查個體(所謂的虛擬人),為了能夠區(qū)分,百度不得不記錄用戶的一些電腦信息,如內(nèi)網(wǎng)IP,操作系統(tǒng)信息,瀏覽器信息等等,否則就無法區(qū)分不同的用戶。

    第二種在用戶登錄的情況下(貼吧、知道博客等產(chǎn)品)使用搜索引擎,百度通過cookie記錄下用戶的ID和其他信息來區(qū)分不同對象。而這類用戶信息在百度的數(shù)據(jù)庫中可能更加詳細(xì),其中包括用戶向網(wǎng)站提供的年齡、性別、職業(yè)等等非常全面的信息。

    只有在完成此步以后,百度才有可能對收集到的人們檢索軌跡進(jìn)行歸類,分析得到結(jié)果,否則,就只有一堆關(guān)鍵詞,沒有任何意義。

    顯而易見,無論是哪種方式,百度都是在利用用戶的cookie和隱私獲得了報告結(jié)果。這也就不難理解,為什么百度沒有作一份調(diào)查問卷卻能獲得百萬數(shù)量調(diào)查樣本,百度在利用我們的cookie和隱私,百度通過我們的小蛋糕(cookie)完成了他們的大蛋糕(報告)。

    百度已經(jīng)動了我們的蛋糕!百度正在動我們的蛋糕!

    微軟公司07年7月23日宣布,用戶的IP地址和其他與網(wǎng)絡(luò)搜索相關(guān)的識別數(shù)據(jù),包括用戶身份證號碼、出生日期和居住地址等資料,將在18個月后永久刪除。此外,微軟還承諾,將把搜索關(guān)鍵字與賬戶資料分開存儲

    雅虎和aol將刪除cookie的時間縮短為13個月,GOOGLE將刪除cookie的時間縮短為一年半,搜索引擎保留用戶敏感數(shù)據(jù)的時間也在不斷縮短。大型網(wǎng)絡(luò)公司隱私保護(hù)正在不斷加強(qiáng)。

    百度卻在大多數(shù)人不知情的前提下(關(guān)于通過cookie收集資料,只有在報告中提及),利用我們的cookie,關(guān)鍵詞檢索記錄制作了一份份行業(yè)報告。與那些大型網(wǎng)站和他的搜索同行相比,百度實在應(yīng)該反思一下。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • cookie為何影響搜索引擎優(yōu)化排名?

    百度會將我們喜歡的網(wǎng)站與內(nèi)容推送到我們的面前。因為,我們天天瀏覽自己的網(wǎng)站,所以,在搜索某些關(guān)鍵詞時,我們看到的排名會更高一些,但這個排名也不至于特別夸張了

  • 百度優(yōu)化建議合理使用cookie如何解決

    看到百度優(yōu)化提示cookie越小越好,而且對于靜態(tài)文件需要避免設(shè)置cookie,站長們估計不知道該怎么做了,這里我告訴大家我的解決方法。要將靜態(tài)文件放在不同域下,才能讓靜態(tài)文件避免設(shè)置cookie,建議將網(wǎng)站的靜態(tài)文件(如圖片、css、js等)放在一個專門的域名下訪問,由于這個域名與主站的域名不同,

  • Cookie仍舊是清白的

    谷歌昨天與哥倫比亞特區(qū)檢察機(jī)關(guān)達(dá)成和解,支付1700萬美元了結(jié)秘密追蹤網(wǎng)絡(luò)瀏覽,侵犯消費者隱私的案子。這已不是谷歌第一次為此類行為支付罰款了,去年谷歌還因相同行為被美國聯(lián)邦貿(mào)易委員會罰款2250萬美元。號稱不作惡的谷歌,在這方面犯下的具體錯誤是,利用技術(shù)手段繞開蘋果safari瀏覽器的禁止追蹤功能,

    標(biāo)簽:
    cookie
  • Google ADID來了 后Cookie時代的替代品是什么?

    近期鬧得沸沸揚揚谷歌考慮用一套新的匿名廣告標(biāo)識符系統(tǒng)AdID取代傳統(tǒng)的cookie追蹤技術(shù)。這套匿名識別符系統(tǒng),被業(yè)內(nèi)人士形象的比喻為“超級Cookie”。筆者暫時將它稱之為后Cookie時代的替代品。筆者認(rèn)為催生“超級Cookie”或者說是傳聞的“GoogleADID”有兩個很重要的因素:1、傳統(tǒng)

    標(biāo)簽:
    cookie
  • 站長網(wǎng)每日播報:Cookie引爭議 京東啟用新域名

    1.網(wǎng)購化妝品三大傳言起底:水貨、摻假、高仿網(wǎng)銷化妝品80%是假貨的傳聞一時沸沸揚揚,消費者對于網(wǎng)銷化妝品質(zhì)疑不斷。近日,北京商報記者多方調(diào)查采訪,撥開了低價網(wǎng)銷化妝品的神秘面紗。相關(guān)閱讀:網(wǎng)購化妝品三大傳言起底:水貨、摻假、高仿網(wǎng)購化妝品便宜的秘密

    標(biāo)簽:
    cookie

熱門排行

信息推薦