感謝大家在上篇文章中的踴躍參與!集體智慧太強(qiáng)大了!我準(zhǔn)備整理大家的發(fā)言,也加上我的發(fā)言,匯集成一個(gè)單獨(dú)的文章。
近期又在出差,前幾天跟同事學(xué)習(xí)了一些關(guān)于Adobe Omniture Discover的特點(diǎn),一時(shí)激動(dòng),在微薄上發(fā)了一個(gè)帖子,說(shuō)這是個(gè)超級(jí)工具,結(jié)果受到了大家的普遍興趣。也許有些言重,但很久沒(méi)有這么激動(dòng)的感覺(jué)了,若有言語(yǔ)不妥,請(qǐng)朋友們海涵。
今天繼續(xù)度量這個(gè)話題,對(duì)Visitor和Visit進(jìn)行更深入一點(diǎn)兒的挖掘。這個(gè)話題本來(lái)是不存在的,但是看到大家對(duì)這個(gè)系列第一集中關(guān)于visitor和visit的一些小疑惑,發(fā)現(xiàn)還是值得拿出來(lái)再說(shuō)一說(shuō)。仍然說(shuō)它的原因,并不在于讓大家死記住這兩個(gè)度量本身的相關(guān)規(guī)定,而是這兩個(gè)度量涉及了原理、方法和工具,這些是更有價(jià)值的知識(shí)。
為什么Visitor和Visit容易讓我們疑惑?
Visitor讓我們疑惑的,值得澄清的地方在于如下幾點(diǎn):
Visitor的含義是指訪問(wèn)的人數(shù),但visitor并不可能等同于真正的訪問(wèn)你的網(wǎng)站的自然人的數(shù)量。
Visitor與visit和page view這兩個(gè)度量不同的是,visitor跟時(shí)間的粒度(granularity)有關(guān):即使相同的時(shí)間長(zhǎng)度,時(shí)間粒度取的不同,visitor的數(shù)量也會(huì)不同。
相對(duì)而言,利用log file(日志法)對(duì)visitor的計(jì)數(shù)有先天不足,因此visitor這個(gè)概念對(duì)日志法較少使用。(關(guān)于什么是日志法,什么是標(biāo)記法請(qǐng)看我的這個(gè)文章:服務(wù)器日志法網(wǎng)站分析的原理及優(yōu)缺點(diǎn))
對(duì)于上面三點(diǎn)稍作一點(diǎn)兒解釋。第一點(diǎn),visitor的含義是網(wǎng)站的訪問(wèn)人數(shù),是具體的人??墒?,并不可能真正知道到底有多少人訪問(wèn)了你的網(wǎng)站。為什么呢?假如你和你的朋友公用一臺(tái)電腦,而且都用同一個(gè)瀏覽器訪問(wèn)我的博客(www.chinawebanalytics.cn, www.cwachina.com),這個(gè)時(shí)候用技術(shù)的方法來(lái)精確分辨出是兩個(gè)訪問(wèn)者非常困難——總不能在你的電腦上裝上一個(gè)攝像頭窺視吧!因此,無(wú)論技術(shù)發(fā)展到何種程度,我認(rèn)為100%準(zhǔn)確記錄訪問(wèn)網(wǎng)站的人數(shù)都是不太可能的,不僅是網(wǎng)站分析的工具難以做到,其他不同方法和不同工具也做不到(關(guān)于網(wǎng)站分析計(jì)數(shù)準(zhǔn)確性的研究,請(qǐng)大家看這篇文章:網(wǎng)站分析——我們的數(shù)據(jù)準(zhǔn)確嗎?)。
因此,人們采用了一些變通的方法來(lái)解決識(shí)別visitor數(shù)量的問(wèn)題,我后面會(huì)重點(diǎn)講到。
第二點(diǎn),visitor跟時(shí)間的粒度有關(guān)。所謂粒度,就是我們所說(shuō)的截取的時(shí)間范圍。舉個(gè)例子,2010年11月14日到11月20日這一周的七天,你在每天都訪問(wèn)了CWA網(wǎng)站一次(感謝這么忠誠(chéng)的讀者。:) ),那么如不同的時(shí)間粒度下visitor的計(jì)數(shù)不同。Weekly visitor是1,而daily visitor則是7。值得注意的是,對(duì)于所有的網(wǎng)站分析工具,weekly、monthly或者quarterly、yearly這樣的時(shí)間粒度都是指日歷上的自然周、月或者季度和年。因此,雖然11月24日到11月30日也是七天,而且你分別在這期間的11月25日和11月29日訪問(wèn)了我的CWA網(wǎng)站,weekly visitor仍然會(huì)被記錄為2。
第三點(diǎn),日志法對(duì)于記錄visitor的數(shù)量是采用分辨IP的方法的。因此,在日志法中,我們常常提到的一個(gè)概念是獨(dú)立IP的數(shù)量,并借此指代實(shí)際的訪問(wèn)者數(shù)量。但是,今天的IP地址已經(jīng)不可能再跟計(jì)算機(jī)一一對(duì)應(yīng)了,更不用說(shuō)跟使用計(jì)算機(jī)的人一一對(duì)應(yīng)。因此,用這個(gè)方法統(tǒng)計(jì)visitor的數(shù)量存在很大誤差,逐漸被人們拋棄掉。
相對(duì)而言,visit的麻煩其實(shí)更多一點(diǎn):
為什么要存在visit?
Visit和session是什么關(guān)系?
關(guān)閉瀏覽器窗口對(duì)visit的計(jì)數(shù)有沒(méi)有影響?
關(guān)閉瀏覽器標(biāo)簽(Tab)對(duì)visit的計(jì)數(shù)有沒(méi)有影響?
從不同來(lái)源訪問(wèn)網(wǎng)站,一定會(huì)使這個(gè)網(wǎng)站visit的計(jì)數(shù)增加嗎?
Visit和unique page view是什么關(guān)系?
這些問(wèn)題普遍反映了大家對(duì)visit和(標(biāo)記法)網(wǎng)站分析的疑惑,但實(shí)際上,如果我們深入領(lǐng)會(huì)了visit的本質(zhì),解答這些問(wèn)題其實(shí)很容易。
首先,為什么要存在visit?我們說(shuō)過(guò),網(wǎng)站分析不是分析孤立的數(shù)據(jù)(這是跟過(guò)去網(wǎng)站簡(jiǎn)單的流量統(tǒng)計(jì)有本質(zhì)的區(qū)別的地方),而是分析網(wǎng)站訪問(wèn)者的行為。page view本身是一個(gè)個(gè)的孤立數(shù)據(jù),不能解答網(wǎng)站訪問(wèn)過(guò)程中,網(wǎng)頁(yè)之間的相互關(guān)系。例如,我說(shuō)首頁(yè)的page view是19,807,網(wǎng)站分析工具頻道首頁(yè)的page view是2,303次,這不能說(shuō)明首頁(yè)就一定更受歡迎。而visit,是指訪問(wèn)者來(lái)到網(wǎng)站的一系列打開(kāi)頁(yè)面的訪問(wèn)過(guò)程,是行為,是聯(lián)系page view和visitor的橋梁。Visit這個(gè)度量的重要性就在于,它幾乎是其他所有網(wǎng)站分析度量的基石,或者直接影響到了其他所有的網(wǎng)站分析度量。
其次,visit和session是什么關(guān)系呢?session和visit肯定不完全是一回事,但是你可以認(rèn)為這二者是一樣的名詞。因?yàn)檫@涉及到一些歷史。session是計(jì)算機(jī)原理課中的一個(gè)名詞,即一個(gè)“會(huì)話”,如果你學(xué)過(guò)網(wǎng)絡(luò)的七層結(jié)構(gòu)模型,你就一定還記得其中有一個(gè)session layer——會(huì)話層,就是指它。在日志法網(wǎng)站分析中,人們用session來(lái)表示一個(gè)連結(jié)的建立和解除,以用之描述visit。不過(guò),由于標(biāo)記法網(wǎng)站分析的出現(xiàn),visit直接采用了別的更好的方法表述(馬上也會(huì)重點(diǎn)講到),這樣就使session這個(gè)名詞實(shí)際上棄用了,而直接使用visit來(lái)表示一次訪問(wèn)行為。當(dāng)然,session作為技術(shù)上的一個(gè)名詞,是不會(huì)被丟掉的,但在網(wǎng)站分析上,人們采用了更符合自然語(yǔ)言的表達(dá)。
剩下還有幾個(gè)問(wèn)題,關(guān)于visit的計(jì)數(shù),以及visit和unique page view的關(guān)系,我會(huì)在下面首先跟朋友們解答visit和visitor的計(jì)數(shù)原理,然后在這個(gè)系列的下一篇中說(shuō)明visit和unique page view的區(qū)別和聯(lián)系,因?yàn)檫@一點(diǎn)將要引發(fā)出來(lái)的課題非常重要。為了弄清楚網(wǎng)站分析工具對(duì)于visit和visitor的計(jì)數(shù),我們先要搞清楚怎樣查看網(wǎng)站分析是否記錄到了網(wǎng)站訪問(wèn)者的行為數(shù)據(jù)。
怎樣查看網(wǎng)站分析工具是否捕捉到了數(shù)據(jù)
回答這個(gè)問(wèn)題,我們不能靠猜測(cè)了,我們要用幾種HTTP Sniffer(HTTP數(shù)據(jù)包嗅探器)工具(其實(shí)一般一種就夠了,但不妨我們多了解幾種)來(lái)探測(cè),如同用雷達(dá)探測(cè)天上的飛機(jī)。首先,我推薦一個(gè)我最喜歡的工具:
HttpWatch
HttpWatch(http://www.httpwatch.com/)肯定不是最強(qiáng)大的,但我覺(jué)得是最容易上手的,能夠跟IE和火狐很好的整合濟(jì)南網(wǎng)站建設(shè):網(wǎng)站導(dǎo)航應(yīng)該如何設(shè)計(jì)更好?,并且很穩(wěn)定。
其他工具
然后其他工具大家也可以試試。Charles(www.charlesproxy.com/),是最強(qiáng)大的工具。firebug,主要用來(lái)查看cookie,這是個(gè)免費(fèi)工具。另外還有WASP(http://webanalyticssolutionprofiler.com/),專門(mén)用來(lái)查驗(yàn)各種網(wǎng)站分析工具的軟件。還有httpfox,也是免費(fèi)的,從firefox的插件庫(kù)中可以找到,功能也基本上齊全了。
如果不想付費(fèi),建議裝上httpfox(或者基本版的HttpWatch),firebug和WASP(試用版)就足夠了。
怎樣查看網(wǎng)站分析工具是否捕捉到了數(shù)據(jù)
下面我以HTTPWatch為例,介紹如何查看網(wǎng)站分析工具是否捕獲到了數(shù)據(jù)。對(duì)這個(gè)部分熟知的朋友直接跳過(guò)。
1. 在Firefox瀏覽器空白頁(yè)中,打開(kāi)(快鍵Shift+F2)打開(kāi)HTTPWatch。
2. 啟動(dòng)HTTPWatch的記錄模式,即點(diǎn)擊下圖中的紅色框中的紅button。
3. 在地址欄中輸入你要檢查的網(wǎng)頁(yè)URL,打開(kāi)網(wǎng)頁(yè)。這個(gè)步驟可不需要拘泥于在地址欄中輸入U(xiǎn)RL,你一樣可以通過(guò)點(diǎn)擊外部鏈接來(lái)到這個(gè)頁(yè)面,HTTPWatch仍然會(huì)忠實(shí)的記錄頁(yè)面打開(kāi)過(guò)程中的HTTP數(shù)據(jù)包。這時(shí),你可以看到一條條的瀏覽器傳輸?shù)臄?shù)據(jù)記錄產(chǎn)生了。
請(qǐng)千萬(wàn)不要把這些記錄當(dāng)做是網(wǎng)站服務(wù)器的Log記錄,這是兩回事。
4. 上面的數(shù)據(jù)很多,怎么能看到網(wǎng)站分析工具捕獲的數(shù)據(jù)呢?利用過(guò)濾功能就好了。利用快捷鍵Ctrl+F9,調(diào)出過(guò)濾器,然后勾選Enabling Filtering,再勾選URL Contains,其下輸入“-analytics”,再點(diǎn)OK之后就過(guò)濾出頁(yè)面中GATC(Google Analytics Tracking Codes)發(fā)送的信息,如圖所示的兩條。如果你的頁(yè)面上加有多個(gè)GA profile ID,那么這個(gè)數(shù)據(jù)也可能是多條。如果過(guò)濾之后沒(méi)有數(shù)據(jù)了,說(shuō)明網(wǎng)頁(yè)沒(méi)有正常運(yùn)行GATC,或者沒(méi)有加入GATC,那當(dāng)然就是不能完成正常監(jiān)測(cè)啦。
對(duì)于Omniture SiteCatalyst,在過(guò)濾器中輸入“2o7”,就能把只是Omniture Tracking Code發(fā)出的監(jiān)測(cè)數(shù)據(jù)過(guò)濾出來(lái)。
現(xiàn)在,你有了這個(gè)好武器,它的用途可不只是讓你看看監(jiān)測(cè)代碼正常工作了沒(méi)有。我們下面要用它來(lái)檢查網(wǎng)站分析工具是如何計(jì)數(shù)visit和visitor的。
Visitor和visit如何計(jì)數(shù)?濟(jì)南網(wǎng)站建設(shè)www.qiawei.com
你可能會(huì)問(wèn),上面過(guò)濾之后的這兩條信息是什么東西?想要搞清楚這個(gè)問(wèn)題,我們得打開(kāi)另外一個(gè)話題,即網(wǎng)站分析工具獲取數(shù)據(jù)的原理。如果大家感興趣,我會(huì)另開(kāi)一篇帖子,如果沒(méi)興趣就算了,反正也不太影響大家直接進(jìn)行網(wǎng)站分析的實(shí)踐,在我未來(lái)計(jì)劃(現(xiàn)在還只是計(jì)劃,實(shí)在是忙的對(duì)不起大家)的書(shū)中會(huì)再專門(mén)提及。下面我們還是聚焦在網(wǎng)站分析工具如何計(jì)數(shù)這個(gè)問(wèn)題上。
你可以先閱讀這個(gè)帖子——網(wǎng)站分析工具如何辨別UV,然后再繼續(xù)往下看,一定會(huì)有新的收獲。在標(biāo)記法的網(wǎng)站分析中,除了page view之外,visitor和visit以及一切我們分析報(bào)告中顯現(xiàn)的度量和計(jì)數(shù)其實(shí)都是通過(guò)cookie實(shí)現(xiàn)的,只有在沒(méi)有cookie的情況下,才通過(guò)其他的方法實(shí)現(xiàn),因此,如果想要搞清楚visitor或者visit到底是如何被網(wǎng)站分析工具記錄的,最好的辦法是直接看看cookie是怎么記錄的。
不同網(wǎng)站分析工具cookie記錄的方法有所不同,但核心思想是一致的。因此,這里先說(shuō)說(shuō)Google Analytics的cookie設(shè)置,未來(lái)有機(jī)會(huì)再聊Omniture SiteCatalyst的,因?yàn)楹笳叩募軜?gòu)相對(duì)更加復(fù)雜。
Google Analytics的cookie設(shè)置
利用HttpWatch,我們點(diǎn)入第二條信息,然后選擇“Query String”標(biāo)簽,在下方的檢視窗口中出現(xiàn)了更多的信息。
先不管其他信息,我們直接看utmcc,這條記錄是GA跟visit和visitor相關(guān)的cookie信息。如下:
utmcc __utma=148702437.1696395432.1289879776.1290424992.1290508917.6;+__utmz=148702437.
1289882757.1.6.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90;
現(xiàn)在,我們一條條的看這些數(shù)據(jù)到底是什么意思。
utma
記錄visitor的信息,utma后面的信息,包括域的hash值,visitor的ID、訪問(wèn)時(shí)間相關(guān)信息和訪問(wèn)次數(shù)。utma對(duì)應(yīng)的信息,除非人為刪除,否則它在兩年后才失效。為了免去我自己作圖的痛苦,我直接利用了Google轉(zhuǎn)化大學(xué)中的圖,因此下圖中的數(shù)字信息跟上面的不一樣,但相應(yīng)信息的含義是完全一樣的。
本圖的來(lái)源為http://services.google.com/analytics/breeze/en/ga_cookies/index.html
版權(quán)歸Google所有
第一個(gè)藍(lán)色的字段是域名的哈希串,對(duì)于一個(gè)確定的域名來(lái)說(shuō),這個(gè)值是不會(huì)改變的。
第二個(gè)字段(綠色字段)是識(shí)別visitor的ID,就是這個(gè)綠色字段,標(biāo)識(shí)了不同的訪問(wèn)者,不同的值就意味著不同的訪問(wèn)者。這就是GA能夠辨別不同訪問(wèn)者的原因。這個(gè)值如果不發(fā)生人為地刪除cookie的情況的話,兩年后才會(huì)被替換為一個(gè)新的值。
第三個(gè)字段(紫色字段)是這個(gè)visitor第一次訪問(wèn)網(wǎng)站的時(shí)間,如果不刪除cookie,兩年內(nèi)這個(gè)值也不會(huì)變。這個(gè)時(shí)間是UNIX時(shí)間,0000000001代表著1970年1月1日0點(diǎn)0分1秒,之后每過(guò)一秒,數(shù)字加一。實(shí)際上UNIX時(shí)間是有點(diǎn)小錯(cuò)誤的,但是已經(jīng)不會(huì)再對(duì)使用產(chǎn)生影響。這里同學(xué)們需要注意了。這里以及cookie中其他的UNIX時(shí)間記錄,構(gòu)成了GA的整個(gè)時(shí)間度量系統(tǒng)。時(shí)間是這么創(chuàng)造的!
第四個(gè)字段(淺藍(lán)色字段)是這個(gè)visitor前一個(gè)visit開(kāi)始的時(shí)間。
第五個(gè)字段(淺紫色字段)是這個(gè)visitor這一次visit開(kāi)始的時(shí)間。
第六個(gè)字段(最后那個(gè)獨(dú)立數(shù)字)太重要了,是記錄這個(gè)visitor訪問(wèn)網(wǎng)站的次數(shù)。
現(xiàn)在,再回頭看看前面的我的網(wǎng)站(CWA,China Web Analytics,http://www.chinawebanalytics.cn)的utma,大家會(huì)發(fā)現(xiàn)這個(gè)visitor(就是我)已經(jīng)有6次訪問(wèn)了。
通過(guò)第六個(gè)字段值的增加與否,就能判斷GA是否記錄某一次訪問(wèn)行為為一次新的visit。
utmz
utmz的功能是用來(lái)記錄網(wǎng)站訪問(wèn)者的來(lái)源(即Traffic Source或者Campaign),如下:
這里各個(gè)字段的含義除了Campaign Number之外就不多解釋了,大家肯定能看懂。Campaign Number是指這個(gè)訪問(wèn)者通過(guò)不同來(lái)源(除了直接來(lái)源)訪問(wèn)網(wǎng)站的來(lái)源數(shù)。如果通過(guò)了一個(gè)新的來(lái)源訪問(wèn)了網(wǎng)站,即使是在一個(gè)visit之內(nèi),campaign number也會(huì)加一,但visit并不會(huì)增加。
Campaign number的作用我并不是很明確,很希望知道的朋友告訴我。我知道的是,如果在一個(gè)visit之內(nèi),訪問(wèn)者通過(guò)多個(gè)來(lái)源訪問(wèn)了網(wǎng)站,那么GA默認(rèn)把最后的那個(gè)來(lái)源歸為這個(gè)visit的主人。如果你用utm_nooverride=1配置,那么GA則會(huì)把第一個(gè)來(lái)源記錄為這個(gè)visit的主人。
utmb和utmc
utmb和utmc是另外兩個(gè)重要的cookie信息,在免費(fèi)版本的HttpWatch中看不到,不過(guò)沒(méi)關(guān)系,大家用firebug就能看到。
簡(jiǎn)單講,utmb和utmc都是記錄visit的cookie。兩個(gè)cookie的區(qū)別是,utmb在30分鐘后過(guò)期,如果utmb過(guò)期刷新,那么visit也被刷新。utmc是瀏覽器關(guān)閉則隨瀏覽器一起關(guān)閉(失效),再打開(kāi)瀏覽器訪問(wèn)那個(gè)網(wǎng)站,visit也被刷新。這就是為什么GA的visit在不活動(dòng)30分鐘后結(jié)束,以及關(guān)閉瀏覽器結(jié)束的原因。
好了,講到這里,可能很多朋友會(huì)有恍然大悟的感覺(jué)。我希望你們能有這樣的感覺(jué),否則我真的應(yīng)該隱退了。如果您有這樣的感覺(jué),一定在留言框中寫(xiě)點(diǎn)兒什么——心得、意見(jiàn)、問(wèn)題,或者其他什么都可以。
出差很忙很累,所以博客發(fā)晚了些,請(qǐng)大家原諒。后面是否寫(xiě)寫(xiě)網(wǎng)站分析工具獲取數(shù)據(jù)的原理,看朋友們的反饋咯!
11月底了,悉尼已經(jīng)可以看到圣誕節(jié)的氣氛,到處都能看到圣誕樹(shù),可是這里的圣誕在夏天,感覺(jué)實(shí)在是太怪了。北京的圣誕節(jié),時(shí)有下雪,感覺(jué)自然完全不同。預(yù)祝朋友們圣誕愉快!
原文地址:http://www.chinawebanalytics.cn/metrics-and-its-back-story-2/
網(wǎng)站分析案例(1)——瘋狂提升的收入目標(biāo)
聯(lián)系客服