網(wǎng)站流量分析(Web Analytics)的工具分為兩大類, 一類是以Google Analytics為代表的在線統(tǒng)計系統(tǒng), 英文稱Page tagging。國內(nèi)的武林榜,51yes,國外的Hitbox, Nielsen NetRatings, OneStat 都屬于此類。這一類的重要特點是,分析時需要在里頁面嵌入代碼,這也是Page Tagging這個詞的由來。 另一類就是日志分析,英文稱Log Analysis, 特指web服務(wù)器的日志分析就是Web Log Analysis。 Nihuo Web Log Analyzer, awstats, analog 都屬此類,這一類的特點是不用在頁面嵌入代碼,而是靠分析web 服務(wù)器產(chǎn)生的日志來生成統(tǒng)計報表。
經(jīng)常有人問起這兩種方法哪個更好,解釋次數(shù)多了,自己都煩了,現(xiàn)在在這里統(tǒng)一回答一下。涉及到兩類產(chǎn)品的比較時,就分別以Google Analytics( http://www.google.com/analytics/ )和Nihuo Web Log Analyzer( http://www.loganalyzer.net/ )為例了。
網(wǎng)站流量分析機制的差異
在線網(wǎng)站流量統(tǒng)計(Page tagging)的實現(xiàn)機制
Google Analytics需要在所有需要統(tǒng)計的頁面中插入如下的Java Script統(tǒng)計代碼,只有插入了代碼的頁面才能被統(tǒng)計,
- <script xsrc="http://www.google-analytics.com/urchin.js" type="text/javascript">
- </script>
- <script type="text/javascript">
- _uacct = "UA-xxxxxx-x"; //統(tǒng)計賬號
- urchinTracker();
- </script>
這段Java script做的工作如下:
- 判斷用戶是不是第一次訪問這個網(wǎng)站。它是通過cookie來判斷, 如果特定Cookie不存在它就會認為是新用戶,它會種一個用戶標識的cookie,并在cookie中記錄下用戶第一次訪問時的Refrrer,即來源網(wǎng)站。 如果是從搜索引擎過來的,它還會分離出用戶搜索用的關(guān)鍵詞并記錄下來
- 判斷用戶是不是新的訪問(New Visit),并獲取當前瀏覽的頁面URL,標題,Referrer(來源網(wǎng)址),客戶端信息(如屏幕分辨率,語言,flash版本,是否支持java )
- 創(chuàng)建一個image對象,調(diào)用http://www.google-analytics.com/__utm.gif,把上面所有的信息作為圖像文件的參數(shù)傳回去。這個圖像文件其實就是1個像素的gif文件,而且這個像素還是透明的,在頁面中是看不到的。
其他的在線統(tǒng)計系統(tǒng)與Google Analytic有些細微的差別, 比如Nielsen NetRatings要求嵌入的javascript代碼中還包含有如下代碼:
- <noscript>
- <img xsrc="//secure-cn.imrworldwide.com/cgi-bin/m?ci=cn-sina2006&cg=0" alt=""/>
- </noscript>
這確保了在javascript被禁止的客戶端,用戶的訪問也能被統(tǒng)計。當然,這種情況下能統(tǒng)計的信息很有限了。關(guān)于這些在線系統(tǒng)實現(xiàn)方法上的一些細微差別做過專門研究,說起來就很長了,哪天有時間會單獨寫個文章講這個話題。
日志分析(Web Log Analysis)的實現(xiàn)機制
Web服務(wù)器在工作時會把所有用戶發(fā)過來的請求和相應(yīng)情況記錄在文件里,這個文件就是日志文件。下面就是從http://www.loganalyzer.net/log-analysis-tutorial/log-file-sample-explain.html 找到的一行日志:
111.111.111.111 - - [08/Oct/2007:11:17:55 -0400] “GET /support.html HTTP/1.1″ 200 10801 “http://www.google.com/search?q=log+analyzer&ie=utf-8&oe=utf-8 &aq=t&rls=org.mozilla:en-US:official&client=firefox-a” “Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7″
在這一行里包含了客戶端IP(111.111.111.111),時間([08/Oct/2007:11:17:55 -0400] ),請求方法(Get),請求文件(/support.html ),HTTP協(xié)議版本(HTTP/1.1),返回狀態(tài)碼(200,表示成功),文件大?。?0801 ),Referrer信息(”http://www.google.com/search?q=log+analyzer&ie=utf-8&oe=utf-8 &aq=t&rls=org.mozilla:en-US:official&client=firefox-a”),Agent信息”Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7″)。具體如何詳細解讀日志會另文闡述,在這里只是展示一下日志中都包含什么信息。
Nihuo Web Log Analyzer就是靠讀入日志文件在本地進行統(tǒng)計計算而得出最終報表的。在大部分Web日志文件中,都是靠IP來判斷訪問者。Nihuo Web Log Analyzer也可以通過Cookie識別用戶,但需要在日志中首先輸出Cookie信息。
在線統(tǒng)計與日志分析的優(yōu)缺點比較
上面費比較多的筆墨說兩者的實現(xiàn)機制,就是為了大家能更好理解這一段,因為兩種方法的優(yōu)缺點都是由他們的實現(xiàn)機制決定的。
在線網(wǎng)站流量統(tǒng)計(Page tagging)的優(yōu)點
- 通過Cookie識別訪問者,比依靠IP識別要更準確。因為通過IP識別用戶在遇到很多用戶通過代理服務(wù)器(比如網(wǎng)吧)時就會不準確。而且當用戶過幾天后再訪問時,通過Cookie能很好的識別這是已經(jīng)來過的用戶。而日志分析以IP識別用戶時,因為用戶每次上網(wǎng)撥號可能會被動態(tài)分配不同的IP,就會比較難準確判斷返回用戶。
- 能通過javascript搜集到一些通過日志不能搜集到的客戶端信息,屏幕分辨率,語言,flash版本,是否支持java 等
- 使用方便,只要在所有頁面插入了統(tǒng)計代碼,以后每次直接看報表即可
- 可以做第三方統(tǒng)計, 比如你在blogspot.com開了一個blog,而blogspot是不可能把他們的web日志提供給你的,這時候沒有別的選擇,只能是用在線統(tǒng)計系統(tǒng)。
在線網(wǎng)站流量統(tǒng)計(Page tagging)的缺點
- 當客戶端禁止Javascript或禁止Cookie時,都會影響統(tǒng)計結(jié)果,要么是完全統(tǒng)計不到,要么是出現(xiàn)錯誤的統(tǒng)計
- 存在一定誤差,因為在線統(tǒng)計是通過javascript把客戶端信息搜集起來再傳回服務(wù)器實現(xiàn)統(tǒng)計,有時因為網(wǎng)絡(luò)的延遲,會出現(xiàn)沒有統(tǒng)計到的情況。而且和頁面的載入速度也有關(guān)系,把代碼加在頁面代碼頂部或尾部統(tǒng)計結(jié)果都是會有差異的。
- 不能統(tǒng)計用戶對圖像,視頻,音頻等文件的訪問,因為這些文件不能插入統(tǒng)計代碼
- 不能統(tǒng)計帶寬信息
- 統(tǒng)計信息被第三方掌握,有安全上的危險
日志分析(Web Log Analysis)的優(yōu)點
- 沒有網(wǎng)絡(luò)延遲的問題,統(tǒng)計準確
- 可以統(tǒng)計網(wǎng)絡(luò)蜘蛛(spider ,bot)的訪問,這對于做SEO比較重要
- 能夠統(tǒng)計非頁面文件,如圖像,flash文件等等
- 客戶端禁止了Javascript和Cookie也不影響統(tǒng)計的結(jié)果
- 能夠采用豐富的過濾器(Filter)進行數(shù)據(jù)挖掘(Data mining),可以從多角度分析網(wǎng)站流量和用戶的訪問行為。一些在線統(tǒng)計也支持Filter, 比如Google Analytics,但是一旦應(yīng)用過濾器最終數(shù)據(jù)就被改變,原始數(shù)據(jù)是找不回來的。
- 可以多域名的日志放在一起分析,在線統(tǒng)計系統(tǒng)對用戶的標識是基于Cookie的,而Cookie是不能跨域名的,在這方面日志分析有天然的優(yōu)勢。
- 安全,分析數(shù)據(jù)是由你自己掌握的
日志分析(Web Log Analysis)的缺點
- 使用比較麻煩,每次要分析日志,而且有的還要配置web服務(wù)器以輸出合適的日志。
- 用IP追蹤用戶不如Cookie準確。 不過這個問題可以通過在Web服務(wù)器上添加插件或模塊來解決。Apache需要添加mod_usertrack模塊,并在日志中輸出cookie信息。IIS可以裝ISAPI的插件(自己用VC6寫了一個,可以從http://www.doyj.com/downloads/cookiefilter.dll 下載,不過這個當時只是寫來測試的,出了什么問題可別怪我 )。也可通過javascript,php,asp等語言給客戶端種植cookie,這講起來就長了,大家可以google相關(guān)資料看看。
- 搜集的客戶端信息不如Page Tagging豐富,象flash版本,是否安裝java之類從日志是看不出來的
- 日志的存儲管理也是挺頭痛的事,尤其是當每天都產(chǎn)生幾十G日志的時候。
經(jīng)常有人問這兩種方式哪個更好,應(yīng)該選擇哪種,這讓我很難回答。 因為這兩種方式都各有所長各有所短,只用一種方法很難準確完整的了解網(wǎng)站流量的的全貌,我自己做分析時兩種工具都使用的,兩個報告互相參考著看,也推薦大家采用這個方式。
注:這篇文章借鑒了一些 http://www.kichus.in/2006/09/23/log-file-analysis-page-tagging/ 的內(nèi)容
標簽:
網(wǎng)站流量分析 google Google Analytics IT log analysis web analytics 日志分析
Written by oldmonk on 十一月 12th, 2007 with 1 comment.
Read more articles on IT.
- [+] Digg: Feature this article
- [+] Del.icio.us: Bookmark this article
- [+] Furl: Bookmark this article
-
-
記得自己最早的網(wǎng)站流量分析(Web analytics) 是1997年左右的時候,當時網(wǎng)易開放40M免費個人網(wǎng)頁空間的申請,自己也申請了一個,再去網(wǎng)上找了個免費的計數(shù)器掛上去。 然后每天看著計數(shù)器的跳動激動不已,其實一大半是自己刷出來的。這就算是最早的網(wǎng)站流量分析了吧。
開發(fā)日志分析軟件這些年來,接觸了不少國內(nèi)的網(wǎng)站,對國內(nèi)網(wǎng)站的流量分析有個大致的了解。下面據(jù)此對網(wǎng)站流量分析的水平劃分出幾個等級,大家可以對照看看自己屬于哪個等級。
菜鳥級的網(wǎng)站流量分析 (No web analytics)
這個水平的就是什么統(tǒng)計分析都不做, 自己站點的訪問量大約是什么數(shù)量級都不知道。對uv, pv, unique ip這些基礎(chǔ)概念都一問三不知。一些個人站點這樣還情有可原,可很多企業(yè),政府網(wǎng)站居然也這樣就說不過去了。
入門級的網(wǎng)站流量分析 (Junior web analytics)
到了這級已經(jīng)知道了網(wǎng)站流量統(tǒng)計的基本概念,已經(jīng)懂得在自己網(wǎng)頁上插入武林榜( http://www.50bang.com ), 51yes ( http://count.# )之類的在線統(tǒng)計代碼,或者隔三岔五看看虛擬主機用開源軟件(比如awstat( http://awstats.sourceforge.net ), analog( http://www.analog.cx ), webalizer( http://www.mrunix.net/webalizer )) 分析出來的日志分析報表。這一級別的人知道光看pv不行,還要看uv和unique ip。 懂得看Referrer(來源網(wǎng)站)報表,研究Search Phrase(搜索關(guān)鍵詞)報表。他們能根據(jù)看到的報告,及時調(diào)整自己網(wǎng)站的內(nèi)容及經(jīng)營策略。比如發(fā)現(xiàn)uv少了,就加大推廣力度;發(fā)現(xiàn)搜索引擎過來的人少了,就做SEO;看地域統(tǒng)計報告,發(fā)現(xiàn)廣東過來人少了,就趕緊安排一些針對廣東的彈窗廣告之類。國內(nèi)的網(wǎng)站大都是這個級別。
高手級的網(wǎng)站流量分析 (Master of web analytics)
這個級別和入門級最重要的差別在于, 入門級的人關(guān)心有多少人到了自己的網(wǎng)站, 而高手級的人還懂得關(guān)心,甚至更關(guān)心:人們到自己的網(wǎng)站都干了什么。也就是說他們懂得用戶行為分析 (Visitor behavior analysis) 的重要性。使用的工具中,國內(nèi)那些簡單的在線統(tǒng)計網(wǎng)站早就被剔除了,使用的是Google Analytics( http://www.google.com/analytics/ ),及收費的Nielsen NetRatings( http://www.nielsen-netratings.com/ )等在線統(tǒng)計系統(tǒng), 同時還采用Nihuo Web Log Analyzer( http://www.loganalyzer.net/ )等專業(yè)的日志分析器,做到在線統(tǒng)計與日志分析相結(jié)合 。 他們分析的也不只是流量,而是包括網(wǎng)站內(nèi)容,網(wǎng)站鏈接結(jié)構(gòu),SEO等多方面的數(shù)據(jù);做的不再只是網(wǎng)站流量分析 (web traffic analytics) 而是進化成整體的網(wǎng)站分析 (web analytics)。他們關(guān)注用戶的訪問路徑;關(guān)注每個關(guān)鍵詞過來的流量在登錄頁面,Bounce rate(彈出率),停留時間,訪問路徑等等指標上的細微不同;對一些重要頁面進行單獨的Tracking(跟蹤),關(guān)注這些頁面的每個細節(jié); 他們還能熟練使用各種filter(過濾器),能在幾M到上百G的日志中進行數(shù)據(jù)挖掘工作,從中挖掘出有價值的數(shù)據(jù);他們能輕易判斷報表上反映的問題是技術(shù)問題,還是網(wǎng)頁設(shè)計問題,還是網(wǎng)站推廣問題。 他們的眼睛能透過報表上紛繁的數(shù)字,看到數(shù)字背后的真相。
專家級的網(wǎng)站流量分析 (Expert of web analytics)
專家級的人已經(jīng)不滿于現(xiàn)有的各種工具和指標,他們會針對自己的網(wǎng)站特點,提出一些很有針對性的新指標,他們會為自己的網(wǎng)站開發(fā)極有針對性的分析系統(tǒng),甚至開發(fā)自己的日志系統(tǒng)。他們不只是看到數(shù)據(jù)背后的真相,而是會自己主動發(fā)掘新的數(shù)據(jù),并把自己的網(wǎng)站變成數(shù)據(jù)驅(qū)動(Data Driven)型的網(wǎng)站。網(wǎng)站的每個設(shè)計,每個推廣活動,每個決策,不是拍腦子想出的結(jié)果,不是開無聊會議的結(jié)果,而都是有強大的分析數(shù)據(jù)來支持。 每個決策的效果又能及時統(tǒng)計分析,變成數(shù)據(jù)再反饋回來,讓網(wǎng)站及時調(diào)整決策,乃至改進整個數(shù)據(jù)分析的流程和方法。
最高級 - 仙級的網(wǎng)站流量分析 (God of web analytics)
他們從專家級中走過來,從網(wǎng)站分析 (web analytics) 中看到的已不只是對過去的總結(jié),還能從中能看到將來變化的趨勢,并幫助網(wǎng)站提前把握這種趨勢;他們不只是看自己網(wǎng)站的分析,還看競爭對手,同行業(yè)乃至整個互聯(lián)網(wǎng)的情況,并根據(jù)掌握的這些情況對自己網(wǎng)站的流量做出更合理的分析解釋,并做相應(yīng)調(diào)整;他們有廣博的知識,能把其他方面的知識應(yīng)用到分析中來,了解社會及自然界發(fā)生的一些事情可能對網(wǎng)站流量的影響;他們對網(wǎng)站流量分析有著自己獨到的見解;他們在公司里是傳播分析思想與方法的中心人物;他們不只是對分析技術(shù),而且對整個網(wǎng)站的機制和涉及到的技術(shù)都有深入的理解;他們是一個網(wǎng)站走向成功的重要保證。
國內(nèi)這方面的水平還比較低。在國外很多公司在招專業(yè)的網(wǎng)站分析員(Web analyst),而在國內(nèi)的51job( http://www.51job.com )找不到這個職位的招聘。 國內(nèi)很多網(wǎng)站把網(wǎng)站流量分析當作是網(wǎng)管附帶的工作,不要說專職的部門,連專職的分析人員也沒有。有時還不止是缺乏數(shù)據(jù)分析的問題,不少網(wǎng)站還熱衷于制造數(shù)據(jù),比如alexa( http://www.alexa.com )排名之類,對這些網(wǎng)站說重視數(shù)據(jù)分析,說從流量數(shù)據(jù)分析中挖掘出金礦無異于對牛彈琴。
但有理由對將來保持樂觀,將來一個網(wǎng)站如果要成功,沒有好的網(wǎng)站分析員是不可想象的。已經(jīng)在國內(nèi)見到有專家級甚至快成仙得道的大俠,見到過國內(nèi)網(wǎng)站內(nèi)部開發(fā)的超強統(tǒng)計分析系統(tǒng),而且看到這樣的大俠和這樣有遠見的網(wǎng)站有越來越多的趨勢。國內(nèi)將來不僅會有成批專職的網(wǎng)站分析員,而且這個職業(yè)可能成為下一個熱門高薪職業(yè)。 登陸Google Analytics( http://www.google.com/analytics/ )的時候會看到有Analytic Authorized Consultant的標志,全世界已經(jīng)有了很多獲得這個認證的分析顧問( http://www.google.com/analytics/support_partner_provided.html ),其中中國已經(jīng)有了一家,相信會越來越多。