<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>网站分析 Web Analytics &#187; 原理</title>
	<atom:link href="http://www.webanalytics.org.cn/tag/%e5%8e%9f%e7%90%86/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.webanalytics.org.cn</link>
	<description>专注于网站分析工具、网站分析方法与网站分析实践</description>
	<lastBuildDate>Fri, 25 Jun 2010 05:55:20 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>网站分析工具－日志型和脚本型－网友交流</title>
		<link>http://www.webanalytics.org.cn/web-analytics-tools-log-base-and-tagging-base/</link>
		<comments>http://www.webanalytics.org.cn/web-analytics-tools-log-base-and-tagging-base/#comments</comments>
		<pubDate>Tue, 13 Apr 2010 02:03:23 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[分析工具]]></category>
		<category><![CDATA[交流切磋]]></category>
		<category><![CDATA[原理]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=368</guid>
		<description><![CDATA[在《<a title="网站分析如何进行" href="http://www.webanalytics.org.cn/how-to-do-web-analytics-second-part/" target="_blank">网站分析如何进行（中）</a>》中，有真看朋友留言，对日志型和脚本型这两种不同的网站分析工具进行了讨论。谢谢这位朋友，非常认真的留言，我也不得不开一篇文章来说说这个话题，谈谈我的看法。

为了方便阅读，我将真看朋友的留言贴在下面：
<blockquote>本人由于用WebTrends用得相对多一些，在这里谈几点看法供参考。
(1). 对网站分析工具作日志型和标签型的分类，只能是一种叙述上的方便，不能作功能上的绝对区隔。
(2). 文中提到的WebTrends, 既是日志型的,也是标签型的。采用WebTrends Smart Data Collector(简称SDC), 在网页上嵌入js代码,就可以收集所需要的访问数据。收集的数据既可以保存在WebTrends公司的服务器上，也可以保存在用户指定的任何一台机器上。WebTrends公司既提供产品, 也提供分析服务。
在这一点上，WebTrends比绝大多数网站分析工具来得灵活。</blockquote>]]></description>
			<content:encoded><![CDATA[<p>在《<a title="网站分析如何进行" href="http://www.webanalytics.org.cn/how-to-do-web-analytics-second-part/" target="_blank">网站分析如何进行（中）</a>》中，有真看朋友留言，对日志型和脚本型这两种不同的网站分析工具进行了讨论。谢谢这位朋友，非常认真的留言，我也不得不开一篇文章来说说这个话题，谈谈我的看法。</p>
<p>为了方便阅读，我将真看朋友的留言贴在下面：</p>
<blockquote><p>本人由于用WebTrends用得相对多一些，在这里谈几点看法供参考。<br />
(1). 对网站分析工具作日志型和标签型的分类，只能是一种叙述上的方便，不能作功能上的绝对区隔。<br />
(2). 文中提到的WebTrends, 既是日志型的,也是标签型的。采用WebTrends Smart Data Collector(简称SDC), 在网页上嵌入js代码,就可以收集所需要的访问数据。收集的数据既可以保存在WebTrends公司的服务器上，也可以保存在用户指定的任何一台机器上。WebTrends公司既提供产品, 也提供分析服务。<br />
在这一点上，WebTrends比绝大多数网站分析工具来得灵活。<br />
(3). 标签型工具收集到的数据最后还是要以某种格式的日志文件形式存放起来才能分析，当然大多数是存放在产品提供商那里，用户不能直接接触到而已。<br />
(4). UV的准确性高低问题，作者在文中说“日志型网站分析工具根据IP地址，标签型网站分析工具是根据Cookie来判断的”，这个论断不全面，或者讲不确切。不管日志型、标签型，都可以灵活运用IP地址、Cookie、代理(agent)、URL参数、认证用户等由用户根据实际情况灵活设定，这视具体分析工具而定，象WebTrends就是这么做的。<br />
(5). 网站分析工具由于使用的性质，报表的提供总会有一定的时间滞后性。要想得到绝对的实时性，既做不到(特别对大流量的网站来<br />
说)，由于存在点击流记录的时序颠倒问题，也会使得分析结果的准确性存在问题。<br />
(6). 网站的访问数据，是一个企事业单位独特的信息资源，应该很好地加以保密，防止泄露，这对银行、证券、电信等企业自不待言。对电子商务的企业而言，由于网站日志中保含了全部网上交易的信息，也应十分戒备，虽说网站分析供应商都会有严格的保密协议和措施，但毕竟部分家底交给了别人保管，总归不能令人放心的，万一供应商保密措施有漏洞，日志数据或分析结果被竞争对手知晓，后果严重。<br />
(7). 标签型工具这种在网页上嵌js代码的方法, 也是有一定缺陷的。针对电子商务网站而言，这种方法收集不到支付银行在后台的对帐记录，另外也收集不到恶意访客(如抓取产品信息的自动程序)的访问记录，也就无从分析银行对帐情况，无从分析恶意访客的活动情况(以便采取某种措施如用防火墙对恶意访客进行拦截)。</p></blockquote>
<p>下面就谈谈我的看法，有什么不对的地方欢迎指正。</p>
<ol>
<li>网站分析工具分为日志型和标签型两类，是基于工作原理上的区分。日志型分析工具是通过分析Web日志的方式跟踪用户的访问行为，而标签型是在页面上加入代码来跟踪。可以说，不同的分析方式就决定了各自的优势点和劣势点，这一点会在下面的一些问题上详细说说我的认识。</li>
<li>其实我原文的意思是日志型分析工具的代表是Webtrends、Urchin等，并不是说Webtrends只有日志分析这一部分。Webtrends在日志这一块是老大级的工具，在标签型上的版本是最近两年才发布的。我只用过日志型的，标签型还未用过，所以不敢妄加评论。我也不可能了解所有工具，本文主要也是通过对两种分析工具跟踪原理上的区别做一些讨论。</li>
<li>你说的没错，其实两种工具都会有日志保存。不过区别在于，日志型分析工具分析的是Web服务器记录的日志，可控性较低；标签型分析工具可以选择需要记录的数据，更易扩展。</li>
<li>关于UV的问题，日志型分析工具是不能直接使用Cookie的。因为日志型分析工具不能直接和客户端产生交互，取到的Cookie是网站放入的Cookie而不是工具本身，这样的话，网站程序还需要担负起为每个访客生成唯一用户ID并存放到Cookie，并且还要和分析工具整合，这无疑增加了网站本身的开发和维护工作。标签型的工具是在客户端执行，在这个过程中就可以分配唯一用户ID，并存放Cookie，并不需要网站本身做任何操作。</li>
<li>时滞是相对的。标签型分析工具的时滞是以小时计，日志型分析工具的时滞一般都是一天甚至几天。网站越大，时间越长。</li>
<li>没错，保密的方面日志型分析工具绝对胜出。</li>
<li>赞同你的观点。</li>
</ol>
<p>以上是我的理解。我也深深感到博客是一个非常好的交流平台，也非常高兴能够进行这样深入的讨论。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/web-analytics-tools-log-base-and-tagging-base/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Analytics的另类部署方式</title>
		<link>http://www.webanalytics.org.cn/unconventional-deployment-of-google-analytics-codes/</link>
		<comments>http://www.webanalytics.org.cn/unconventional-deployment-of-google-analytics-codes/#comments</comments>
		<pubDate>Mon, 29 Mar 2010 06:48:00 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[分析工具]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[原理]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=363</guid>
		<description><![CDATA[Google Analytics在部署的时候，通常会采用下面的部署的方式：
<em><span style="color: #888888;"> &#60;script type="text/javascript"&#62;
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
&#60;/script&#62;
&#60;script type="text/javascript"&#62;
try {
var pageTracker = _gat._getTracker("UA-8982891-2");
pageTracker._addOrganic("soso","w");
pageTracker._trackPageview("");
} catch(err) {}&#60;/script&#62;</span></em>
这种部署方式在大部分情况当然是最优的选择。不过，有些极端条件下可能就不适用了。比如，手机页面跟踪。目前的手机大部分都不支持JavaScript，所以即使部署了常规的Google Analytics的代码，这些代码也不会被执行，也就不会跟踪到数据了。]]></description>
			<content:encoded><![CDATA[<p>Google Analytics在部署的时候，通常会采用下面的部署的方式：<br />
<em><span style="color: #888888;"> &lt;script type=&#8221;text/javascript&#8221;&gt;<br />
var gaJsHost = ((&#8221;https:&#8221; == document.location.protocol) ? &#8220;https://ssl.&#8221; : &#8220;http://www.&#8221;);<br />
document.write(unescape(&#8221;%3Cscript src=&#8217;&#8221; + gaJsHost + &#8220;google-analytics.com/ga.js&#8217; type=&#8217;text/javascript&#8217;%3E%3C/script%3E&#8221;));<br />
&lt;/script&gt;<br />
&lt;script type=&#8221;text/javascript&#8221;&gt;<br />
try {<br />
var pageTracker = _gat._getTracker(&#8221;UA-8982891-2&#8243;);<br />
pageTracker._addOrganic(&#8221;soso&#8221;,&#8221;w&#8221;);<br />
pageTracker._trackPageview(&#8221;");<br />
} catch(err) {}&lt;/script&gt;</span></em><br />
这种部署方式在大部分情况当然是最优的选择。不过，有些极端条件下可能就不适用了。比如，手机页面跟踪。目前的手机大部分都不支持JavaScript，所以即使部署了常规的Google Analytics的代码，这些代码也不会被执行，也就不会跟踪到数据了。</p>
<p>要解决这个问题，还要从Google Analytics代码的工作原理说起。在之前的一篇文章《<a title="网站分析工具工作原理" href="http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/" target="_blank">脚本型网站分析工具工作原理</a>》中，有介绍过象Google Analytics这种的在网页中嵌入标签的网站分析工具是如何抓取到用户访问的信息。基本上，Google Analytics会提供一段JavaScript代码，需要按照一定的规范加入到页面上。当页面被浏览器加载的时候，这些JavaScript代码会被执行。这些代码会收集用户访问的信息和浏览器客户端的信息。然后，最关键的，会在HTML中增加一个1×1的图片。这个图片的源地址是Google Analytics的数据服务器，图片地址后面的参数是拼接好的采集到的信息。浏览器自然会去加载这个图片，那么当这条图片加载的请求发出的时候，这些信息也就发到了Google Analytics的数据服务器。至于最后数据服务器返回的一个透明图片的数据，只是为了对用户透明，其实对于数据的采集已经不重要了。</p>
<p>再回到我们刚开始的问题。当有些情况下JavaScript不能被执行，而又希望能够跟踪到用户的访问信息，应该如何做呢？那就需要跳过前面的部分，自己来处理JavaScript处理的内容，拼接那个图片的请求。这个图片的请求应该怎么拼接呢，让我们来看一个例子：<br />
<em><span style="color: #888888;"> &lt;img src=&#8221;http://www.google-analytics.com/__utm.gif?utmwv=4.6.5&amp;utmn=451113762&amp;utmhn=www.webanalytics.org.cn&amp;utmcs=UTF-8&amp;utmsr=1152&#215;864&amp;utmsc=32-bit&amp;utmul=zh-cn&amp;utmje=1&amp;utmfl=10.0%20r22&amp;utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90-%E4%B8%93%E6%B3%A8%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E4%B8%8E%E6%8A%80%E6%9C%AF&amp;utmhid=1887594027&amp;utmr=-&amp;utmp=%2F&amp;utmac=UA-8982891-2&amp;utmcc=__utma%3D66084008.1210065981.1255914740.1269832632.1269843904.288%3B%2B__utmz%3D66084008.1268098054.275.37.utmcsr%3Dgoogle%7Cutmccn%3D(organic)%7Cutmcmd%3Dorganic%7Cutmctr%3D%25E7%25BD%2591%25E7%25AB%2599%25E5%2588%2586%25E6%259E%2590%3B%2B__utmv%3D66084008.200%2520-%2520500%2520ms%3B%2B__utmx%3D66084008.00007688461911432602%3A2%3A1%3B&#8221; width=&#8221;1&#8243; height=&#8221;1&#8243; border=&#8221;0&#8243; /&gt;</span></em><br />
哇，这是些什么啊！不要担心，我们一点一点解释。在URL的规范中，问号?以后的部分是参数，每个参数之间用&amp;符号间隔。让我们加上回车，把版面排得好看些。另外再加上注解。<br />
<em><span style="color: #888888;"> /__utm.gif?<br />
utmwv=4.6.5	//跟踪代码版本号<br />
&amp;utmn=93127920  //随机数，防止缓存影响数据准确<br />
&amp;utmhn=www.webanalytics.org.cn	//域名<br />
&amp;utmcs=UTF-8	//编码方式<br />
&amp;utmsr=1152&#215;864	//屏幕分辨率<br />
&amp;utmsc=32-bit	//屏幕颜色深度<br />
&amp;utmul=zh-cn	//语言<br />
&amp;utmje=1	//是否安装Java<br />
&amp;utmfl=10.0%20r22	//Flash版本号<br />
&amp;utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90-%E4%B8%93%E6%B3%A8%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E4%B8%8E%E6%8A%89C%AF		//标题，URL中的中文都是经过URL编码处理的<br />
&amp;utmhid=208132060	//随机数<br />
&amp;utmr=-		//Referrer<br />
&amp;utmp=%2F	//页面URL<br />
&amp;utmac=UA-8982891-2	//Google Analytics帐号ID<br />
&amp;utmcc=__utma%3D66084008.1210065981.1255914740.1269481984.1269567813.286%3B%2B__utmz%3D66084008.1268098054.275.37.utmcsr%3Dgoogle%7Cutmccn%3D(organic)%7Cutmcmd%3Dorganic%7Cutmctr%3D%25E7%25BD%2591%25E7%25AB%2599%25E5%2588%2586%25E6%259E%2590%3B%2B__utmv%3D66084008.200%2520-%2520500%2520ms%3B%2B__utmx%3D66084008.00007688461911432602%3A2%3A1%3B	//Cookie中的信息</span></em></p>
<p>好了，都清楚每个变量的用处了吧。当在手机浏览器中，不能使用Cookie和JavaScript的时候，那么我们可以跟踪最简单的页面查看的数据。下面是个例子：<br />
<span style="color: #888888;"><em>&lt;img src=&#8221;http://www.google-analytics.com/__utm.gif?utmwv=4.6.5&amp;utmn=451113822&amp;utmhn=www.webanalytics.org.cn&amp;utmcs=UTF-8&amp;utmdt=abcd&amp;utmhid=1837594037&amp;utmr=-&amp;utmp=%2F123&amp;utmac=UA-8982891-2&#8243; width=&#8221;1&#8243; height=&#8221;1&#8243; border=&#8221;0&#8243; /&gt;</em></span></p>
<p>怎么样，明白了其中的奥妙吧？</p>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/unconventional-deployment-of-google-analytics-codes/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网站分析数据的准确性</title>
		<link>http://www.webanalytics.org.cn/accuracy-of-web-analytics-data/</link>
		<comments>http://www.webanalytics.org.cn/accuracy-of-web-analytics-data/#comments</comments>
		<pubDate>Wed, 11 Nov 2009 07:55:08 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[分析实践]]></category>
		<category><![CDATA[原理]]></category>
		<category><![CDATA[报表解读]]></category>
		<category><![CDATA[量度]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=129</guid>
		<description><![CDATA[<img class="alignleft size-full wp-image-132" title="accuracy" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/11/accuracy.jpg" alt="accuracy" width="160" height="215" />前几天，有人问我：“有一些用户的浏览器禁止了Cookie，对这部分用户判断<strong>唯一访客</strong>（Unique Visitor）的时候岂不是不准确了？”事实确实如此，如果浏览器不能接受Cookie，网站分析软件就不能准确判断多次访问是否来自同一个浏览器，确实最后得到的数据是不准确的。其实，就算所有的浏览器都允许Cookie，就能得到准确数据吗？其实也不行。我们得到的是唯一浏览器（Unique Browser），并不是真正的访客。同一个访客可以在家里的电脑、办公室电脑、酒店的电脑浏览我们的网站。这时会得到三个唯一访客，而其实他们都是同一个人。

其实，还有很多通过网站分析工具抓取到的数据都是不准确的。比如说：<strong>网页停留时间</strong>。

先让我们看看网站分析工具是如何跟踪访客在页面上停留的时间的。举个例子：一个访客在8:00打开了网站的首页，网站分析工具就会抓到这个数据；接着，他又在8:02分打开了“新闻”分类的页面，网站分析工具同样会抓到这条数据；接下来，8:05分，他有点开了“NBA新闻”分类的页面；最后，他在“NBA新闻”页面中发现姚明该死的伤还没有好，索性就关掉了浏览器。网站分析工具会统计两次连续页面打开动作之间间隔的时间，这个间隔的时间就算作访客在这个页面上停留的时间。在上面的例子中，访问者在首页呆了2分钟，在“新闻”分类页呆了3分钟。这样计算在上面这种情况下没有问题。（参考《<a title="网站分析的基本量度讨论" href="http://www.webanalytics.org.cn/basic-metrics/" target="_blank">基本量度讨论</a>》）]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full wp-image-132" title="accuracy" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/11/accuracy.jpg" alt="accuracy" width="160" height="215" />前几天，有人问我：“有一些用户的浏览器禁止了Cookie，对这部分用户判断<strong>唯一访客</strong>（Unique Visitor）的时候岂不是不准确了？”事实确实如此，如果浏览器不能接受Cookie，网站分析软件就不能准确判断多次访问是否来自同一个浏览器，确实最后得到的数据是不准确的。其实，就算所有的浏览器都允许Cookie，就能得到准确数据吗？其实也不行。我们得到的是唯一浏览器（Unique Browser），并不是真正的访客。同一个访客可以在家里的电脑、办公室电脑、酒店的电脑浏览我们的网站。这时会得到三个唯一访客，而其实他们都是同一个人。</p>
<p>其实，还有很多通过网站分析工具抓取到的数据都是不准确的。比如说：<strong>网页停留时间</strong>。</p>
<p>先让我们看看网站分析工具是如何跟踪访客在页面上停留的时间的。举个例子：一个访客在8:00打开了网站的首页，网站分析工具就会抓到这个数据；接着，他又在8:02分打开了“新闻”分类的页面，网站分析工具同样会抓到这条数据；接下来，8:05分，他有点开了“NBA新闻”分类的页面；最后，他在“NBA新闻”页面中发现姚明该死的伤还没有好，索性就关掉了浏览器。网站分析工具会统计两次连续页面打开动作之间间隔的时间，这个间隔的时间就算作访客在这个页面上停留的时间。在上面的例子中，访问者在首页呆了2分钟，在“新闻”分类页呆了3分钟。这样计算在上面这种情况下没有问题。（参考《<a title="网站分析的基本量度讨论" href="http://www.webanalytics.org.cn/basic-metrics/" target="_blank">基本量度讨论</a>》）</p>
<p>回头说说我的一个习惯。我浏览网站，特别是新闻类网站，会一次先把所有感兴趣的内容页面都点开，然后再一篇文章一篇文章的阅览。那么，对网站分析来说，得到的页面停留时间的数据，前面的页面都会很短，只有最后一个页面会很长（如果我还有继续点击的话）。最后在报告里出现的不是准确的数据。</p>
<p>再举一个关于<strong>访问来源</strong>的例子。我很想购买一款相机，于是我在Google中搜索了“某某相机”这个关键字，在结果页中我点了一个付费链接，来到一个卖相机的网站。这时，我这次访问的访问来源是付费搜索引擎，到这里都没问题。而我想了解还有没有更便宜的价格，于是我去到了其他网站查询，或者正巧我妈妈叫我吃饭，反正就是我并没有关掉页面，但是离开了超过30分钟。最后我又回来，还是在这个网站上完成了购买。</p>
<p>为什么例子里是离开30分钟呢，因为像<a title="Google Analytics网站分析工具" href="http://www.google.com/analytics" target="_blank">Google Analytics</a>和<a title="Omniture官方网站" href="http://www.omniture.com" target="_blank">Omniture</a>的SiteCatalyst都是当间隔30分钟没有动作时，算作一次访问结束，接下来再发生的流量就算作一次新的访问。我想说的是，在完成购买的时候，对于网站分析工具生成的报表来说，已经是另外一次访问了，这次访问的来源也不再是Google上的付费关键字广告了，完成购买的贡献也没有Google的份了。</p>
<p>其实还有许多维度的数据都存在着误差，那么应该怎么理解这些误差，又应该如何解读数据呢？</p>
<p>抓住网站分析中的主要问题</p>
<p>网站分析，并不是要得到一堆一堆的数据，而是需要发现这些数据背后隐藏的真相。这就需要我们将这些定量的数据通过分析转化为定性的结论。只要这些数据具有统计学意义，那就不会影响定性的分析。假设通过网站分析工具我们统计到，广告A带来了30000唯一访客的流量，广告B带来了3000唯一访客的流量。那么我们可以得出结论，在唯一访客流量的贡献上，A会比B好很多。如果广告A带来了30000唯一访客流量，而广告B带来了29900。那么我们可以说，广告A和广告B在带来流量上效果差不多。这部分可以参考《<a title="网站分析中的统计学意义" href="http://www.chinawebanalytics.cn/?p=211" target="_blank">统计学意义</a>》。</p>
<p>把握数据的变化趋势</p>
<p>上面提到的是在相同维度的数据间比较，得出定性的结论。其实也可以，在同一维度的不同时间点上比较，从而得出结论。比如，我只告诉你，上个月网站上达成了30000个订单，然后让你得出结论，是好还是坏。我想什么结论都得不到。如果我再告诉你，上上个月的订单量是25000个，那结论就出来了，上个月的订单增加了。那接下来就可以细化的分析订单增加的原因从而有更深入的结论。</p>
<p>学习物理的时候，会学到测量的工具都有误差。其实网站分析工具就是一个测量网站的工具，它当然也存在误差。总是把眼光盯住这些误差不放，还不如多考虑考虑如何用好这个工具。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/accuracy-of-web-analytics-data/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>页面重定向及其对分析数据的影响</title>
		<link>http://www.webanalytics.org.cn/effect-on-data-by-redirect/</link>
		<comments>http://www.webanalytics.org.cn/effect-on-data-by-redirect/#comments</comments>
		<pubDate>Thu, 29 Oct 2009 09:59:57 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[基础知识]]></category>
		<category><![CDATA[原理]]></category>
		<category><![CDATA[报表解读]]></category>
		<category><![CDATA[重定向]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=93</guid>
		<description><![CDATA[重定向页面是一种特殊页面，当访客访问一个重定向页面时，该页面会立即自动跳转到目标页面，也许用户可能都没有感觉到中间还经过了一个页面，就已经跳转了。
<img class="alignright size-full wp-image-94" title="404-301重定向" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/10/404-301.jpg" alt="404-301重定向" width="200" height="200" align="right" />
<h3>那么为什么会有重定向页面在网站中存在呢？常见的网页自动跳转有下列一些应用：</h3>
<h4>广告点击的跟踪</h4>
很多门户类网站会出售广告位给客户，客户可以购买这些广告位展示自己的内容，建立指向自己网站的链接从而导入更多的流量。这些门户网站就需要统计出这些链接被点击的情况，提交给用户。

在很多网站中，有针对网站内部某些产品或者内容的推广。这些网站会为某些产品或者内容在首页显眼位置放置广告，从而有目的的带去更多的流量。网站的运营者当然也希望了解广告点击的情况。]]></description>
			<content:encoded><![CDATA[<p>重定向页面是一种特殊页面，当访客访问一个重定向页面时，该页面会立即自动跳转到目标页面，也许用户可能都没有感觉到中间还经过了一个页面，就已经跳转了。<br />
<img class="alignright size-full wp-image-94" title="404-301重定向" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/10/404-301.jpg" alt="404-301重定向" width="200" height="200" align="right" /></p>
<h3>那么为什么会有重定向页面在网站中存在呢？常见的网页自动跳转有下列一些应用：</h3>
<h4>广告点击的跟踪</h4>
<p>很多门户类网站会出售广告位给客户，客户可以购买这些广告位展示自己的内容，建立指向自己网站的链接从而导入更多的流量。这些门户网站就需要统计出这些链接被点击的情况，提交给用户。</p>
<p>在很多网站中，有针对网站内部某些产品或者内容的推广。这些网站会为某些产品或者内容在首页显眼位置放置广告，从而有目的的带去更多的流量。网站的运营者当然也希望了解广告点击的情况。</p>
<p>如果这些网站都部署好一套网站分析工具来监控这些流量，这些点击数的统计当然都不是问题。但是，网站分析本身在国内也是比较新兴的事务，很多网站并没有部署。那如何来测量这些点击呢？一个传统的统计方式，就是增加一个透明中间页。那些页面上的广告链接并不是直接指向客户网站或者要推广的产品的页面，而是指向了这个中间页，这个中间页面的程序会记录下这次点击，然后在自动跳转到真正的目标页。</p>
<h4>外部平台支付</h4>
<p>几乎绝大部分的电子商务网站都在使用第三方的支付平台，那么网站和支付平台之间需要有一个接口。很多的处理都是，在用户确认订单点击支付按钮的时候，会首先有一个中间页面来处理一些用户信息，准备接口的数据，再生成最后指向支付平台的链接，最后跳转到支付平台去让用户继续完成支付。那这个跳转很多时候也是自动重定向的。</p>
<h4>增强用户体验</h4>
<p>这类的重定向主要是为了网站设计的需要。比如，论坛登录，会给一个提示信息，然后几秒以后会自动跳转到首页 。或者操作过程中出现错误，会出现错误提示的页面，然后也自动跳转到下一个页面。</p>
<h3>重定向的类型分为：</h3>
<h4>服务端重定向</h4>
<p>服务端的重定向是指通过在HTTP的头中包含跳转指令来完成的重定向。用户几乎感觉不到中间还有一个页面，这个页面也不会有内容被浏览器加载。一般是在网关程序中处理，比如以PHP为例：</p>
<p><em><span style="color: #808080;">header( ‘Location: http://www.webanalytics.org.cn’ ) ;</span></em></p>
<h4>客户端重定向</h4>
<p>客户端的重定向是指在HTML中通过标签或者JavaScript脚本来完成的重定向。这个时候浏览器实际上已经加载了页面。实现上有使用HTML的meta标签：</p>
<p><em><span style="color: #808080;">&lt;meta http-equiv=&#8221;refresh&#8221; content=&#8221;0.1;url=http://www.webanalytics.org.cn&#8221;&gt;</span></em></p>
<p>也有使用JavaScript：</p>
<p><em><span style="color: #808080;">window.location.href=&#8221;http://www.webanalytics.org.cn&#8221;</span></em></p>
<h3>重定向对网站分析数据的影响</h3>
<p>网站分析工具的报表中，一般都会有流量来源的报表，统计到用户是是从哪里点击进入我们的网站的。如果用户在门户网站的网页A上，点击了一个广告，这时会跳转到一个中间跳转页B，再自动跳转到目标页C。我们在C上有部署跟踪的代码。如果是在页面B上使用的是服务端跳转，那么我们跟踪到的流量来源是页面A，如果是客户端的跳转，那跟踪到的就是页面B，我想这在大部分时候都不是我们想要的。</p>
<p>客户端跳转，中间页面又在自己的网站，跟踪到的流量来源总是一个广告点击的统计页，无法知道真正用户是在哪里点击的。这就是我现在遇到的问题，谁有解决的办法？期待你的答案！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/effect-on-data-by-redirect/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>第一方Cookie VS 第三方Cookie － Cookie详解</title>
		<link>http://www.webanalytics.org.cn/first-party-cookies-vs-third-party-cookies/</link>
		<comments>http://www.webanalytics.org.cn/first-party-cookies-vs-third-party-cookies/#comments</comments>
		<pubDate>Thu, 22 Oct 2009 05:53:18 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[基础知识]]></category>
		<category><![CDATA[Cookie]]></category>
		<category><![CDATA[原理]]></category>
		<category><![CDATA[第三方Cookie]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=72</guid>
		<description><![CDATA[<h3>什么是Cookie，它有什么用处？</h3>
Cookie是网站存放在客户端的一小段数据。一般的，网站为了提升用户体验，在客户的客户端中保存用户的历史信息，以备用户再次访问时网站能提供更方便，更有针对性的服务。比如，网站可以记住你的登录状态，只要登录一次下次访问就不用在登录；购物网能记住你浏览过的产品，保留你购物车中的物品。这些都有Cookie的功劳。
<h3>Cookie对网站分析又有什么作用？</h3>
网站分析是以数据为基础的，而数据的采集需要借助<a title="网站分析工具" href="http://www.webanalytics.org.cn/category/tools/" target="_blank">网站分析工具</a>。主流的网站分析工具主要分两种类型：日志型和<a title="脚本型网站分析工具实现原理" href="http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/" target="_blank">页面脚本型</a>。这两种类型工具的一个区别就在于对Unique Visitor的区分很判断。当网站有很多次访问的记录的时候，如何判断那些访问来至同一个用户。日志型的分析工具，一般通过访问的来源IP地址进行判断，通过相同IP地址的访问被认为来至同一个用户。页面脚本型的分析工具，就需要根据Cookie的记录来判断不同的访问是否来至不同的用户。这类的工具会在Cookie中存放用来标识唯一用户的ID，每个浏览器得到的ID都是不同的。用户访问时检查Cookie中的ID，ID相同的访问被认为来至同一个用户，否则，则是不同用户的访问。]]></description>
			<content:encoded><![CDATA[<h3>什么是Cookie，它有什么用处？</h3>
<p>Cookie是网站存放在客户端的一小段数据。一般的，网站为了提升用户体验，在客户的客户端中保存用户的历史信息，以备用户再次访问时网站能提供更方便，更有针对性的服务。比如，网站可以记住你的登录状态，只要登录一次下次访问就不用在登录；购物网能记住你浏览过的产品，保留你购物车中的物品。这些都有Cookie的功劳。</p>
<h3>Cookie对网站分析又有什么作用？</h3>
<p>网站分析是以数据为基础的，而数据的采集需要借助<a title="网站分析工具" href="http://www.webanalytics.org.cn/category/tools/" target="_blank">网站分析工具</a>。主流的网站分析工具主要分两种类型：日志型和<a title="脚本型网站分析工具实现原理" href="http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/" target="_blank">页面脚本型</a>。这两种类型工具的一个区别就在于对Unique Visitor的区分很判断。当网站有很多次访问的记录的时候，如何判断那些访问来至同一个用户。日志型的分析工具，一般通过访问的来源IP地址进行判断，通过相同IP地址的访问被认为来至同一个用户。页面脚本型的分析工具，就需要根据Cookie的记录来判断不同的访问是否来至不同的用户。这类的工具会在Cookie中存放用来标识唯一用户的ID，每个浏览器得到的ID都是不同的。用户访问时检查Cookie中的ID，ID相同的访问被认为来至同一个用户，否则，则是不同用户的访问。</p>
<p>Unique Visitor的判断对于网站分析来说非常重要，以致于分析工具在Cookie中存储的其他信息都显得不那么重要了。Unique Visitor并不仅仅是一个Metric，更重要的是，Unique Visitor把跨越多次访问的事件联系在一起。想象一下，一个访客通过一个广告来到网站，在这次访问离开前没有进行任何购买，但有把网站的网址加入到书签。过了几天，这个访客通过点击书签，又访问了我们的网站，最后购买了一些商品。这时，如果没有Unique Visitor来关联，那点击广告和购买商品的行为是没有任何关联的，我们无法知道访客点击的广告为最后的购买所做的贡献。可见，Cookie对网站分析是多么重要，通过Cookie，才能将多次访问中的事件串联起来。</p>
<h3>Cookie的技术细节</h3>
<p>（纯技术，不喜跳过）</p>
<ol>
<li>
<h4>Cookie是如何工作的？</h4>
<p>比如，我们访问一个网站，来到了登录的页面。页面需要我们输入用户名和密码，同时下面有一个选项，叫“保留我的登录状态”，如果输入了用户名，密码。为了下次在来这个网站，不用再重新输入，我们激活了保留状态的选项。最后点了提交。这时，我们的浏览器就会和网站服务器之间通过HTTP协议进行链接，提交刚才输入的内容和选择。服务器收到以后，会判断这个用户名密码是否正确，因为我们需要保留状态，就需要设置Cookie来记录状态。那服务器会在返回的HTTP数据包的头部包含SetCookie这个指令来告诉浏览器要保存的Cookie。浏览器收到以后会把这个Cookie加密存储到电脑上。这个Cookie记录的一般是用户在这个网站的唯一的ID。之后，只要每次访问这个网站（只要还是这个域名），我们的浏览器在请求这个网站服务器数据的时候，都会在HTTP请求数据包的头部增加一条包含Cookie数据的信息，比如这里会告诉服务器：“我是你的用户，我的ID是9527。”那服务器收到这个信息，就不会再提示登录，而我们就已经是登录的状态了。</li>
<li>
<h4>Cookie的生命周期</h4>
<p>Cookie的生命周期有两种，一种是整个会话的，一种是永久 的。也就是说，一种是临时性的Cookie，用户关掉浏览器，这个Cookie也就失效了。一种是永久的Cookie，可以持续存在的。一般网站分析工具判断Unique Visitor使用的是后者。</li>
</ol>
<h3>第一方和第三方Cookie的区别</h3>
<p>第一方Cookie和第三方Cookie，都是网站在客户端上存放的一小块数据。他们都由某个域存放，只能被这个域访问。他们的区别其实并不是技术上的区别，而是使用方式上的区别。比如，访问www.a.com这个网站，这个网站设置了一个Cookie，这个Cookie也只能被www.a.com这个域下的网页读取，这就是第一方Cookie。如果还是访问www.a.com这个网站，网页里有用到www.b.com网站的一张图片，浏览器在www.b.com请求图片的时候，www.b.com设置了一个Cookie，那这个Cookie只能被www.b.com这个域访问，反而不能被www.a.com这个域访问，因为对我们来说，我们实际是在访问www.a.com这个网站被设置了一个www.b.com这个域下的Cookie，所以叫第三方Cookie。</p>
<p>上面这么多看完还没有绕晕的请继续。</p>
<h3>第一方Cookie的优势和应用</h3>
<p>第一方Cookie的最大优势是接受率高。一般主流的浏览器的都会有隐私的设置，可以让用户设置是否接受Cookie，接受哪些Cookie。除了完全不接受Cookie这个设置以外，其他情况下，第一方Cookie都是会被用户接受的（不接受的话，是没办法把那小块数据保存下来的）。所以，如果没有特殊要求，使用第一方Cookie会比第三方Cookie，我们通过分析工具得到的数据会更准确。</p>
<h3>第三方Cookie的优势和应用</h3>
<p>第三方Cookie的接受率不如第一方Cookie（不过主流的浏览器默认的设置下也接受带P3P协议的第三方Cookie，我的经验是接受率能达到90％，甚至95％以上），但在某些特定情况下可以实现第一方Cookie无法实现的功能。比如，当我们有多个域名的网站需要跟踪，我们希望了解到用户点击某个广告到达域名A下的网页，然后可能浏览了不论那个域名下的页面，最后在域名B下的网页完成注册的情况。广告可以在域名A下的网页被跟踪到，而注册可以在域名B下的网页跟踪到。如果我们使用第一方Cookie，会为域名A建立一个Cookie，为域名B再建立一个Cookie，他们可以关联各自域名下网页上的行为，但是无法关联起来。而使用第三方Cookie，那么无论多少个域，都只有一个Cookie，一个属于第三方域的Cookie，网站下所有域都能共享这个Cookie，那么所有的行为都能被关联起来分析。</p>
<h3>结论</h3>
<p>对于通过脚本型的网站分析工具来获取数据</p>
<ol>
<li>Cookie是必须的，离开Cookie我们什么也分析不了。</li>
<li>第一方Cookie接受率高，更准确，没有特殊需要就用他。</li>
<li>第三方Cookie可以跨域跟踪，特别需求可以应用。</li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/first-party-cookies-vs-third-party-cookies/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>脚本型网站分析工具工作原理</title>
		<link>http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/</link>
		<comments>http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/#comments</comments>
		<pubDate>Sat, 17 Oct 2009 10:44:49 +0000</pubDate>
		<dc:creator>深蓝</dc:creator>
				<category><![CDATA[分析工具]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[原理]]></category>

		<guid isPermaLink="false">http://www.webanalytics.org.cn/?p=15</guid>
		<description><![CDATA[<p align="left">脚本型网站分析软件，通过插入到页面上的一段JS代码，来抓取用户的访问记录和相关信息。下面以本网站的Google Analytics为例，介绍一下网站分析软件是如何工作的。</p>
<p align="left">首先，需要从Google Analytics得到一段JS代码，然后将这段代码插入到网站每个页面的&#60;/body&#62;标记之前。注意，一定要放在&#60;body&#62;和&#60;/body&#62;之间的区域内，否则Google Analytics不能捕获任何数据。</p>
<p align="left"> <img class="aligncenter size-full wp-image-19" title="GA code" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/10/21.jpg" alt="GA code" width="480" height="180" /></p>]]></description>
			<content:encoded><![CDATA[<p align="left">脚本型网站分析软件，通过插入到页面上的一段JS代码，来抓取用户的访问记录和相关信息。下面以本网站的Google Analytics为例，介绍一下网站分析软件是如何工作的。</p>
<p align="left">首先，需要从Google Analytics得到一段JS代码，然后将这段代码插入到网站每个页面的&lt;/body&gt;标记之前。注意，一定要放在&lt;body&gt;和&lt;/body&gt;之间的区域内，否则Google Analytics不能捕获任何数据。</p>
<p align="left"><img class="aligncenter size-full wp-image-19" title="GA code" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/10/21.jpg" alt="GA code" width="480" height="180" /></p>
<p align="left">正确插入这段代码以后，当用户访问这个网页，那么这段代码就会在用户的浏览器上执行。它会收集当前网页、用户客户端等信息。然后，将这些作为参数，拼接在一个图片请求的后面。这个图片请求是通过HTTP协议发送到Google Analytics的数据收集服务器的。作为这个图片请求的响应，数据收集服务器会返回一个1×1像素的图片在页面上显示。下图是在浏览<a title="网站分析Blog" href="http://www.webanalytics.org.cn" target="_blank"><span id="sample-permalink">www.webanalytics.org.cn</span></a>首页时发送到数据收集服务器的请求。</p>
<p align="left"><img class="aligncenter size-full wp-image-21" title="网络数据包" src="http://www.webanalytics.org.cn/wp-content/uploads/2009/10/41.jpg" alt="网络数据包" width="480" height="180" /></p>
<p align="left">从图中可以看到，有一个数据包发送到Google Analytics的数据收集服务器，通过HTTP协议请求了一个图片，并在图片链接后面加上了一长串的参数。将参数分割出来，有以下一些：<br />
<em>utmwv=4.3</em><em><br />
</em><em>utmn=1196537578</em><em><br />
</em><em>utmhn=www.weblytics.cn</em><em><br />
</em><em>utmcs=UTF-8</em><em><br />
</em><em>utmsr=1024×768</em><em><br />
</em><em>utmsc=32-bit</em><em><br />
</em><em>utmul=en-us</em><em><br />
</em><em>utmje=1</em><em><br />
</em><em>utmfl=10.0 r22</em><em><br />
</em><em>utmdt=</em><em>网站分析工具</em><em> | </em><em>网站分析</em><em><br />
</em><em>utmhid=1766743862</em><em><br />
</em><em>utmr=0</em><em><br />
</em><em>utmp=/?tag=</em><em>网站分析工具</em><em><br />
</em><em>utmac=UA-8982891-1</em><em><br />
</em><em>utmcc=__utma=69577110.67499046715024370.1243733087.1243748047.<br />
1243751471.6;+__utmz=69577110.1243740545.3.4.utmcsr=newsunday.<br />
com|utmccn=(referral)|utmcmd=referral|utmcct=/post/863.html; HTTP/1.1</em></p>
<p align="left">这些参数传递了网站的域名、网页的位置，客户端的浏览器版本、语言、屏幕分辨率颜色深度，访问来源等信息。数据收集服务器接受到这些信息的同时，根据发送来源的IP地址，可以确定用户所在的区域。</p>
<p align="left">当用户访问了网站上的多个页面，就会发送多次这样的数据。Google Analytics就会了解到用户首先访问了A页面，然后访问了B页面，再访问了C页面，最后离开。Google Analytics会将这些访问记录串联起来，形成访问的路径。从而，Google Analytics会得出Entries、Exits、Bounce Rate、Next Pages这些量度来。网站的管理者就可以通过访问Google Analytics的报表界面了解到这些数据。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.webanalytics.org.cn/principle-of-script-web-analytics-tools/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
