Analytics vs. Testing – Welches Tool lügt?

Analytics vs. Testing - Welches Tool lügt?
Zugegeben, ein provokanter Titel. Aber je mehr man sich mit Webanalyse und A/B-Testing auseinander setzt, desto häufiger kommt die Frage auf: Welchem Tool soll man jetzt glauben?

Zumindest ist mir diese Frage in letzter Zeit sehr häufig begegnet – sowohl auf Kundenseite als auch bei Kollegen aus der Branche. Ohne den Spannungsbogen an dieser Stelle bereits zu entspannen: Dieser Artikel wird auf die Grundsatzfrage keine Antwort liefern – dafür aber Tipps und Ansätze zur Vermeidung von Fehlinterpretationen.

So lange man den Tools nicht unter die Haube schauen kann, wird sich nie mit Sicherheit sagen lassen, wer näher an der Wahrheit ist. Alle Tools – auch Analyse- und A/B-Testingtools untereinander – messen unterschiedlich. Das zeigen z. B. AA/BB-Tests mit mehreren Tools oder parallel eingebundene Analytics-Systeme.

Dennoch gilt:
Die Messergebnisse in den Tools sollten zumindest tendenziell übereinstimmen!

Wo liegt das Problem?

Conversion Optimierer tragen innerhalb von Unternehmen häufig einen Kampf gegen Windmühlen aus. Sie müssen sich auf die Messergebnisse verlassen können, um Optimierungen rechtfertigen und die Verbesserungen belegen zu können.

Es ist also zwingend erforderlich, strategische Entscheidungen auf validen Daten aufzubauen. Sind mehrere Tools im Einsatz, macht es natürlich Sinn diese zu verbinden, um möglichst viele Informationen verarbeiten zu können. Besonders Testingtools im Einsteigerbereich bieten häufig neben der Messung der Conversionrate und Revenue keine oder wenige Detailinformationen wie z. B. Ergebnis-Segmentierung, Exits, Nutzungsdauer etc. Eine Brücke zwischen Analytics und Testing ist hier also naheliegend – zumal dies bei einigen Tools bereits mit einer Checkbox in der Konfiguration erledigt ist.

Was ist aber, wenn jetzt:

Das Testingtool sagt Variante C ist mit einer CR von 7,58% bei einer CTBO von 98% Testsieger. Analytics sagt aber Variante B hat mit 8,43% viel mehr Uplift und ist demnach Testsieger?

Lügen alle Tools? Oder sind diese einfach nur falsch eingebunden? Werden vielleicht auch nur die Kennzahlen falsch interpretiert? Ist evtl. alles gar nicht so wild?

Analytics vs. Testing - Unterschiedliche Sieger

Beispiel für einen Test mit unterschiedlichen Siegern in Analytics und Testing.


Analytics vs. Testing - Trend-Identisch

Beispiel für einen Test, bei welchem sich zwar die Werte in den Tools auch unterscheiden, aber den gleichen Trend zeigen.

Was kann man also tun?

Tatsächlich wird meist nicht so heiß gegessen wie gekocht wird. Schaut man sich solche Fälle genauer an, treten häufig ähnliche Ursachen auf.

Die folgende „SOS-Checkliste“ soll die 5 häufigsten Ursachen und Ansätze für eine Fehlersuche liefern:

1. Scope

Testing-FunnelEin Testingtool misst genau das, was ihm im Rahmen des Test-Setups als Messbereich vorgegeben wird und baut damit bereits einen Funnel auf. Ein Analysetool auf der anderen Seite misst per se erst mal alles, was im Bereich des Tracking-Pixels liegt. Übrigens ist die Formulierung „Tracking-Pixel“ mindestens genauso veraltet wie das Disketten-Symbol zum Speichern von Dokumenten. Heute funktionieren alle Analysetools über JavaScript und setzen wenn überhaupt Zählpixel als Fallback ein.

Zurück zum Konflikt: Eine häufige Ursache für unterschiedliche Ergebnisse zwischen Testing- und Analysetool können schon mal unterschiedliche Messbereiche (Scope) sein. Meistens handelt es sich dabei um ausgeschlossene URLs, Trafficquellen oder Geräte/Browser. Ein Beispiel hier sind Seiten, auf denen beim einen Tool Conversions ausgelöst werden und beim anderen nicht, z. B. weil diese vom Test ausgeschlossen sind.

2. Unique Visitors & Unique Conversions

Birnen mit Äpfeln vergleichenDie meisten Testingtools betrachten – sofern nicht anders konfiguriert – alle Teilnehmer am Test als Unique Visitors und auch alle Conversions nur einmalig. Die gleiche Betrachtung sollte demnach im Analysetool erfolgen. Ein Beispiel aus der Praxis ist hier eine Session basierte Analyse der Bestellungen. Die Traffic-Zahlen unterscheiden sich deutlich, weil der gleiche Nutzer im Test mehrere Sessions haben kann. Dies verfälscht die Vergleichbarkeit.

Generell können mehrere Conversions dazu führen, dass eine Variante im Analytics einen höheren Uplift zugesprochen wird, als dass dies im Testingtool nachvollzogen werden kann. Oder aber die Messmethode unterscheidet sich. Die meisten Tools bieten neben Seitenaufrufen unterschiedliche Möglichkeiten, um eine Conversion auszulösen. Wenn sich hier die Verfahren unterscheiden, kann auch das eine mögliche Ursache sein (mehr dazu unter 4.). Besonders der Umstand „Last Cookie wins“ kann hier ein Problem darstellen. Setzt das eine Tool auf diese Methode, das andere jedoch nicht, so können hierbei erhebliche Unterschiede entstehen.

3. Segmentierung & Sampling

Beispiel SamplingIn eine ähnliche Richtung zielt die Segmentierung. Einige Tools verwenden bei der Segmentierung, Filter oder Drilldowns das sog. Sampling. Dabei werden prinzipiell nicht alle Daten zur Interpretation verwendet sondern lediglich eine Teilmenge. Dieses Verfahren wird in der Statistik häufig angewendet und basiert auf der Annahme, dass die Analyse der Teilmenge ähnliche Ergebnisse liefert wie die Betrachtung aller Messdaten. Gerade kostengünstige Tools setzen dieses Verfahren ein, weil die Ergebnisse damit sehr viel schneller zur Verfügung gestellt werden können und die Systemlast auf Anbieterseite reduziert wird.

Der Nachteil dabei ist, dass die Daten eben nicht genau sind. Setzt das Analysetool jetzt Sampling ein, beispielsweise weil auf eine gewisse Variable segmentiert wird, das Testingtool jedoch alle Daten oder einen anderen Teilmengenbereich, so zeigen die Tools hier unterschiedliche Messergebnisse. Außerdem spielt gerade bei der Ergebnissegmentierung das bei 2. angesprochene „Last Cookie wins“-Verfahren eine Rolle. Hierbei erhält z. B. das aktuell aktive Segement „Traffic Source Direct“ die Conversion, obwohl der Nutzer auch in anderen Quellen vorhanden ist (z. B. Referral oder Search).

4. Integration der Tools

<html>
  <head>

     ... Quellcode des Headers ...

     <Testingtool>
  </head>
  <body>

     ... Inhalt der Website ...

     <Analytics>
  </body>
</html>

Die vierte in der Praxis beobachtete Ursache ist die Art der Einbindung und Position der Code-Snippets im Quelltext. Ein Script (meist Testing) ist beispielsweise im Header, das andere (meist Analytics) im Footer. Entsteht jetzt dazwischen z. B. ein JavaScript Fehler, so kann dies unter Umständen das weitere Ausführen des JavaScripts verhindern.

Auch eine langsam ladende Seite, bei welcher beispielsweise die Tools synchron integriert sind (diese Laden sequentiell mit der Seite – nicht parallel zu ihr) können eine mögliche Ursache sein. Der Nutzer kann ggf. bereits weiter klicken, bevor die Anfrage an das zweite Tool übermittelt wurde. Beide Fälle können unterschiedliche Ergebnisse hervorrufen.

Letztlich können auch ganz banale Fehler wie unterschiedliche Werte bei der Übermittlung an die Tools zu falschen Daten führen. Beispielsweise bei Revenue, welche dem einen Tool als Warenkorbwert und dem anderen als Bestellwert (inkl. Versandkosten) übermittelt wird. Aber auch Netto- und Bruttopreise werden häufig als Ursache enttarnt.

5. Zeiträume & Zeitverschiebung

Als Ursache nicht zu vernachlässigen ist auch der Zeitraum. Dieser kann gleich mehrere Unterschiede hervorrufen. Beispielsweise haben wir bei Analysetools tatsächlich beobachten können, dass selbst nach abgeschlossenen Tests noch Conversions einlaufen. Dies ist dem Umstand geschuldet, dass die Tools in der Regel auf Cookies basieren. Die Testteilnehmer erhalten diese, um primär eine konsistente User Experience im Test zu ermöglichen. Das gleiche gilt für die Analyse, hier jedoch um den Nutzer über mehrere Besuche hinweg wiedererkennen zu können.

Wird der Test pausiert oder gestoppt, so bleiben die Cookies weiterhin bestehen. Der Nutzer wurde im Analysetool bereits als Teilnehmer am Test „markiert“ und obwohl der Test nicht aktiv ist, werden danach ausgelöste Conversions entsprechend gezählt. Vom Testingtool allerdings ignoriert. Hier weiß das Testingtool eben mehr. Es gilt also die Zeiträume – in welchen die Tests aktiv waren – in den Tools exakt zu vergleichen.

Generell sind unterschiedliche Zeiträume eine häufige Ursache für unterschiedliche Daten. Schnell wird der Standardzeitraum im Tool übersehen, so dass auf den ersten Blick unterschiedliche Ergebnisse entstehen.

Eine weitere Ursache können unterschiedliche Zeitzonen sein. Obwohl sich sowohl Analyse- wie auch Testingtools in der Regel auf eine einheitliche Zeitzone konfigurieren lassen, werden die Messdaten serverseitig unterschiedlich abgelegt – was eigentlich als Bug bezeichnet werden kann. Ist die Serverzeit des Anbieters um einige Stunden verschoben, so kann die Tagesgrenze leicht unterschiedliche Daten im gleichen Zeitraum hervorbringen.

Nicht zuletzt kann auch der Zeitraum, bis die Messdaten in den Tools zur Verfügung stehen eine Rolle spielen. Nur wenige Tools arbeiten mit Echtzeit-Daten. In der Regel werden diese verarbeitet und brauchen von wenigen Minuten bis zu mehreren Stunden, bis diese zur Verfügung stehen.

Fazit

Diese 5 Beispiele aus der Praxis sollen zeigen, dass nicht alle Hoffnung verloren ist. Abweichungen sind meist darauf zurückzuführen, dass bei näherer Betrachtung gar nicht dasselbe gemessen wird. Die unterschiedlichen Ergebnisse in den Tools sind – im Verhältnis betrachtet – eher eine Ausnahme. Solange man ohne Filter oder Segmente auf globalen Zahlen arbeitet, stimmen die Werte überein. Die Vergleichbarkeit und der damit verbundene Aufwand steigt, je mehr Einschränkungen, Segmentierungen und Sonderregeln definiert werden.

Als Zusammenfassung hier noch mal alle 5 Tipps:

  • Gleicher Scope? Prüfen Sie, ob im Test die gleichen Rahmenbedingungen wie im Analysetool eingerichtet sind.
  • Unique ≠ Unique? Prüfen Sie, welche Metriken Sie in beiden Tools als Basis betrachten und wie bzw. welche Goals als Conversion gezählt werden.
  • Teilmengen? Betrachten Sie Segmente, so kann es sein, dass Sie nur einen Teil dieser Messdaten erhalten.
  • Vergleichbare Integration? Prüfen Sie, ob die Tools unter gleichen Bedingungen implementiert wurden.
  • Welche Zeiträume? Betrachten Sie die gleichen Zeiträume und achten Sie darauf, ob der Test im Verlauf pausiert wurde.

Welche Erfahrungen haben Sie mit der Brücke zwischen Analyse- und Testingtool gemacht? Über Ihre Meinung würde ich mich freuen.

 

Ähnliche Artikel

Weiterführende Links

  • Send to Kindle
  • http://kKrft.ly/FQT
Manuel Brückmann Manuel Brückmann ist als Mitglied der Geschäftsleitung bei der Web Arts AG für den Bereich Technologie verantwortlich. Er beschäftigt sich neben der Beratung im Bereich Testing mit eCommerce-Entwicklung und -Optimierung. Folgen Sie ihm auf Twitter oder verlinken Sie sich auf Google+, XING oder LinkedIn.

,

9 Reaktionen auf  “Analytics vs. Testing – Welches Tool lügt?”

Kommentare

  1. Darth Sonic Darth Sonic

    Die beiden größten Probleme werden hier noch gar nicht erwähnt: Der Unterschied zwischen Client- und Server-seitigem Tracking und JavaScript-Blocker.

    Analytics und vergleichbare Tools haben immer den Nachteil das sie durch die JavaScript Einbindung häufig geblockt werden (deaktiviertes oder on-demand JavaScript, Werbeblocker usw.). Google ist hier mehr von betroffen als kleinere Anbieter sicherlich.

    Zudem wird das eigene Tracking des Auftraggebers oftmals Server-seitig durchgeführt und unterliegt daher keinem Blocking und gibt nochmals andere Zahlen wieder.

    Die Vergleichbarkeit ist praktisch nicht gewährleistbar. Rein Server-seitige Einbindungen (sofern praktisch umsetzbar) würde ich bevorzugen, aber die wenigsten Tools bieten das (zumindest optional) an. Eigentlich schade.

  2. Ralf Haberich Ralf Haberich

    Gute Übersicht.
    Und ich bin froh zu lesen, dass Analyse und Testing wohl NICHT lügt…

  3. Manuel Brückmann Manuel Brückmann

    Hi Darth,

    hoffe das ist der Vorname… 😉
    Danke für Dein Feedback. Damit hast Du recht. Dies zielt allerdings voll auf Ursache Nr. 4 ab. Sofern beide Tools unter gleichen Bedingungen integriert wurden (in Deinem Beispiel also clientseitig per JavaScript), so sollte hier kein Problem entstehen. Ist das eine Tool serverseitig das andere clientseitig implementiert, so können hier wie von Dir beschrieben die JavaScript-Blocker oder Tools wie Ghostery das Tracking unterbinden.

    Ich stimme Dir zu, dass eine serverseitige Lösung für beide Tools der Idealzustand ist, der leider nur selten ermöglicht wird.

  4. Emile Emile

    Hallo Darth und Manuel,

    Ich arbeite meist an selbstentwickelten Shops und habe dort die Möglichkeit eingebaut, leicht serverseitige Tests definieren zu können. Wie ihr auch sagt, ist das die beste Lösung. Jeden Seitenaufruf und jedes mögliche Ziel kann ich einfach und sicher protokollieren. Meine Oberfläche für die Ausgabe ist halt nicht so schön wie VWO oder Optimizely, aber damit kann ich leben, wenn die Zahlen näher an der Wahrheit sind.

  5. Sebastian König Sebastian König

    ein wenig spät, aber doch noch mal eine Antwort auf die Erfahrung der User:
    Nachdem wir einmal im Detail verstanden hatten, was und wie das Testing Tool im Detail zählt, konnten wir relativ einfach dem Analytics Tool die gleichen Zahlen entlocken.
    Wir hatten zweimal Abweichungen in den Zählungen – da gewann jedes mal das Analytics Tool, weil die Entwicklung dieses mehr auf dem Schirm hat und dessen Implementierung angepasst bzw. nicht gestört hat. Die Kriterien auf denen das Testing Tool zählte hatten sich aber unter bestimmten Bedingungen geändert, so dass dies nicht mehr sauber zählte.
    Bei den Auswertungen trauen wir mitlerweile mehr dem Analytics Tool, da dies mehr Sichten bietet (Visitor, Visit und Unique basis) und auch mehr Microconversions und Segmentierungsmöglichkeiten für eine tiefere Analyse bietet.
    Weihnachten ist zwar vorbei, aber eine Testmöglichkeit aus dem System raus wäre wirklich schön. Für AB-Tests gar nicht so schwer, aber für MVTs …. Falls jemand einen guten Ansatz hat bitte melden 😉

Trackbacks/Pingbacks

  1. […] Welches Tool ist näher an der Wahrheit? Die 5 Praxisbeispiele zeigen 5 mögliche Ursachen für unterschiedliche Daten in Analytics- und Testingtools.  […]

  2. […] Analytics vs. Testing: Welches Tool lügt? – Je mehr man sich mit Webanalyse und A/B-Testing auseinander setzt, desto häufiger kommt die Frage auf: Welchem Tool soll man jetzt glauben? Zumindest ist mir diese Frage in letzter Zeit sehr häufig begegnet. Weiter… […]

  3. […] Zugegeben, ein provokanter Titel. Aber je mehr man sich mit Webanalyse und A/B-Testing auseinander setzt, desto häufiger kommt die Frage auf: Welchem Tool soll man jetzt glauben?  […]

  4. […] Detailwissen zum Thema unterschiedliche Messmethoden finden Sie im Artikel meines Kollegen Manuel Brückmann. Hier klicken … […]

Hinterlassen Sie einen Kommentar