Warum Sie Ihre A/B-Tests zu früh abschalten

Wie sieht eine perfekte Testlaufzeit aus? Gibt es überhaupt die perfekte Laufzeit? Welche Faktoren haben letztlich Einfluss auf den Test und dessen Laufzeit? Kann ich überhaupt im Vorfeld die Laufzeit vorhersagen? Wann sollte ich einen Test anhalten?

Ohne den Spannungsbogen direkt entspannen zu wollen: Es gibt keine perfekte Testlaufzeit, zumindest nicht in der Praxis. Die Liste der möglichen Einflussfaktoren ist lang. Bricht man allerdings die wesentlichen (bekannten) Aspekte herunter, so erhält man letztlich drei unterschiedliche Gruppen:

  1. Statistische Einflussfaktoren (z. B. Stichprobengröße, Variationenanzahl, Messmethode, Fehlertoleranz etc.)
  2. Externe Einflussfaktoren (z. B. Trafficquelle, Time-to-purchase, Nutzungshäufigkeit, Kampagnen, Saison etc.)
  3. Wirtschaftliche Einflussfaktoren (z. B. Budgets, positive/negative Effekte, Kosten-/Nutzenrelation etc.)

Somit gibt es schon mal drei Aspekte, welche maßgeblich entscheiden, wie lange ein Test laufen sollte. Soweit so gut. Um die eigene Strategie ableiten zu können, sollte man diese drei etwas genauer betrachten. Der am einfachsten zu beschreibende ist die statistische Power. Sie ist klar mathematisch begründet, messbar und vorhersehbar.

1. Aspekt: Die statistische Teststärke (Testpower)

Beispiel: Test Duration Calculator (vwo.com)

Beispiel für einen Test Duration Calculator - hier von vwo.com

Um in diesem Zusammenhang eine Laufzeit vorhersagen zu können, bedient man sich in der Regel eines “Traffic Duration Calculators”. Ohne zu sehr in trockene, statistische Grundlagen abzuschweifen: Im Prinzip handelt es sich hierbei um eine mathematisch abgewandelte Form der Berechnung der Teststärke (sog. Testpower).

Die Teststärke gibt an, wie wahrscheinlich es ist, einen Unterschied zwischen einer Nullhypothese (“es gibt keinen Unterschied”) und einer konkreten Alternativhypothese (“Es gibt einen Unterschied”) nachzuweisen. Ist die Teststärke hoch, existiert ein Unterschied, ist sie niedrig, gibt es keinen.

Je größer also die Teststärke ist, desto wahrscheinlicher ist es, einen tatsächlichen Effekt (Uplift) nachzuweisen. Ist dieser sehr groß, reicht bereits eine geringe Testlaufzeit für eine gute Testpower. Ist der Effekt jedoch gering, so benötigt es entsprechend (viel) mehr Zeit.

Um letztlich die Power zu berechnen, benötigt man drei Dinge:

  • den α-Fehler (Signifikanzniveau, i.d.R. 95%),
  • die Stichprobengröße (sog. Samplesize) und
  • den erwarteten Uplift (Effekt).
A/B Test Sample Size Calculator

Beispiel für einen A/B Test Sample Size Calculator - hier optimizely.com

Der Kalkulator macht mit anderen Worten nichts anderes, als diese Formel umzustellen. So wird die Stichprobengröße anhand der bestehenden Conversion Rate, des Effekts und der Testpower berechnet. Letzteres wird dabei in der Regel mit 80% (bei manchen Tools kann man die Größe wählen) angenommen. Da man jetzt für den gewünschten Uplift die erforderliche Stichprobengröße pro Variante kennt, lässt sich die Laufzeit durch die Anzahl der Varianten und Besucher pro Tag recht simpel ausrechnen.

Der aufmerksame Leser sollte an dieser Stelle bereits die Crux an der Kalkulation festgestellt haben: Der wichtigste Einflussfaktor ist der erwartete Uplift (Effekt) - genau diese Kennzahl ist jedoch spekulativ!

1. Zwischenfazit

Somit steht und fällt aus statistischer Sicht die Größe der Stichprobe und damit die Laufzeit des Tests durch den erwarteten Uplift. Je höher der erwartete Uplift ist, desto geringer muss die entsprechende Stichprobengröße ausfallen.

A/B Test Mindestlaufzeit / Mindest-Conversion-Anzahl

Beispiel für A/B Test Mindestlaufzeit - Unterschied bei 80% / 95% Teststärke

Wer mehr über die statistischen Grundlagen, z. B. ⍺-Fehler, β-Fehler, p-Value, g-Test wissen möchte, findet hier weiterführende Informationen.

Ok, aber warum ist das nur die halbe Wahrheit?

Wie bereits Eingangs erwähnt, haben im wesentlichen drei Aspekte Einfluss auf die Testlaufzeit. Der zweite - und deutlich weniger greifbare - sind die externen Einflussfaktoren.

2. Aspekt: Was hat alles Einfluss auf den Test?

Ist die Anzahl an Stichproben groß genug, mit anderen Worten: Steht (sehr) viel Traffic zur Verfügung, so muss ein Test - aus statistischer Sicht - nicht besonders lange laufen. Gerade wenn wenig Varianten getestet werden und der zu erwartende Effekt (auch Impact genannt) hoch ist.

A/B Test Duration Calculation - convert.com

Beispiel für A/B Testlaufzeit mit viel Traffic und hohem Uplift - hier convert.com

Das Problem dabei ist, dass man in der Onlinewelt keinen Einfluss auf die Art der Testteilnehmer hat. Somit ist die gewählte Stichprobe unter Umständen nicht repräsentativ. Hierzu gibt es zahlreiche Beispiele die zeigen, dass Varianten in den ersten Tagen besonders gut oder schlecht laufen, im Verlauf ihr Verhalten jedoch (komplett) ändern - trotz anfänglich großer Stichprobe.

Drei Aspekte, welche hierauf maßgeblich einwirken, sind unterschiedliche Verhaltensmuster, Nutzungstypen und Umgebungsvariablen. So können eine Reihe von Faktoren, wie beispielsweise

  • Tag (Wochenende vs. Werktags),
  • Situation (Arbeitsplatz vs. Couch vs. Unterwegs),
  • Stimmung (gutes Wetter vs. schlechtes Wetter),
  • Vorkenntnis (Bestandskunden vs. Neukunde),
  • Motivation (Werbeaktion vs. Empfehlung)

    uvm. einwirken.

Mit anderen Worten können beispielsweise Testteilnehmer, die unter der Woche am Test teilnehmen, sich völlig anders verhalten, als Nutzer am Wochenende. Insbesondere bei Tests, welche nicht für einen speziellen Kanal angelegt werden, muss der “Gesamt-Traffic-Mix” passen. Sonst beinhaltet die Momentaufnahme des Tests im Zweifelsfall alles, aber nicht die Normalität. Ein Test sollte sich robust genug gegenüber Traffic-Änderungen zeigen.

Ein weiterer Bestandteil des Verhaltens ist die Time to Purchase. Je nach Geschäftsmodell, Branche oder Produkten ist der Zeitraum unterschiedlich. Handelt es sich um höherpreisige oder beratungsintensivere Produkte, so kann der Nutzer beispielsweise über mehrere Wochen mehrmals am Test teilnehmen, bevor er eine Conversion auslöst. Ist die Testlaufzeit zu gering gewählt, so findet die Conversion ggf. außerhalb des Tests statt.

Auch hier gibt es eine Crux, welche der Technologie geschuldet ist - die sog. Traffic-Pollution. Sieht der Zyklus vor, dass der Test länger laufen muss oder aus den bereits erwähnten statistischen Gründen (Power, Stichprobengröße), so kann eine längere Laufzeit die Ergebnisse verfälschen.

So löschen laut Ton Wesseling - CEO von Testing.Agency - beispielsweise 10% der Testteilnehmer innerhalb von 2 Wochen ihre Cookies und verlieren somit ihre zugewiesene Testvariante. Aber auch der Wechsel des Endgeräts (unterschiedliche Desktop-PCs, Tablet oder Mobile) führen zum Verlust der Variante. Je länger ein Test also läuft, desto höher ist das Risiko, dass sich die Varianten der Testteilnehmer vermischen und damit ein valides Ergebnis verzögert wird.

Auch die Art des Conversion Goals spielt eine Rolle, besonders bei Onlineshops mit heterogenen Produktsortiment (Schraube vs. Hochlastregal). So können bei nicht binominalen Werten (z. B. Revenue) extreme Werte (besonders hohe Bestellungen) die Laufzeit erheblich beeinflussen, falls diese nicht gefiltert werden (hängt vom Tool ab).

2. Zwischenfazit

Auf einen Test wirken unterschiedlichste externe Faktoren ein, welche sich nicht alle vorhersehen lassen. Ein Test muss lange genug laufen, um unterschiedliche Verhaltensmuster und Nutzungstypen für eine repräsentative Stichprobe abbilden zu können.

Der letzte Einflussfaktor ist ein wirtschaftlicher Aspekt. Im Unterschied zu den bereits vorgestellten wirkt dieser nicht direkt auf die Laufzeit ein, ist aber für die Entscheidung der Strategie relevant.

3. Aspekt: Etwas überspitzt formuliert - Wieviel kostet mich die Wahrheit?

Letztlich entscheidet auch der wirtschaftliche Aspekt, wie lange ein Test mit positivem, negativem oder möglicherweise ohne Effekt laufen sollte.

Ist es monetär vertretbar, eine Variante mit signifikanten Uplift weiter laufen zu lassen?

Die Control verbrennt ja quasi Geld, oder?

Noch schlimmer:

Die Variante ist signifikant schlechter, sollte ich sie nicht besser abschalten, um kein Geld zu verbrennen?

Ein weiterer Klassiker:

Die Varianten laufen zusammen, macht es noch Sinn, den Test weiter laufen zu lassen?

Obwohl sich die Antworten auf diese Fragen anhand von statistischen und externen Einflussfaktoren herleiten lassen, ist dies stets eine Ermessensfrage. Wie sich die Testergebnisse richtig interpretieren lassen, erklärt mein Kollege Steffen Schulz übrigens sehr gut verständlich in dem kostenlosen E-Book „Leitfaden zur statistischen Interpretation von Testergebnissen”.

Die Frage ist: Worauf wird der Fokus gelegt?

Auf ein möglichst schnelles Testergebnis, das bereits ausreicht, um eine valide Entscheidung zu treffen:

Ich will wissen, ob die Variante besser ist

Oder muss das Ergebnis so genau wie möglich sein und gegen den statistischen Zufall so gut es geht abgesichert sein:

Ich will genau wissen, wie viel die Variante besser ist

Bei der Kalkulation kann man dies bereits im Vorfeld festmachen:

Bei 80% Testpower und einseitiger Prüfung führt der Test deutlich schneller zu einem Ergebnis, weshalb gerade Testingtools im günstigeren Preissegment diese Kombination einsetzen. Bei 95% und zweiseitiger Prüfung dauert es entsprechend länger, ist aber dafür präziser.

A/B Test Vergleich Testpower

Beispiel zeigt den Einfluss der Teststärke und Prüfung auf die Stichprobengröße (und damit auf die Testlaufzeit)

Bereits bei der Kalkulation der Testlaufzeit können wirtschaftliche Aspekte den entscheidenden Ausschlag geben.

Zum Beispiel: Der Test muss anhand des erwarteten Uplifts und vorhandenen Traffics so lange laufen, dass es unwirtschaftlich ist, den Test überhaupt durchzuführen.

Wer mehr über den Unterschied zwischen ein- und zweiseitiger Prüfung, Konfidenzinterval, Signifikanzniveau etc. wissen möchte, findet hier weiterführende Informationen.

Was ist also die richtige Strategie zur Testlaufzeit

Macht man sich all diese Einflussfaktoren bewusst, so sollte man sich eine entsprechende Testlaufzeit-Formel bzw. Teststop-Regel zurecht legen. Hier gibt es leider kein Patentrezept. Außer den „harten” statistischen Faktoren hängen alle weiteren von der jeweiligen Testsituation ab. Letzlich kann auch einfach „nur“ die Testhypothese nicht funktionieren oder nicht ausreichend Kontrast aufweisen.

Es gibt aber unter dem Deckmantel der repräsentativen Stichprobe einige Anhaltspunkte, welche bei der eigenen Formel helfen können:

  1. Um möglichst unterschiedliche Nutzungszyklen und -typen im Test abbilden zu können, sollte ein Test über ganze Wochen laufen (z. B. Mo - Mo).
  2. Es sollten möglichst verschiedene Nutzer am Test teilnehmen, z. B. Bestandskunden und Neukunden (unterschiedliche Trafficquellen, Kampagnen wie z. B. Newsletter, TV-Spots etc.). Wichtig dabei ist eine Segmentierung, um die Ergebnisse interpretieren und einen tieferen Einblick erhalten zu können.
  3. Selbst wenn viel Traffic zur Verfügung steht, sollte der Test in einem längeren Zeitraum laufen. Der Traffic kann unter Umständen reduziert werden (Traffic Allocation), um einen längeren Zeitraum testen zu können (Kosten für Traffic-Volumen reduzieren).
  4. Die Tests nicht “zu früh” anhalten. Die statistischen und externen Einflüsse im Hinterkopf, brauchen Tests Zeit. Das gilt gleichermaßen für positive und negative Ergebnisse! Nur weil das Tool nach kurzer Zeit 95% Signifikanz oder höher anzeigt, heisst das nicht, dass man jetzt sofort stoppen und feiern kann.
  5. Die time to purchase und mögliche Gewöhnungsfaktoren (Bestandskunden) berücksichtigen. Der Test sollte mindestens einen Zyklus umfassen.

Fazit

Dieser Artikel soll nicht den Eindruck erwecken, dass die Testlaufzeit willkürlich und nicht planbar ist - im Gegenteil. Macht man sich die vorgestellten Aspekte bewusst, so kann man im Vorfeld bereits einschätzen, wie lange ein Test in etwa laufen muss.

Je mehr Erfahrung man im Testing gesammelt hat, desto eher lässt sich die für die Kalkulation erforderliche Kennzahl „erwarteter Uplift” und zusätzliche externe Faktoren einschätzen.

Meine Faustformel für eine durchschnittliche Testlaufzeit und Teststopp-Strategie:

Ein Test sollte mindestens 2 - 4 Wochen laufen und pro Variante mindestens 1.000 - 2.000 Conversions beinhalten. Es sollten in diesem Zeitraum Aktionen (Newsletter, TV-Spots, Sales etc.) stattfinden. Es sollten möglichst unterschiedliche Kanäle abgebildet werden (Gesamt-Traffic-Mix, entweder durch Targeting im Vorfeld oder Segmentierung im Nachgang). Hat der Test eine minimale statistische Signifikanz von 95% erreicht (zweiseitig, d. h. positiv wie negativ) und ist diese stabil, so wird der Test angehalten.
Welche Erfahrungen haben Sie zur Testlaufzeit oder Teststop-Strategie gesammelt? Über Ihr Feedback würde ich mich freuen!

Weiterführende Links

Ähnliche Artikel

Kalkulatoren