Testlaufzeitberechnung für A/B-Tests

Wie lange muss dein A/B Test mit dem Ziel, die Conversion Rate zu erhöhen laufen, damit du ein statistisch signifikantes Ergebnis erhältst? Oder benötigst du einen Testlaufzeitrechner mit Revenue Goal? Unsere beiden Testlaufzeitrechner helfen dir dabei, deine A/B Testlaufzeiten optimal zu planen.

zur Anleitung

Inhaltlicher Kontext zur Testlaufzeitberechnung

 

Ein A/B-Test benötigt einen sogenannten fixen Horizont. Das bedeutet: Die Sample Size bzw. die Testlaufzeit muss vor dem Beginn des Experiments festgelegt werden.

Dies ist essenziell, um zum einen zu verhindern, dass man in die False-Positive-Falle tappt und einen Test immer genau dann abschaltet, wenn die Ergebnisse signifikant positiv geworden sind. Zum anderen möchte man auch verhindern, einen Test länger laufen zu lassen als nötig, um Opportunitätskosten möglichst niedrig zu halten.

Nun ist es eine mögliche Strategie, die Testlaufzeit pauschal auf einen festen Zeitraum festzulegen, bspw. 2 Wochen.

❗ Doch damit berücksichtigt man nicht die individuellen Rahmenbedingungen eines jeden Tests:

Einwirkungen_Testlaufzeit

Die Anzahl an Nutzern und deren Conversion Rate, die in einem AB-Test teilnehmen sollen, können sich je nach Testkonzept sehr stark unterscheiden. Ein Konzept auf der PDP wird in einer Woche von deutlich mehr Nutzern gesehen als eines im Warenkorb, wogegen dort die Conversion Rate nicht unerheblich höher liegen wird.

Zudem wird dabei nicht berücksichtigt, dass von unterschiedlichen Testkonzepten auch diverse Effekte (Uplifts) erwartet werden. Die einfache Regel lautet: Um große Effekte erkennen zu können, reichen in der Regel kleinere Stichproben. Für kleine Effekte braucht man eine größere Stichprobe.

Ist die pauschale Testlaufzeit also zu klein für den Effekt, der von einer Variante stammen kann, tappen wir vermutlich in die False-Negative-Falle, also ein nicht-signifikantes Ergebnis, obwohl die Variante in Wahrheit ein Gewinner war.

Die Wahrscheinlichkeit beider Fehlerarten – False-Positives (Alpha-Fehler) und False-Negatives (Beta-Fehler) – versucht man im A/B-Test zu begrenzen. Dafür fixiert man das Konfidenznievau zur Begrenzung des Alpha-Fehlers und die Test-Power für die Kontrolle des Beta-Fehlers.

Wenn diese Parameter fix sein sollen (Traffic und Conversion Rate sind ebenfalls fix durch das Testkonzept definiert), muss man die Sample Size dementsprechend für jeden Test individuell anpassen.

Testlaufzeitrechner_Visitor_Uplift

Die Grafik zeigt: Die benötigte Testlaufzeit ist zudem abhängig von der Wahl deiner KPI. Testest du auf Umsatzwerte wie z.B. den Revenue per Visitor, so benötigst du bei gleichen Uplift deutlich mehr Besucher, als würdest auf die Conversion Rate testen.

Zudem unterscheidet sich die zugrunde liegende statistische Berechnung je nachdem, ob du auf die Conversion Rate oder den Umsatz testest. Aus diesem Grund stellen wir dir auch zwei unterschiedliche Rechner zur Verfügung; einen für die Conversion Rate und einen für den Revenue per Visitor. Mit diesen Tools kannst du die individuelle Sample Size und daraus resultierende Testlaufzeit – bei fixem Konfidenzniveau und Test-Power – berechnen.

So bedienst du den Rechner und interpretierst die Ergebnisse

 

Vorbereitung

Bevor du mit der Berechnung starten kannst, benötigst du eine Schätzung für die erwarteten Nutzer:innen im Test und deren Conversion-Rate oder natürlich die Rate eines anderen Ziels, wenn dieses das Primärziel deines Tests ist.

Um diese Zahlen schätzen zu können hilft ein Blick in dein Web-Analytics-System. Dort kannst du nachsehen, welche Nutzerzahlen und Conversions du auf den betroffenen Seiten des Tests in einem vergleichbaren Zeitraum hattest.

Ein vergleichbarer Zeitraum kann der Durchschnitt der letzten drei Monate sein oder, falls es sich um einen Zeitraum mit ausgeprägten saisonalen Effekten handelt, der Vorjahreszeitraum (ggf. skaliert mit einem Wachstumsfaktor).

Wichtig ist auch, dass du diese Daten nach den gleichen Kriterien gefiltert werden sollten, wie im geplanten Test (bspw. nur mobile Nutzer).

Sind die Daten vorbereitet, hast du alles um deine Testlaufzeit mit dem Testlaufzeitrechner zu ermitteln.

Bedienung des Tools (Conversion Rate)

Auf der linken Seite des Tools findest du die Eingabemaske. Hier müssen folgende Angaben gemacht werden:

  • Visitors pro Monat: Die geschätzte monatliche Anzahl an Nutzern auf der zu vertesteten Seite. Nur Nutzer, welche auch in den Test kommen würden (z.B. nur mobile Nutzer für einen Mobile-Test.
  • Aktuelle CR (%): Die geschätzte Anzahl aller Besucher auf der vertesteten Seite, mit mindestens einer Conversion.
  • # Varianten: Die Anzahl aller Varianten im geplanten Test, inkl. der Kontroll-Variante. Je mehr Varianten getestet werden, umso länger muss das Experiment laufen.
  • Anzahl der Varianten (inkl. Control): Anzahl der zu testenden Varianten plus Control.
  • Conversion-Wert (optional): Der durchschnittliche Wert einer Conversion in Euro. Dient in der Ausgabe zur Hilfestellung bei der Priorisierung oder als erste grobe Schätzung einer ROI-Rechnung.
  • Konfidenzniveau: ​​Dient der Kontrolle der False-Positive-Rate. Die Konfidenz gibt an, wie sicher du sein kannst, dass der als signifikant ausgewiesene Uplift bzw. Downcast von einem tatsächlich vorhanden Effekt stammt und kein zufälliger Effekt der Stichprobe ist.
  • Power: Dient der Kontrolle der False-Negative-Rate. Hier berechnest du die Wahrscheinlichkeit, dass mithilfe des A/B-Tests ein signifikanter Effekt nachgewiesen wird, wenn es tatsächlich einen Effekt gibt. In der Regel verwendet man hier 80%.
  • Anzahl Wochen: Gibt an, wie viele mögliche Testzeiträume berücksichtigt werden sollen.

Eingabemaske-Testlaufzeitrechner

Bedienung des Tools (Revenue Goals)

Auf der linken Seite des Tools findest du die Eingabemaske. Hier musst du deine historischen Revenue Daten hochladen und folgende Eingaben vornehmen:

  • Metrik: Die Zielmetrik, auf welche der Test ausgelegt ist und die Testlaufzeit berechnet werden soll. Zur Auswahl stehen Revenue per Visitor (RPV) und der Average Order Value (AOV).
  • Umsatz pro Visitor ID: Um die Testlaufzeit zu berechnen muss die Varianz der Umsatzdaten geschätzt werden. Dafür wird eine Datei mit historischen Umsatzdaten aus einem zum geplanten Test passenden Vergleichszeitraum (bspw. des letzten Monats) benötigt. Die Daten sollten im folgenden Format vorliegen:Tabellenformat für die Umsatzwerte  Als Dateiformat eignet sich eine CSV- oder Excel-Datei. Wenn als Metrik RPV ausgewählt wurde, müssen die Daten auch alle Nutzer ohne Umsatz enthalten. Für eine Berechnung mit AOV als Metrik reichen lediglich die erzielten Umsätze.
  • Visitors pro Woche: Die geschätzte wöchentliche Anzahl an Nutzern auf der Seite des AB-Tests. Nur Nutzer, welche auch in den Test kommen würden (z.B. nur mobile Nutzer für einen Mobile-Test.
  • Anzahl der Varianten (inkl. Control): Anzahl der zu testenden Varianten plus Control.
  • Prozentsatz zur Winsorisierung: Wenn Extremwerte in der späteren Auswertung berücksichtigt werden sollen, sollte dies bereits in der Testlaufzeitberechnung berücksichtigt werden. Der hier gewählte Prozentwert X, nimmt die X-Prozent größten Bestellwerte der Daten und setzt diese auf den Wert des ( 100 %-X %)-Quantils.
  • Konfidenzniveau: ​​Dient zur Kontrolle der False-Positive-Rate. Die Konfidenz gibt an, wie sicher du sein kannst, dass der als signifikant ausgewiesene Uplift bzw. Downcast von einem tatsächlich vorhanden Effekt stammt und kein zufälliger Effekt der Stichprobe ist.
  • Power: Dient der Kontrolle der False-Negative-Rate. Hier berechnest du die Wahrscheinlichkeit, dass mithilfe des A/B-Tests ein signifikanter Effekt nachgewiesen wird, wenn es tatsächlich einen Effekt gibt. In der Regel verwendet man hier 80%.

Eingabemaske Testlaufzeitrechner Metrische Merkmale

Interpretation der Ergebnisse

Hast du alle Eingaben gemacht, startet die Berechnung automatisch.

Anschließend siehst du eine Tabelle, mit folgendem Aufbau:

Ergebnisse_Testlaufzeitrechner

In dieser Übersicht kannst du ablesen, wie viel besser deine Variante sein muss, um in der in Spalte eins angegebenen Laufzeit einen Effekt, mit der Wahrscheinlichkeit deiner Testpower, signifikant nachweisen zu können.

Das heißt, wenn du einen Test nach drei Wochen abschalten möchtest, müsste die Variante, bei den im Beispiel gezeigten Daten, einen Effekt von mindestens 6,26 % ausmachen.

Wichtig:

  1. Das bedeutet NICHT, dass die Variante im Experiment einen Uplift von mindestens 6,26 % erzielen muss. Es handelt sich beim nachweisbaren Uplift um den “wahren” Effekt der Variante. Das bedeutet: Wenn die Variante in Wahrheit mindestens 6,26% besser ist als die Control, wird im Test, mit Wahrscheinlichkeit der Testpower, EIN signifikanter Uplift gemessen werden. Dieser Uplift kann größer oder kleiner als 6,26 % sein. Wichtig ist dann lediglich, dass dieser Signifikant ist
  2. Der nachweisbare Uplift bedeutet auch NICHT, dass bei einem signifikanten Testergebnis nach 3 Wochen der wahre Uplift mindestens 6,26 % beträgt. Dein signifikantes Ergebnis kann ebenso von einem nidriegeren “wahren” Effekt stammen, es war dann lediglich unwahrscheinlicher als deine Testpower, dass du diesen überhaupt erkannt hast. Wie wahrscheinlich bestimmte “wahre” Uplifts auf Basis deines Testergebnis sind, kannst du mit unserem Bayesianischen Analysetool herausfinden.

Um die Testlaufzeit für dein Online-Experiment zu bestimmen, benötigst du eine Schätzung des Effekts, den du von deiner Variante erwartest. Diesen Wert suchst du in Spalte 2 und liest deine benötigte Testlaufzeit in der zugehörigen Zelle aus Spalte 1 ab.

Beachte immer: Eine schlechte Schätzung ist immer noch besser als keine Schätzung. Wenn du unsicher bist, welchen Uplift du von deinem Testkonzept erwarten sollst, empfiehlt sich wahrscheinlich eine möglichst konservative Schätzung. Mit der Zeit solltest du ein immer besseres Gefühl dafür gewinnen, wie welche Testkonzepte vorab einzuschätzen sind.

Und selbst wenn du mit deiner Schätzung völlig daneben lagst und du den Effekt vorab viel höher oder niedriger eingeschätzt hast als er wirklich ist, dann hast du damit “nur” deine Testpower verändert.

Das heißt: Wird ein eigentlich effektives Testkonzept underpowered getestet, ist die Wahrscheinlichkeit größer, dass du kein signifikantes Ergebnis erhalten wirst. Das ist natürlich nicht ideal, aber du musst keine Angst davor haben, etwas kaputtzumachen und eine Verlierer-Variante aus Versehen als Gewinner auszuweisen – zumindest nicht mit einem größeren Risiko, als du vorab mit dem Konfidenzniveau festgelegt hast.

Kennst du schon unsere anderen Tools?

Wir bieten eine Vielzahl statistischer Tools, die deinen Optimierer-Alltag erleichtern und dir helfen, schnell vertrauensvolle Ergebnisse zu liefern – etwa einen Testlaufzeitrechner oder ein Check-out-Funnel Tool. Wir haben sie auf Basis zahlreicher selbst durchgeführter A/B-Tests entwickelt und nutzen sie in der täglichen Arbeit mit unseren Kunden, um Experimente einfach und vor allem valide auszuwerten.

Zur Tool-Übersicht