Testplaner – für ein einfaches statistisches Design von A/B-Tests

Mit dem Testplaner hast du die volle Freiheit für das statistische Design deiner A/B-Tests. Genaue Definitionen der Nullhypothese, bspw. für Non-Inferiority-Tests, individuelle Traffic-Verteilungen für jede Variante, eine automatische Anpassung des Konfidenzniveaus bei mehreren Test-Varianten zum Ausgleich der Alpha-Fehler-Kumulierung, und eine leicht verständliche Dokumentation der Ergebnisse machen diesen Testlaufzeitrechner zu einem einzigartigen Helfer.

Begriffserklärung und Bedienungsanleitung

Der Testplaner ist in zwei Bereiche unterteilt: links die Eingabefelder und rechts die berechneten Ergebnisse der Testplanung. Die verschiedenen Parameter auf der linken Seiten wollen wir dir kurz erklären – ergänzend zu den überall vorhandenen Hilfetexten.

Metrik:
Wähle das Primärziel deines Tests. Dieser Wert wird benutzt, um in der Zusammenfassung automatisch eine vollständige Hypothese für deinen Test zu formulieren.

Visitors pro Monat:
Zur Berechnung der Testlaufzeit benötigt das Tool die durchschnittliche Anzahl an Besucher:innen im Monat – auf den Seiten, die für den Test relevant sind. Wenn beispielsweise eine Produktdetailseite (PDS) getestet werden soll, gibst du hier die Monhtly Visitors mit mindestens einem PDS-Seitenaufruf an.

Aktuelle CR (%):
Die Conversion Rate (CR) bezieht sich natürlich auf die von dir gewählte Metrik und die für den Test relevanten Visitors. Beispiel: Wir testen eine PDS und erwarten, dass sich die Add-to-Cart-Rate erhöhen wird. Dann ist die aktuelle CR die aktuelle Add-to-Cart-Rate der Nutzer mit mindestens einem PDS-Seitenaufruf.

Erwarteter Uplift (%) (MEI):
MEI steht für „Minimalen Effekt von Interesse“. Da der erwartete Uplift, insbesondere für Optimierer mit noch wenig Erfahrung, häufig sehr schwer einzuschätzen ist, kann der Ansatz des MEI hilfreich sein. Wenn wir keine substanzielle Schätzung für den erwarteten Uplift unserer Variante geben können, gibt es alternativ den Ansatz, einen minimalen Uplift zu bestimmen, ab dem die Variante für unser Business relevant wäre.

Wichtig:

  • Der MEI bedeutet nicht, dass niedrige Uplifts nicht signifikant sein können. Die Wahrscheinlichkeit für ein signifikantes Ergebnis nimmt lediglich ab.
  • Der MEI bedeutet nicht, dass ein signifikantes Ergebnis am Ende genau diesen Uplift bestätigt. Es handelt sich ausschließlich um eine Annahme über den wahren Effekt der Variante, für welche wir eine optimale Stichprobengröße berechnen wollen. Hat die Variante in Wahrheit einen niedrigeren Effekt, wird unser Test underpowered (ineffektiv) sein. Ist der Effekt in Wahrheit größer als der erwartete Uplift, wird der Test overpowered (ineffizient) sein.

Anzahl (#) Varianten (inkl. Control):
Definiere die Anzahl der geplanten Varianten für das Experiment. Der Standardwert von 2 entspricht dem typischen A/B-Test mit einer Variante und der Control.Werden mehr als zwei Varianten ausgewählt, wird in der Testplanung automatisch eine Korrektur des Konfidenzniveaus durchgeführt (mit der Holm Bonferroni Methode). Du erhältst dann automatisch einen entsprechenden Hinweis. Ebenfalls wird in deiner Testplanung dokumentiert, mit welchem korrigierten Konfidenzniveau die Testergebnisse nach Ende des Experiments ausgewertet werden müssen, um die Alpha-Fehler-Kumulierung zu berücksichtigen.

Typ des Tests:
Grundsätzlich können statistische Hypothesen ein- oder zweiseitig formuliert sein.Bei einseitigen Hypothesen (One-Sided) wird versucht, Effekte in eine bestimmte Richtung nachzuweisen (Uplift oder Downcast). Ein einseitiger Test auf einen Uplift kann per definitionem niemals einen signifikanten Downcast nachweisen, egal wie deutlich dieser Downcast im Ergebnis auch wäre. Geht es bei einer Variante tatsächlich nur um die Frage, ob wir bspw. einen Uplift erwarten können und ob wir dementsprechend die Variante ausrollen oder nicht, ist der einseitige Test auf Uplifts die effizienteste Hypothese.

Zweiseitige Hypothesen (Two-Sided) berücksichtigen Effekte in beide Richtungen. Diese Hypothesen sind immer dann zu wählen, wenn unser Ziel primär darin besteht, die Auswirkungen unserer Variante auf die Metrik zu verstehen. Ist die Richtung der Hypothese vor dem Test nicht klar festgelegt und wird stattdessen nach dem Test auf Grundlage der vorliegenden Ergebnisse bestimmt, erhöhen wir unser Risiko für falsch positive Ergebnisse um bis zu 100 %.

Konfidenzniveau (%):
Das Konfidenzniveau ist die Gegenwahrscheinlichkeit des in der Wissenschaft gängigen Signifikanzniveaus. Das Konfidenzniveau beschreibt die Wahrscheinlichkeit dafür, die Nullhypothese beizubehalten, wenn diese in Wahrheit zutrifft. Oder vereinfacht formuliert: Das Konfidenzniveau beschreibt die Wahrscheinlichkeit dafür, kein signifikantes Ergebnis durch bloßen Zufall zu erhalten, wenn es in Wahrheit auch keinen Effekt gibt.Mit dem Konfidenzniveau kontrollieren wir also unser Risiko für Falsch-Positive Ergebnisse. Es hat sich in der Praxis ein Standardwert von 95 % etabliert, auch wenn es dafür keinen praktischen Grund gibt. Idealerweise wird das Konfidenzniveau für jeden Test individuell bestimmt. Der relevante Faktor für die Bestimmung sollte sein, wie groß der Schaden eines Falsch-Positiven Ergebnisses wäre.

Ein Beispiel: Testen wir eine neu formulierte Begrüßung auf der Startseite, erhalten im Test ein falsch positives Ergebnis und rollen die Variante aus, wird diese kaum Kosten verursachen. Denn ein Text kann in der Regel ohne großen Aufwand geändert und auch leicht wieder rückgängig gemacht werden und wird vermutlich keine allzu großen Downcasts erzeugen. Das Schadensrisiko eines Falsch-Positiven Ergebnis ist also gering. Dementsprechend könnten wir guten Gewissens ein relativ niedriges Konfidenzniveau wählen und damit Power gewinnen.

Testen wir jedoch eine neue Suche (Product Discovery Lösung), deren Implementierung sechsstellige Investitionsbeträge bedeuten würde, möchten wir möglichst sicher sein, dass ein positives Ergebnis auch von einem echten Gewinner stammt. Wir definieren also dementsprechend ein relativ hohes Konfidenzniveau.

Testpower:
Die Testpower ist die Wahrscheinlichkeit dafür, ein signifikantes Ergebnis zu erhalten, wenn in Wahrheit ein Effekt vorhanden ist. Oder methodisch korrekt formuliert: Die Wahrscheinlichkeit dafür, die Nullhypothese zu verwerfen, wenn diese in Wahrheit nicht zutrifft. Wir kontrollieren mit der Testpower also unser Risiko für Falsch-Negative (Beta Fehler) Ergebnisse.

Die Power gilt dabei für den angenommenen Uplift MEI (siehe „Erwarteter Uplift“). Ist der Effekt in Wirklichkeit deutlich größer oder kleiner als in unserer Berechnung, ändert sich die tatsächliche Power dementsprechend. Auch für die Power hat sich eine Art Standardwert i.H.v. 80 % etabliert. Ebenso wie beim Konfidenzniveau gibt es für diesen Wert keine allgemeingültige Begründung. Unsere Empfehlung ist jedoch, nicht unter einer Power von 80 % zu planen, um eine gewisse Mindest-Effektivität des Testingprogramms zu gewährleisten.

Wie hoch die Testpower genau sein soll, ist abhängig von dem zu erwartenden Schaden eines Falsch-Positiven Ergebnis. Handelt es sich um einen Test, der in der Entwicklung bereits viel Geld und Ressourcen gekostet hat oder erwarten wir einen ziemlich großen Uplift, sollten wir auf über 80 % gehen. Denn ein unentdeckter Gewinner würde in diesen Fällen besonderen Schaden anrichten.

 

Advanced Settings (werden erst angezeigt, nachdem Advanced Settings ausgewählt wurde)

H0-Parameter (%):
H0 steht für die Nullhypothese. Mit diesem Parameter definieren wir unsere Nullhypothese. Der Default-Wert liegt bei null. Dies entspricht dem ganz „normalen“ A/B-Test, bei dem (im einseitigen Fall) die Nullhypothese aussagt, dass es keinen Uplift in der Variante gibt. Ist unser Testergebnis am Ende signifikant, verwerfen wir die Nullhypothese und gehen von EINEM Uplift aus.

Man kann den H0-Parameter jedoch auch so einstellen, dass die Nullhypothese besagt: Es gibt keinen Uplift größer als x, z.B. 2 %. Bei einem signifikanten Testergebnis gehen wir nun nicht nur von irgendeinem Uplift aus, sondern können mit Konfidenz sagen, dass wir einen Uplift größer als 2 % erwarten.

Wichtig: Wenn der H0-Parameter einen Mindest-Uplift beschreibt, der Wert also größer 0 ist, dann muss der erwartete Uplift MEI zwingend größer sein, als dieser H0-Parameter. Wenn wir einen MEI von 2 % annehmen, kann es logisch nicht funktionieren, einen Uplift nachzuweisen, der größer als 2 % ist.

Anteil der Nutzer:

Planst du eine andere Traffic-Verteilung im A/B-Test als die standardmäßige 50:50 Verteilung (z.B. um eine Relaunch-Variante zunächst nur einem kleinen Teil der Nutzer:innen auszurollen), kannst du hier eine genaue Verteilung für jede Variante angeben. Die Anzahl an Input Feldern ändert sich dynamisch mit deiner angegebenen Anzahl an Varianten. Wichtig ist dabei darauf zu achten, dass die Summe des Traffics in allen Varianten am Ende immer 100 % ergibt.

Bei der Berechnung der Testlaufzeit in Wochen wird anschließend der Traffic aus der Variante mit dem prozentual geringsten Traffic-Anteil berücksichtigt. Damit wird sichergestellt, dass alle Varianten die minimale Stichprobengröße für die gewünschte Testpower erreichen.

Kennst du schon unsere anderen Tools?

Wir bieten eine Vielzahl statistischer Tools, die deinen Optimierer-Alltag erleichtern und dir helfen, schnell vertrauensvolle Ergebnisse zu liefern – etwa einen Testlaufzeitrechner oder ein Check-out-Funnel Tool. Wir haben sie auf Basis zahlreicher selbst durchgeführter A/B-Tests entwickelt und nutzen sie in der täglichen Arbeit mit unseren Kunden, um Experimente einfach und vor allem valide auszuwerten.

Zur Tool-Übersicht