Warum erfolgreiche A/B-Tests eine saubere statistische Testplanung brauchen (plus neues Testplaner-Tool)
Um die Grundlage für ein erfolgreiches Testing-Programm zu legen, ist ein methodisch – und das heißt vor allem statistisch – sauberes Vorgehen bei der Testplanung unerlässlich. Mit der Berechnung von p-Werten, CTBC-Scores und Konfidenzintervallen können wir unser Risiko für Fehlentscheidungen kontrollieren und valide Ableitungen über unsere getesteten Varianten treffen. Und dabei natürlich hoffentlich viele „Gewinner“ ermitteln. 😉
Statistik ist allerdings schon lange vor der Testauswertung relevant. Bereits bei der Planung eines A/B-Tests wird mit der Beschreibung eines Testdesigns das Fundament für den späteren Erfolg gelegt. Und genau darauf geht dieser Artikel ein; und genau dafür haben wir ein neues Tool, den „Testplaner“, entwickelt!
Woraus besteht ein statistisches Testdesign?
Die Population / Stichproben-Einheit
Die für einen Test relevante Population wird darüber definiert, dass Nutzer:innen durch den Test beeinflusst werden können. Wird bspw. in einem Experiment die Produktdetailseite (PDS) verändert, besteht die Population aus allen Nutzer:innen, die eine PDS besucht haben. Im Experiment versuchen wir dann anhand einer Stichprobe zu überprüfen, ob sich das Verhalten dieser Population durch eine unserer Testvarianten signifikant verändern würde.
Stichproben bestehen meistens aus eindeutigen Nutzern (genau genommen Nutzer-IDs). Möglich, aber selten, sind auch andere Einheiten, wie Sitzungen oder Pageviews.
Die Stichprobezuordnung
Bei A/B-Tests werden die Testteilnehmer:innen nahezu immer zufällig einer Testvariante zugewiesen. Bei einer ausreichend großen Stichprobe wird dadurch gewährleistet, dass diese über den Testzeitraum repräsentativ ist.
Relevant ist auch das Verhältnis der Stichprobengrößen zwischen den einzelnen Varianten: üblich ist eine Gleichverteilung auf alle Varianten. Andere Verteilungen, um etwa das Risiko unterlegener Varianten zu minimieren, sind aber ebenfalls möglich.
Hypothese (Nullhypothese und Alternativhypothese)
Die Hypothese beschreibt als zentrale Aussage, was wir mit unserem Experiment nachweisen möchten.
Die Alternativhypothese beschreibt die durch die optimierte Variante zu erwartenden Veränderung(en) in der Zielmetrik, damit diese als Erfolg bewertet wird. Das kann ganz simpel ein grundsätzlicher Uplift in der Conversion Rate sein, aber auch ein spezifischer Mindest-Uplift, zum Beispiel in Höhe von zwei Prozent.
Die Nullhypothese beschreibt das Gegenteil unserer Alternativhypothese. Sie besagt also, dass es keinen Unterschied zwischen der Control und der Variante gibt – im Beispiel oben also keinen (Mindest-)Uplift in der Conversion Rate.
Ein signifikantes Ergebnis bedeutet, dass wir die Nullhypothese verwerfen und stattdessen unsere Alternativhypothese annehmen.
Die Zielmetrik(en)
Anhand der Zielmetrik als zentrale Messgröße vergleichen wir die Leistung der verschiedenen Varianten. Die Wahl der richtigen Zielmetrik ist entscheidend, da sie den Fokus des Tests festlegt und direkten Einfluss auf die Schlussfolgerungen und Entscheidungen hat.
Die Zielmetrik sollte möglichst nahe an der Business-relevanten Metrik liegen und muss zum erwarteten Verhalten der Hypothese passen. Idealerweise hat ein Experiment genau eine Zielmetrik (Primary Goal), um zu entscheiden, ob eine Variante ein Gewinner ist oder nicht.
Das soll aber nicht grundlegend die Zahl der in einem Experiment gemessenen Metriken beschränken. Secondary Goals sind essenziell, um das Verhalten der Nutzer:innen im Test zu verstehen und möglichst viel aus jedem Experiment zu lernen. Diese zusätzlichen Ziele sollten aber nicht herangezogen werden, um zu entscheiden, ob eine Variante ein Gewinner ist oder nicht.
Risiko für False Positives: (Alpha-Fehler & Konfidenzniveau)
Mit dem Signifikanzniveau bzw. dem Konfidenzniveau bestimmen wir vor dem Test, wie sehr die Daten gegen die Nullhypothese sprechen müssen, um einen Effekt als signifikant zu bewerten. Dadurch wird das Alpha-Fehler-Risiko für falsch-positive Ergebnisse begrenzt.
Ein wichtiger Aspekt dabei ist, eine mögliche Alpha-Fehler-Kumulierung (Multiple Testing Problem) zu berücksichtigen. Diese tritt immer dann auf, wenn anhand einer Stichprobe mehrere Auswertungen durchgeführt werden, beispielsweise bei einem Test mit einer Control-Gruppe und zwei weiteren Varianten. Hier wird nicht nur ein Test durchgeführt (Control vs. Variante), sondern direkt zwei (Control vs. Variante 1 und Control vs. Variante 2). Damit erhöhen wir das Gesamtrisiko, dass in einem der beiden Tests ein falsch-positives Ergebnis vorliegen könnte. Es gibt eine Vielzahl von Methoden, um diesem Effekt entgegenzuwirken, beispielsweise eine Anpassung des Konfidenzniveaus. Dies sollte unbedingt bereits im Experiment-Design berücksichtigt und dokumentiert werden.
- Siehe dazu auch mein Artikel über paralleles Testing und die verschiedenen Testmodelle.
Risiko für False Negatives (Beta-Fehler & Testpower)
Auch der umgekehrte Fall eines falsch-negativen Resultats ist möglich, bei dem das Ergebnis nicht signifikant ist, obwohl die Alternativhypothese zutrifft. Dieses Beta-Fehler-Risiko versuchen wir durch die Testpower zu kontrollieren.
Die statistische Power ist die Wahrscheinlichkeit mittels eines Experiments einen Uplift nachweisen zu können, wenn dieser tatsächlich auch existiert. Die Power wird daher auch als Teststärke bezeichnet und gibt an, wie gut ein Test in der Lage ist, einen Unterschied signifikant nachzuweisen. Sie beschreibt also die Gegenwahrscheinlichkeit des zum Beta-Fehler.
Die Power können wir beeinflussen, indem wir
- das Konfidenzniveau anpassen: Je niedriger das Konfidenzniveau, umso größer die Power, sofern alle anderen Parameter konstant bleiben.
- den Kontrast der Varianten erhöhen: Dadurch steigt der erwartete Effekt („Minimal Detectable Effect“, kurz MDE oder auf Deutsch MEI) und stärkere Effekte führen häufiger zu signifikanten Ergebnissen.
- die Stichprobengröße anpassen: Die Chance einen Effekt signifikant nachzuweisen steigt mit der Stichprobengröße.
Da der MEI nicht ohne weitere Anpassung der Testvariante erfolgen kann und das Konfidenzniveau durch unser toleriertes Risiko für falsch-positive Resultate bestimmt werden sollte, ist die Stichprobengröße die eigentliche Stellschraube für die Power.
- Siehe dazu auch Julia Engelmanns Artikel zur Testpower.
Testlaufzeit
Die geschätzte Testlaufzeit kann man als Endergebnis einer vollständigen Testplanung betrachten. Durch die Varianz in der Zielmetrik in der Population (wird z. B. durch die aktuelle Conversion Rate geschätzt), dem benötigten Konfidenzniveau und Power und dem erwarteten Effekt (MEI) wird die benötigte Stichprobengröße für eine bestimmte Nullhypothese berechnet.
Teilen wir diese Stichprobengröße durch die wöchentlich zu erwartenden Nutzer:innen im Experiment (wird durch Traffic-Daten für die für den Test relevanten Seiten geschätzt), erhalten wir die erwartete Testlaufzeit.
Warum braucht es eine solide Testplanung?
Mit einer sorgfältigen Testplanung wird sowohl die Effektivität, als auch die Effizienz eines Testingprogramms optimiert. Durch eine relevante Nullhypothese, einem angemessenen Konfidenzniveau und dem damit verbundenen begrenzten Risiko für falsch-positive Ergebnisse sowie einer ausreichend großen Stichprobe können wir sicherstellen, relevante Effekte überhaupt zu erkennen. Durch die Bestimmung einer optimalen Stichprobengröße für eine gewünschte Testpower stellen wir sicher, einen Test nicht zu lange laufen zu lassen – aber auch nicht zu früh zu beenden.
Wir beobachten häufig bei Kunden, dass Tests immer genau eine oder zwei Wochen laufen, unabhängig von geschätzten Effekten. Dadurch können insbesondere kleinere Effekte übersehen werden.
Dr. René Gilster, Principal Behavioral Science
Wie entscheidend eine solide Testplanung, insbesondere eine valide Schätzung der benötigten Testlaufzeit für den Erfolg und ROI eines Testing-Programms ist, zeigt folgendes hypothetisches Szenario:
Angenommen, du generierst im Jahr 100 Hypothesen und testest diese in einzelnen A/B-Tests. Nun nehmen wir zusätzlich an, dass von diesen 100 Hypothesen die Hälfte in Wahrheit zutreffen und die zugehörigen Varianten eigentliche Gewinner wären. Das bedeutet, du hättest in diesem Jahr 50 Gewinner und 50 Verlierer, welche wir durch A/B-Tests möglichst als solche erkennen wollen.
Bei 50 Gewinnern bedeutet das:
Erzielte Power | 90 % | 80 % | 60 % |
Erkannte Gewinner (True Positives) | 45 | 40 | 30 |
Falsch erkannte Gewinner (False Negatives) | 5 | 10 | 20 |
Das Beispiel verdeutlicht, welchen Effekt die tatsächlich erzielte Power auf unsere Effektivität hat, tatsächliche Gewinner als solche zu erkennen. Selbst bei einer Power von 90 %, was häufig zu ambitioniert ist und in der Praxis zu unnötig langen Testlaufzeiten führt, würden im Schnitt 5 echte Gewinner unerkannt bleiben. Der vermeintliche Standardwert für die Power von 80 % führt im Durchschnitt dazu, dass 10 überlegene Varianten, durch einen A/B-Test nicht erkannt worden wären. Wenn zusätzlich noch unsauber geplant wurde (bspw. durch eine Überschätzung des MEIs) und die tatsächliche Power dadurch auf 60 % sinkt, werden 20 der echten Gewinner zu keinem signifikanten Ergebnis führen und die potenziell gewinnbringenden Varianten nicht ausgerollt. Und das nur, weil die Testplanung zu stark von der Wirklichkeit abweicht.
Ein vollständiger und gut dokumentierter Testplan gibt zudem Sicherheit beim Anlegen, Durchführen und Analysieren von Experimenten. Entwickler haben eine Vorgabe, welche Zielgruppen, welche Traffic-Verteilung und welche Zielmetriken angelegt werden müssen. Die berechnete Testlaufzeit und Stichprobengröße legt eindeutig fest, wann der Test abgeschaltet werden soll und die Dokumentation der statistischen Nullhypothese, sowie des gewünschten Konfidenzniveaus legt schon vor Testbeginn genau fest, wie die Auswertung der Testresultate zu erfolgen hat. Die Testplanung ermöglicht dadurch also auch eine reibungslose Übergabe von Tests an Kolleg:innen ohne große Absprachen.
Wie erstelle ich ein statistisch valides Testdesign?
Mit unserem neuen kostenlosen Testplaner-Tool kannst du alle relevanten Aspekte der Testplanung einheitlich, ansprechend und (auch für Nicht-Statistiker) leicht verständlich dokumentieren.
Im Kern hat der Testplaner die Aufgabe, die Testlaufzeit für eine konkrete Hypothese zu errechnen. Einzigartig ist dabei die Möglichkeit, eine konkrete Nullhypothese zu definieren. Damit ist die Planung für Non-Inferiority-Tests oder Tests mit spezifischen Mindest-Uplifts genauso einfach möglich, wie für den normalen Standard-Case eines A/B-Tests auf einfache Überlegenheit.
Zusätzlich kann eine individuelle Traffic-Verteilung auf die einzelnen Varianten berücksichtigt werden, wodurch automatisch auch eine Alpha-Fehler-Kumulierung bei mehreren Varianten berücksichtigt und dokumentiert wird. Ergänzend zu den Tipps direkt im Tool findest du zudem auf der Tool-Seite eine ausführliche Bedienungsanleitung mit Erklärungen aller Elemente.
Viel Spaß beim Planen deiner Tests!
Wenn du Fragen dazu hast oder Unterstützung bei deiner Testplanung brauchst, dann melde dich jederzeit gerne bei mir und meinen Kolleg:innen.
Schon gewusst …?! Wir haben noch mehr Statistik- & Testing-Tools entwickelt, die uns tagtäglich dabei unterstützen, A/B-Tests richtig zu planen und valide auszuwerten. Nutze auch du sie, um deinen Optimierer-Alltag zu erleichtern und vertrauenswürdige Resultate zu erzielen.