A/B-Tests strategisch planen. Fehlerquellen minimieren.

Testplaner: Statistisch saubere Testdesigns für valide Ergebnisse

Mit dem Testplaner gestaltest du deine A/B-Tests präzise: Definiere Nullhypothesen (z. B. für Non-Inferiority-Tests), berücksichtige individuelle Traffic-Verteilungen und automatisiere die Anpassung des Konfidenzniveaus bei mehreren Varianten. So minimierst du Alpha-Fehler und dokumentierst deine Planung transparent – für fundierte Entscheidungen und überzeugende Kommunikation.

Testplaner für einen Rundumblick auf deinen A/B-Test

Mit dem Testplaner hast du die volle Freiheit für das statistische Design deiner A/B-Tests. Genaue Definitionen der Nullhypothese, bspw. für Non-Inferiority-Tests, individuelle Traffic-Verteilungen für jede Variante, eine automatische Anpassung des Konfidenzniveaus bei mehreren Test-Varianten zum Ausgleich der Alpha-Fehler-Kumulierung, und eine leicht verständliche Dokumentation der Ergebnisse machen diesen Testlaufzeitrechner zu einem einzigartigen Helfer.

Zur Anleitung

Anleitung

So bedienst du den Bayesianischen Business Case Rechner und interpretierst die Ergebnisse

Begriffserklärung und Bedienungsanleitung

Der Testplaner ist in zwei Bereiche unterteilt: links die Eingabefelder und rechts die berechneten Ergebnisse der Testplanung. Die verschiedenen Parameter auf der linken Seiten wollen wir dir kurz erklären – ergänzend zu den überall vorhandenen Hilfetexten.

Metrik:
Wähle das Primärziel deines Tests. Dieser Wert wird benutzt, um in der Zusammenfassung automatisch eine vollständige Hypothese für deinen Test zu formulieren.

Visitors pro Monat:
Zur Berechnung der Testlaufzeit benötigt das Tool die durchschnittliche Anzahl an Besucher:innen im Monat – auf den Seiten, die für den Test relevant sind. Wenn beispielsweise eine Produktdetailseite (PDS) getestet werden soll, gibst du hier die Monhtly Visitors mit mindestens einem PDS-Seitenaufruf an.

Aktuelle CR (%):
Die Conversion Rate (CR) bezieht sich natürlich auf die von dir gewählte Metrik und die für den Test relevanten Visitors. Beispiel: Wir testen eine PDS und erwarten, dass sich die Add-to-Cart-Rate erhöhen wird. Dann ist die aktuelle CR die aktuelle Add-to-Cart-Rate der Nutzer mit mindestens einem PDS-Seitenaufruf.

Erwarteter Uplift (%) (MEI):
MEI steht für „Minimalen Effekt von Interesse“. Da der erwartete Uplift, insbesondere für Optimierer mit noch wenig Erfahrung, häufig sehr schwer einzuschätzen ist, kann der Ansatz des MEI hilfreich sein. Wenn wir keine substanzielle Schätzung für den erwarteten Uplift unserer Variante geben können, gibt es alternativ den Ansatz, einen minimalen Uplift zu bestimmen, ab dem die Variante für unser Business relevant wäre.

Wichtig:

  • Der MEI bedeutet nicht, dass niedrige Uplifts nicht signifikant sein können. Die Wahrscheinlichkeit für ein signifikantes Ergebnis nimmt lediglich ab.

  • Der MEI bedeutet nicht, dass ein signifikantes Ergebnis am Ende genau diesen Uplift bestätigt. Es handelt sich ausschließlich um eine Annahme über den wahren Effekt der Variante, für welche wir eine optimale Stichprobengröße berechnen wollen. Hat die Variante in Wahrheit einen niedrigeren Effekt, wird unser Test underpowered (ineffektiv) sein. Ist der Effekt in Wahrheit größer als der erwartete Uplift, wird der Test overpowered (ineffizient) sein.

Anzahl (#) Varianten (inkl. Control):
Definiere die Anzahl der geplanten Varianten für das Experiment. Der Standardwert von 2 entspricht dem typischen A/B-Test mit einer Variante und der Control.Werden mehr als zwei Varianten ausgewählt, wird in der Testplanung automatisch eine Korrektur des Konfidenzniveaus durchgeführt (mit der Holm Bonferroni Methode). Du erhältst dann automatisch einen entsprechenden Hinweis. Ebenfalls wird in deiner Testplanung dokumentiert, mit welchem korrigierten Konfidenzniveau die Testergebnisse nach Ende des Experiments ausgewertet werden müssen, um die Alpha-Fehler-Kumulierung zu berücksichtigen.

Typ des Tests:
Grundsätzlich können statistische Hypothesen ein- oder zweiseitig formuliert sein.Bei einseitigen Hypothesen (One-Sided) wird versucht, Effekte in eine bestimmte Richtung nachzuweisen (Uplift oder Downcast). Ein einseitiger Test auf einen Uplift kann per definitionem niemals einen signifikanten Downcast nachweisen, egal wie deutlich dieser Downcast im Ergebnis auch wäre. Geht es bei einer Variante tatsächlich nur um die Frage, ob wir bspw. einen Uplift erwarten können und ob wir dementsprechend die Variante ausrollen oder nicht, ist der einseitige Test auf Uplifts die effizienteste Hypothese.

Zweiseitige Hypothesen (Two-Sided) berücksichtigen Effekte in beide Richtungen. Diese Hypothesen sind immer dann zu wählen, wenn unser Ziel primär darin besteht, die Auswirkungen unserer Variante auf die Metrik zu verstehen. Ist die Richtung der Hypothese vor dem Test nicht klar festgelegt und wird stattdessen nach dem Test auf Grundlage der vorliegenden Ergebnisse bestimmt, erhöhen wir unser Risiko für falsch positive Ergebnisse um bis zu 100 %.

Konfidenzniveau (%):
Das Konfidenzniveau ist die Gegenwahrscheinlichkeit des in der Wissenschaft gängigen Signifikanzniveaus. Das Konfidenzniveau beschreibt die Wahrscheinlichkeit dafür, die Nullhypothese beizubehalten, wenn diese in Wahrheit zutrifft. Oder vereinfacht formuliert: Das Konfidenzniveau beschreibt die Wahrscheinlichkeit dafür, kein signifikantes Ergebnis durch bloßen Zufall zu erhalten, wenn es in Wahrheit auch keinen Effekt gibt.Mit dem Konfidenzniveau kontrollieren wir also unser Risiko für Falsch-Positive Ergebnisse. Es hat sich in der Praxis ein Standardwert von 95 % etabliert, auch wenn es dafür keinen praktischen Grund gibt. Idealerweise wird das Konfidenzniveau für jeden Test individuell bestimmt. Der relevante Faktor für die Bestimmung sollte sein, wie groß der Schaden eines Falsch-Positiven Ergebnisses wäre.

Ein Beispiel: Testen wir eine neu formulierte Begrüßung auf der Startseite, erhalten im Test ein falsch positives Ergebnis und rollen die Variante aus, wird diese kaum Kosten verursachen. Denn ein Text kann in der Regel ohne großen Aufwand geändert und auch leicht wieder rückgängig gemacht werden und wird vermutlich keine allzu großen Downcasts erzeugen. Das Schadensrisiko eines Falsch-Positiven Ergebnis ist also gering. Dementsprechend könnten wir guten Gewissens ein relativ niedriges Konfidenzniveau wählen und damit Power gewinnen.

Testen wir jedoch eine neue Suche (Product Discovery Lösung), deren Implementierung sechsstellige Investitionsbeträge bedeuten würde, möchten wir möglichst sicher sein, dass ein positives Ergebnis auch von einem echten Gewinner stammt. Wir definieren also dementsprechend ein relativ hohes Konfidenzniveau.

Testpower:
Die Testpower ist die Wahrscheinlichkeit dafür, ein signifikantes Ergebnis zu erhalten, wenn in Wahrheit ein Effekt vorhanden ist. Oder methodisch korrekt formuliert: Die Wahrscheinlichkeit dafür, die Nullhypothese zu verwerfen, wenn diese in Wahrheit nicht zutrifft. Wir kontrollieren mit der Testpower also unser Risiko für Falsch-Negative (Beta Fehler) Ergebnisse.

Die Power gilt dabei für den angenommenen Uplift MEI (siehe „Erwarteter Uplift“). Ist der Effekt in Wirklichkeit deutlich größer oder kleiner als in unserer Berechnung, ändert sich die tatsächliche Power dementsprechend. Auch für die Power hat sich eine Art Standardwert i.H.v. 80 % etabliert. Ebenso wie beim Konfidenzniveau gibt es für diesen Wert keine allgemeingültige Begründung. Unsere Empfehlung ist jedoch, nicht unter einer Power von 80 % zu planen, um eine gewisse Mindest-Effektivität des Testingprogramms zu gewährleisten.

Wie hoch die Testpower genau sein soll, ist abhängig von dem zu erwartenden Schaden eines Falsch-Positiven Ergebnis. Handelt es sich um einen Test, der in der Entwicklung bereits viel Geld und Ressourcen gekostet hat oder erwarten wir einen ziemlich großen Uplift, sollten wir auf über 80 % gehen. Denn ein unentdeckter Gewinner würde in diesen Fällen besonderen Schaden anrichten.

 

Advanced Settings (werden erst angezeigt, nachdem Advanced Settings ausgewählt wurde)

H0-Parameter (%):
H0 steht für die Nullhypothese. Mit diesem Parameter definieren wir unsere Nullhypothese. Der Default-Wert liegt bei null. Dies entspricht dem ganz „normalen“ A/B-Test, bei dem (im einseitigen Fall) die Nullhypothese aussagt, dass es keinen Uplift in der Variante gibt. Ist unser Testergebnis am Ende signifikant, verwerfen wir die Nullhypothese und gehen von EINEM Uplift aus.

Man kann den H0-Parameter jedoch auch so einstellen, dass die Nullhypothese besagt: Es gibt keinen Uplift größer als x, z.B. 2 %. Bei einem signifikanten Testergebnis gehen wir nun nicht nur von irgendeinem Uplift aus, sondern können mit Konfidenz sagen, dass wir einen Uplift größer als 2 % erwarten.

Wichtig: Wenn der H0-Parameter einen Mindest-Uplift beschreibt, der Wert also größer 0 ist, dann muss der erwartete Uplift MEI zwingend größer sein, als dieser H0-Parameter. Wenn wir einen MEI von 2 % annehmen, kann es logisch nicht funktionieren, einen Uplift nachzuweisen, der größer als 2 % ist.

Anteil der Nutzer:

Planst du eine andere Traffic-Verteilung im A/B-Test als die standardmäßige 50:50 Verteilung (z.B. um eine Relaunch-Variante zunächst nur einem kleinen Teil der Nutzer:innen auszurollen), kannst du hier eine genaue Verteilung für jede Variante angeben. Die Anzahl an Input Feldern ändert sich dynamisch mit deiner angegebenen Anzahl an Varianten. Wichtig ist dabei darauf zu achten, dass die Summe des Traffics in allen Varianten am Ende immer 100 % ergibt.

Bei der Berechnung der Testlaufzeit in Wochen wird anschließend der Traffic aus der Variante mit dem prozentual geringsten Traffic-Anteil berücksichtigt. Damit wird sichergestellt, dass alle Varianten die minimale Stichprobengröße für die gewünschte Testpower erreichen.

Klarer testen. Sicherer entscheiden. Besser optimieren.

Kennst du schon unsere anderen Tools?

Ob Konfidenz, Laufzeit oder Business Impact: Mit diesen 6 Tools bekommst du fundierte Antworten auf deine wichtigsten Testfragen – einfach, schnell und verständlich. Für alle, die Optimierung nicht dem Bauchgefühl überlassen wollen.

Illustration einer Benutzeroberfläche mit roter Kopfzeile, Dropdown-Menü, Radiobuttons, mehreren Eingabefeldern und einem großen roten Button im unteren Bereich

Konfidenzrechner

Mit dem Konfidenzrechner von konversionsKRAFT hast du die Möglichkeit, die Ergebnisse deines A/B-Tests auf signifikante Unterschiede zu untersuchen.

Benutzeroberfläche mit rotem Kopfbereich, schwarzem Einstellungsmenü auf der linken Seite und einer Tabelle mit rot hinterlegter Kopfzeile im Hauptbereich

Testlaufzeitrechner (Sample Size)

Der Testlaufzeitrechner hilft dir, deine Uplifts sicher nachzuweisen und eine bessere Einschätzung für den nachweisbaren Effekt vornehmen zu können.

Benutzeroberfläche mit schwarzem Einstellungsmenü links und einem Linien-Diagramm mit drei farbigen Kurven (rot, grün, blau) rechts, darüber eine rote Kopfzeile mit Logo

Funnel Tool

Mit dem Funnel Tool ist es dir nach nur wenigen Klicks möglich, die zeitliche Entwicklung einzelner Checkout-Schritte klar zu visualisieren, analysieren und sogar auf signifikante Änderungen zu prüfen.

Benutzeroberfläche mit schwarzem Einstellungsmenü links und einem Linien-Diagramm mit drei farbigen Kurven (rot, grün, blau) rechts, darüber eine rote Kopfzeile mit Logo

Bayesianischer Business Case Rechner

Mit dem Tool kannst du konkrete Wahrscheinlichkeiten für mögliche Uplift-Szenarien aus deinem A/B-Test berechnen. Auf Basis von durchschnittlichen Bestellwerten kannst du zudem analysieren, welchen zusätzlichen Umsatz du mit welcher Wahrscheinlichkeit mit deinem Test erzielen kannst.

Benutzeroberfläche mit rotem Kopfbereich, schwarzem Einstellungsmenü auf der linken Seite und einer Tabelle mit rot hinterlegter Kopfzeile im Hauptbereich

Testlaufzeitberechnung für A/B-Tests mit Revenue Goal

Du fragst dich, wie lange dein geplanter A/B-Test mit Revenue Goal laufen muss, um ein statistisch signifikantes Ergebnis zu erhalten? Dann ist der Testlaufzeitrechner für metrische Daten das richtige Tool für dich.

Dashboard-Ansicht mit roter Kopfzeile, schwarzem Navigationsmenü links und farblich markierten Inhaltselementen (blau, pink, grün, lila, rot) im Hauptbereich

Testplaner

Berechne mit dem Testplaner die Testlaufzeit für eine konkrete Nullhypothese. Berücksichtige dabei auf Wunsch eine individuelle Traffic-Verteilung auf die einzelnen Varianten und eine Alpha-Fehler-Kumulierung – wird automatisch berücksichtigt und dokumentiert.