von Manuel Heeg

Tool für Bayesianische Statistik: Revenue und Uplift deines A/B-Tests valide ermitteln

Warum machst du A/B-Tests?

Idealerweise, um deine Business-Entscheidungen zu unterstützen und herauszufinden, ob das getestete Feature implementiert werden soll oder nicht.

Zu diesem Zweck müssen die Ergebnisse deines Tests genau ermittelt werden, sodass sie dabei helfen, die richtige Entscheidung treffen zu können.

Mit den Werten eines „gewöhnlichen“ Konfidenzrechners kannst du herausfinden, ob eine untersuchte Variante überhaupt besser oder schlechter zur aktuellen Website (Control) abschneidet, oder ob keine Hinweise auf ein verändertes Verhalten existieren.

Doch in der Praxis reichen diese Angaben nicht immer aus, um valide Entscheidung treffen zu können. Bestenfalls willst du wissen:

  • ob die Variante besser ist
  • wie groß ein möglicher Umsatzanstieg ausfallen könnte (welche Uplifts sind zu erwarten)

Oder anders: Wird der erwartete Uplift mit einer bestimmten Wahrscheinlichkeit die Kosten decken?

Genau hierbei hilft dir die Bayesianische Statistik.

Mit unserem neuen Tool zur Bayesianischen Analyse nutzt du die Vorteile des Satzes von Bayes, um Business Cases für einzelne Tests zu erstellen und diese mit Eintrittswahrscheinlichkeiten zu benennen.

Es gibt nicht viele Möglichkeiten den Mehrwert eines Experimentation-Programms besser zu berichten als bspw. mit einem prognostizierten Umsatzzuwachs in Höhe von x EUR, oder?

Unterschiede & Funktionsweisen: Frequentistische vs. Bayesianische Analyse

Worin besteht der Unterschied zwischen einer bayesianischen Auswertung und einer „klassischen“ frequentistischen Analyse mittels Konfidenzintervall?

In der frequentistischen Hypothesenanalyse für A/B-Tests wird überprüft, wie wahrscheinlich ein Testergebnis wäre, wenn in Wahrheit eine Nullhypothese zuträfe, die (in der Regel) besagt, dass die Testvariante zu keiner signifikanten Erhöhung der Conversion Rate führt.

Damit ist der klassische Hypothesentest eine Entscheidungshilfe, ob die Nullhypothese verworfen werden kann und stattdessen eine Alternativhypothese angenommen werden soll, welche besagt, dass die Testvariante sehr wohl zu einer Erhöhung führt. Diese Alternativ-Hypothese ist die für uns eigentlich interessante und dennoch können wir mit der klassischen Testauswertung keine direkte Aussagen zu dieser Hypothese treffen.

Bayesianische Analysen hingegen benötigen keine spezielle Nullhypothese oder Alternativhypothese. Stattdessen erlaubt die Methode direkte Aussagen über die Wahrscheinlichkeit aller möglichen Hypothesen, die zu unserem Testergebnis hätten führen können. Mit der Bayesianischen Regel kannst du Aussagen treffen wie: „Die Wahrscheinlichkeit für einen Uplift von x % beträgt y %“.

wahrscheinlichkeitsrechnung-erklaert-konfidenzintervall-formel-von-bayes-eintrittswahrscheinlichkeiten-berechnen
Vergleich der frequentistischen und bayesianischen Datenanalyse

Mit dem Satz von Bayes werden alle möglichen Hypothesen anhand der Daten des Tests gleichzeitig überprüft und eine Wahrscheinlichkeit für diese berechnet. Jede Hypothese steht für einen bestimmten Uplift bzw. Mindest-Uplift oder Downcast, der durch die getestete Variante in Wahrheit zustande kommt.

Dementsprechend kannst du Wahrscheinlichkeiten für jeden wahren Uplift oder Downcast ermitteln und wahrscheinliche Szenarien für dein Wachstum ermitteln.

Unterschiede, Funktionsweise und Ergebnisinterpretation der Bayesianischen und Frequentistischen Methode

Um zu verstehen, welche Vorteile dir die Bayesianische Statistik bieten kann, klären wir zunächst, wie eine frequentistische A/B-Testauswertung funktioniert und welche Aussagen sich aus diesem statistischen Modell ableiten lassen. Wichtig: Beim frequentistischen Hypothesentest werden keine Hypothesen direkt getestet. Stattdessen wird eine Nullhypothese gebildet, welche das Gegenteil besagt von der These, die wir eigentlich überprüfen wollen.

Möchten wir überprüfen, ob eine Variante zu einer höheren Conversion Rate (CR) führt, lautet unsere Nullhypothese, dass unsere Variante zu keiner erhöhten CR in der Variante führt.

wahrscheinlichkeitsrechnung-verteilung-nullhypothese-beispiel-bayesianische-statistik
Visualisierung der Wahrscheinlichkeitsdichteverteilung einer Nullhypothese

Mit den Daten aus der Test-Stichprobe schätzen wir, wie sehr die Daten um den wahren Mittelwert streuen, wenn wir eine Zufallsstichprobe ziehen.

Nun nehmen wir aufgrund unserer Nullhypothese an, dass der wahre Mittelwert des Uplifts/ Downcasts bei Null liegt und können um diesen Wert eine Normalverteilung legen, deren Form durch die Streuung der Testdaten bestimmt wird.

Wir erstellen uns gewissermaßen eine Verteilung der Wahrscheinlichkeiten (bzw. Wahrscheinlichkeitsdichten) für alle möglichen Ausgänge unseres Experiments, falls in Wahrheit die Nullhypothese zuträfe.

Anders ausgedrückt: Wir überprüfen mit der frequentistischen Analyse, wie gut unsere Daten aus dem A/B-Test zur Annahme passen, dass es eigentlich keinen Uplift gibt. In der Auswertung wird anschließend überprüft, wo der gemessene Downcast oder Uplift in dieser Verteilung liegt und der sogenannte p-Wert ermittelt.

Der p-Wert ist die Wahrscheinlichkeit dafür, dass, unter der Annahme der Nullhypothese, ein Effekt, mindestens so extrem, wie der im Test gemessene Effekt, auftreten wird.

Ist diese Wahrscheinlichkeit geringer als ein zuvor festgelegter Schwellenwert (Signifikanzniveau), gilt das Testergebnis als signifikant und die Nullhypothese wird abgelehnt, weil die Daten des Tests nicht zu dieser Nullhypothese passen.

Zwei Dinge sind bei der frequentistischen Analyse wichtig zu verstehen:

  1. Die Teststatistik und der p-Wert des Hypothesentests treffen keine Wahrscheinlichkeitsaussagen über irgendeine Hypothese. Nicht einmal über die Nullhypothese – zumindest nicht direkt. Die berechnete Wahrscheinlichkeit nimmt bereits die Nullhypothese an und bezieht sich somit nur auf die Daten des Tests.
  2. Nehmen wir an, wir folgen der vereinfachten und methodisch unkorrekten Interpretation des Hypothesentests. Diese besagt, dass der p-Wert die Wahrscheinlichkeit dafür ist, dass die Nullhypothese zutrifft. Somit wäre die Gegenwahrscheinlichkeit – 1 minus p-Wert (häufig Konfidenz oder Chance to beat Control genannt) die Wahrscheinlichkeit dafür, dass die Alternativhypothese zutrifft. Die Konfidenz bezieht sich jedoch nicht auf den gemessenen Uplift. Gerade bei aufwendigen Testkonzepten, welche in der Umsetzung größere Kosten verursachen, ist für eine Entscheidung nicht nur wichtig zu wissen, ob das Konzept überhaupt besser funktioniert, sondern auch, wie viel mehr Umsatz oder Conversions mit welcher Wahrscheinlichkeit zu erwarten sind.

Wie kann ich die Ergebnisse des frequentistischen AB-Tests interpretieren?

In der Regel erhält man von einem Auswertungstool für AB-Tests zwei bis drei Kennzahlen, um das Ergebnis zu interpretieren:

  • Uplift / Downcast
  • Konfidenzintervall
  • Konfidenz / Signifikanz / Chance-to-Beat-Control

Der gemessene Uplift oder Downcast ist der Unterschied zwischen Control und Variante im Primärziel des Tests, z.B. der Effekt auf Conversion Rate oder Umsatz. Dieser Effekt wird durch unsere Zufallsstichproben erhoben und unterliegt somit zufälligen Schwankungen. Der gemessene Uplift oder Downcast im Test, repräsentiert nicht den wahren Unterschied zwischen Control und Variante!

Das Konfidenzintervall beschreibt ein Intervall von möglichen Werten des Effekts, in dessen Mitte der gemessene Effekt (Uplift / Downcast) steht. Ein häufig verwendetes Konfidenzniveau ist 95 %, sodass in diesem Fall – wenn man das Zufallsexperiment auf identische Art und Weise wiederholt – ein 95 %-Konfidenzintervall in näherungsweise 95 % aller Fälle den unbekannten wahren Effekt enthalten wird.

Achtung: Ein häufiges Missverständnis in der frequentistischen Testauswertung besteht darin, dass die Konfidenz (oder Chance-to-Beat-Control) als Wahrscheinlichkeit für den gemessenen Uplift im Test interpretiert wird. Auch die Verwendung von Konfidenzintervallen löst dieses Problem nicht. Zwar kann man mit dem Intervall besser einschätzen, in welcher Spanne sich der Uplift bewegen könnte, man muss dabei aber stets beachten, dass alle Werte innerhalb des Konfidenzintervalls die gleiche Wahrscheinlichkeit haben.

Die Konfidenz (Gegenwahrscheinlichkeit des p-Werts) drückt aus, wie sicher wir uns sein können, dass es einen (!) Unterschied zwischen Control und Variante gibt und der im Test gemessene Effekt, nicht durch “zufällige Schwankungen” entstanden ist.

Interpretation des Ergebnisses:
Ist die Konfidenz eines Experiments größer als das zuvor festgelegte Konfidenzniveau, kannst du das Testergebnis als signifikant interpretieren. Du weißt also, dass es mit der Wahrscheinlichkeit deines Konfidenzniveaus einen (!) Unterschied im Nutzerverhalten zwischen den Varianten gibt. Über die Größe dieses Effekts kannst du keine direkte Aussage treffen, bestenfalls kannst du den Effekt im Bereich des Konfidenzintervalls erwarten.

Ist die Konfidenz niedriger als das zuvor festgelegte Konfidenzniveau, kannst du, basierend auf den vorhandenen Daten, nicht ausschließen, dass der Uplift durch reinen Zufall entstanden ist. Das Konfidenzintervall für den Uplift könnte also sowohl positive als auch negative Werte enthalten, die alle gleich wahrscheinlich auftreten könnten.

Es ist falsch zu sagen, dass der Uplift in diesem Fall fast statistisch signifikant ist, weil die Konfidenz bspw. fast 95 % beträgt.

Der frequentistische Hypothesentest ist daher schwarz/weiß. Die Variante unterscheidet sich signifikant oder nicht. Ist der Unterschied nicht signifikant, lassen sich aus dieser Statistik wenig weitere Informationen zur Performance des Tests ableiten (über Segmente und weitere Ziele kann man natürlich auch aus einem nicht-signifikanten Ergebnis viel über das Nutzerverhalten lernen). Im Fall der Bayesianischen Statistik ist das Ergebnis dagegen immer interpretierbar.

Du könntest etwa sagen, dass die Variante mit einer 92-prozentigen Wahrscheinlichkeit der Gewinner ist. Mit Bayes werden bedingte Wahrscheinlichkeiten berechnet. Allerdings nicht die Wahrscheinlichkeit der Testdaten unter der Bedingung der Nullhypothese, wie in der frequentistischen Methode. Sondern die Wahrscheinlichkeit der Hypothese, unter der Bedingung der Testdaten.

Die bayesianische Analyse versucht folgende Frage zu beantworten: Welche Hypothese ist die in Wahrheit am wahrscheinlichsten zutreffende, um solche Daten zu erzeugen, wie sie im Test erhoben wurden?

Auch in der bayesianischen Statistik erzeugen wir eine Verteilung von Wahrscheinlichkeiten, allerdings sind es die Wahrscheinlichkeiten der echten Downcasts oder Uplifts, also der Hypothesen.

wahrscheinlichkeitesrechnung-bayesianische-statistik-beispiel-auswertung-berechnung-tool
Die Posteriori-Wahrscheinlichkeits-Verteilung einer Bayesianischen Analyse. Auf der x-Achse stehen mögliche wahre Effekte und auf der y-Achse die zugehörigen Wahrscheinlichkeiten zu diesem Effekt.

Die Vorteile liegen auf der Hand: Jede Hypothese über einen Downcast oder Uplift kann mit einer Eintrittswahrscheinlichkeit versehen werden. Mit diesen Wahrscheinlichkeiten kann wiederum gerechnet werden, um diese zu kumulieren und/oder Erwartungswerte zu ermitteln. Genau hier ist der große Unterschied zur frequentistischen Auswertung.

Wir können Aussagen treffen mit der Form:„Die Wahrscheinlichkeit für einen Uplift von x % beträgt y %“.

Wenn du weißt (oder annimmst zu wissen), dass ein bestimmter Mindest-Uplift mit einer gewissen Wahrscheinlichkeit eintritt oder welches Intervall an Werten das wahrscheinlichste ist, kannst du damit Business-Case-Szenarien berechnen, welche ebenfalls eine bestimmte Eintrittswahrscheinlichkeit besitzen.

Genau das ermöglicht dir der Bayesianische-Business-Case-Rechner für A/B-Tests.

Wofür du den bayesianischen Rechner einsetzen kannst

  1. Performance-Aussagen
    Der Uplift im frequentistischen Rechner ist fast signifikant – damit ist keine Aussage zur Performance des Tests möglich. Mit dem Bayesianischen Rechner erhältst du immer Antworten auf folgende Fragen: Mit welcher Wahrscheinlichkeit gewinnt die Variante? Mit welcher Wahrscheinlichkeit liefert die Variante mindestens x Prozent Uplift?
  2. Business-Case-Rechnungen
    Was würde dir die Variante an Extra-Umsatz bringen? Der Business-Case-Rechner ist eine hervorragende Entscheidungshilfe, wenn es darum geht festzulegen, ob eine Variante übernommen werden soll oder nicht. Liegt die Wahrscheinlichkeit für einen Mehrumsatz in Höhe der Kosten bei mehr als 50 %, hat die Entscheidung für die Variante einen positiven Erwartungswert.
  3. Fehlende Rohdaten zum Umsatz (KPI-Analyse)
    Wenn keine Umsatz-Rohdaten vorhanden sind, ist der frequentistische t-Test nicht anwendbar. Mit dem Bayesianischen Rechner kann man bereits mit der Eingabe des Gesamtumsatzes pro Variante die Performance des Tests bzgl. Average Order Value (AOV) und Revenue per Visitor (RPV) beurteilen.

Experimentation besser planen, umsetzen und auswerten

Die Analyse mit der Formel von Bayes, ermöglicht dir eine andere Interpretation von Testergebnissen.

Sowohl bei einem frequentistischen Hypothesentest als auch bei der Bayesianischen Statistik steht am Ende eine Prozentzahl im Fokus, z.B. 96 %. Die Bedeutung dieser Zahl ist jedoch je nach Statistik-Typ völlig unterschiedlich.

Durch die Bayesianische Analyse kannst du bessere Performance-Aussagen treffen.

Du findest heraus, mit welcher Wahrscheinlichkeit eine Variante gewinnt und welche Wahrscheinlichkeit bestimmte Uplifts und Downcasts haben. Sie ermöglicht dir bessere Business-Case-Rechnungen und dient im Wesentlichen als fundierte Entscheidungshilfe, ob eine Variante übernommen werden soll oder nicht. Du findest heraus, mit welcher Wahrscheinlichkeit eine Variante gewinnt und welche Wahrscheinlichkeit bestimmte Uplifts und Downcasts haben. Gleichzeitig kannst du die Performance von Tests bzgl. Average Order Value und Revenue per Visitor beurteilen.

Die Bedeutung des p-Wertes (Umkehrwert von der Konfidenz) ist wenig intuitiv und wird in den meisten Fällen falsch interpretiert. Ein Grund dafür ist, dass diese Statistik vor langer Zeit für ganz andere Anwendungen (ursprünglich: Agrarwissenschaften) designt wurde.

Mit der frequentistischen Analyse würdest du keine quantitative Aussage zum tatsächlichen Uplift treffen können. Du würdest nur das Konfidenzintervall für den Uplift berechnen, das den tatsächlichen Uplift mit einer z.B. 95-prozentigen Wahrscheinlichkeit enthält. Aber die Werte im Konfidenzintervall wären alle gleich wahrscheinlich.

Die Bayesianische Statistik liefert dir also eine intuitivere Antwort, und zwar die Wahrscheinlichkeit, dass die Variante besser als die Control ist. Und du kannst zusätzlich berechnen, mit welcher Wahrscheinlichkeit der tatsächliche Uplift mindestens x % beträgt.

Hilft dir unser neues Statistik-Tool inklusiver der Anleitung weiter, Wahrscheinlichkeiten und Testing-Potenziale besser zu berechnen oder hast du noch Anregungen? Lass es mich in den Kommentaren wissen!

Manuel Heeg

Als Datenanalyst berät und schult Manuel intern sowie extern in allen statistischen Fragen rund um die Konzeption und Auswertung von A/B-Tests. Daneben ist er Experte für Web-Analytics, Web-Personalisierung und entwickelt Machine-Learning-Lösungen in diesem Bereich für unsere Kunden.
Frage zum Artikel? Frag den Autor!

Schreibe einen Kommentar