Von Julia Engelmann | Hintergründe | 3 Reaktionen

Testing Insights: Was steckt hinter der Signifikanz in meinem Testing Tool?

Optimizely mit seiner neuen Stats Engine macht es schon. Google Experiments sowieso. Und auch VWO hat vor kurzem angekündigt, mit der neuen Smart Stats an den Markt zu gehen.

Worum es hier eigentlich geht?

Die Rede ist von einer Revolution, die die Art und Weise, wie wir gerade A/B-Tests durchführen, verändern soll. Neuere Methoden aus der Statistik versprechen schnellere und trotzdem valide Ergebnisse und somit einen wahren Perfomance Boost für unsere Business Entscheidungen. Klingt erstmal vielversprechend.

Aber was genau passiert da gerade in den Testing Tools? Wie zeichnen sich diese Verfahren aus und welches ist am besten? Welches sollte man benutzen?

Dieser Artikel soll dabei helfen, die grundlegenden Unterschiede der Auswertungsmethodiken zu verstehen ohne dabei ein ausgewiesener Statistikexperte werden zu müssen. Die Kurz-Zusammenfassung gibt es am Ende für die eiligen Leser.

Was uns bei A/B-Tests interessiert?

Beim A/B-Testing sind in der Regel zwei Zahlen von besonderem Interesse: Der Uplift, den die Testvariante erzielt sowie eine Abschätzung über dessen Signifikanz. Die Signifikanz beschreibt die Wahrscheinlichkeit, dass die Testvariante sich nur zufällig von der Kontrollvariante unterscheidet. Diese soll beim A/B-Testing einen bestimmten Schwellwert (in der Regel 5%) nicht überschreiten.

Uplift und Signifikanz im Testing Tool
Uplift im Testing Tool

Es gibt jedoch unterschiedliche Wege, wie man letztendlich zu diesen Zahlen gelangen kann. In der öffentlichen Diskussion stehen gerade zwei Methoden aus der Statistik, die dabei ganz unterschiedliche Wege gehen: Der Frequentistische und der Bayesianische Ansatz. Ersterer basiert auf traditionellen Methoden, die bisher in den meisten Testing Tools verwendet wurden. Letzterer ist Teil der neuen Stats Engine, die Optimizely Anfang des Jahres an den Markt gebracht hat. Google Experiments nutzt diese Methoden für seinen Multi-Armed-Bandit Algorithmus. Auch VWO kündigte an, bald mit der neuen Bayes-basierten Smart Stats an den Start zu gehen.

Schritt für Schritt gehen Testing Plattformen dazu über, Bayesianische Methoden in ihre Berechnungen zu integrieren. Also lohnt es sich, beide Ansätze einmal genauer zu beleuchten um zu verstehen, worin eigentlich die Unterschiede liegen und was das für den Anwender bedeutet.

#1 Der Frequentistische Ansatz

Wer während der Schulzeit oder des Studiums einmal in den Genuss einer Statistik Vorlesung gekommen ist, dem wird diese Methode vielleicht bekannt vorkommen.

Zum Einsatz kommen hier Verfahren wie der t-Test und p-Wert, welche nur diejenigen Daten nutzen, die aus dem aktuell laufenden Experiment stammen. Dieser Ansatz ist ein bisschen so wie das Vorgehen des Richters bei Gericht: Er sammelt alle verfügbaren Informationen der Vorfälle in der Vergangenheit, wertet diese aus und trifft sein finales Urteil.

konversionskraft-signifikanzrechner
Konfidenzrechner >> //www.konversionskraft.de/tools

Soweit so gut. Das ganze Verfahren funktioniert aber nur, wenn wir ausreichend viele Daten in unserem Test gesammelt haben, d.h. wenn unsere Sample-Size für den Test groß genug ist. Der Begriff Sample-Size beschreibt die Anzahl der Besucher, die im Test enthalten sind. Diese muss hier eine bestimmte Mindestgröße erreichen um als eine repräsentative Stichprobe der Grundgesamtheit, also aller Kunden, zu gelten. Die Sample-Size wird bei Frequentistischen Methoden immer vor dem Test bestimmt und man wartet so lange ab, bis diese kritische Größe erreicht ist. Dieses Vorgehen wird auch als Fixed Horizon Ansatz bezeichnet. Wichtigste Voraussetzung für valide Ergebnisse ist, dass man vor dem Test eine möglichst genaue Schätzung des zu erwartenden Impacts vornimmt und so zu einer Abschätzung der Testlaufzeit kommt.

#2 Der Bayesianische Ansatz

Da eine Abschätzung zur Sample-Size kompliziert ist, hat in der jüngeren Zeit ein zweiter Ansatz Einzug in die Welt der CRO gehalten. Bei der Bayesianischen Methode ist es nicht notwendig, eine aufwendige Sample-Size Schätzung durchzuführen. Trotzdem soll der Nutzer valide Ergebnisse innerhalb kürzester Zeit erhalten.

Der größte Unterschied zum Frequentistischen Ansatz liegt in den Annahmen, die bezüglich des zu schätzenden Uplifts formuliert werden. Bayes-Methoden arbeiten mit Wahrscheinlichkeitsannahmen, die vor dem Teststart getroffen werden und sich darauf beziehen, wie wahrscheinlich es ist, einen signifikanten Uplift zu beobachten. Das sind die sogenannten a-priori-Wahrscheinlichkeiten. Sie resultieren aus subjektiven Erfahrungen und Wissen aus vergangenen ähnlichen Tests. Die a-priori-Wahrscheinlichkeiten werden mit den Daten aus dem aktuellen Experiment laufend angereichert und so werden durch den Test ständig neue Erkenntnisse zur Wahrscheinlichkeit eines signifikanten Uplifts gewonnen. Aus der Kombination der Annahmen sowie den beobachteten Testdaten erhält man dann eine Abschätzung darüber, wie wahrscheinlich es ist, dass die Testvariante signifikant besser ist als die Kontrollvariante (die sogenannte posteriori-Wahrscheinlichkeit).

Der größte Vorteil der Bayesianischen Methode ist, dass die Testergebnisse zu jedem Zeitpunkt während des Testzeitraums verlässlich sind und interpretiert werden können. Zudem kann der Test bei korrekten Annahmen zu schnelleren und trotzdem validen Ergebnissen führen.

Ein Beispiel des Bayesianischen Ansatzes ist das des verschollenen Fischers (New York Times Artikel von 2014): Um ihn ausfindig zu machen, nutzt die Küstenwache Daten über geografische Gegebenheiten und vergangene Sucheinsätze. Daraus leitet sie ab, wie wahrscheinlich es ist, dass sich der Fischer in einer bestimmten Gegend befindet. Mit dem Auftauchen neuer Erkenntnisse der aktuellen Suche werden diese Informationen mit den bereits bekannten kombiniert um die Suche einzugrenzen. Letztendlich wurde so der verschollene Fischer wohlbehalten aufgefunden.

Welche Methode ist jetzt besser? Welche soll ich benutzen?

Die Antwort ist vielleicht etwas ernüchternd: Es gibt kein richtig oder falsch. Beide Ansätze sind, sofern richtig angewendet, als höchst valide anzusehen. Neben den oben genannten Vorteilen weisen beide Methoden aber auch Nachteile auf, die die praktische Anwendung beim A/B-Testing erschweren können.

bayes-frenquentist
Bildquelle: http://blog.abtasty.com/en/clever-stats-finally-statistics-suited-to-your-needs/

Frequentistischer Ansatz

(1) Schätzung der Testgröße vor dem Teststart ist aufwendig 

Eine der wichtigsten Grundlagen des Frequentistischen Ansatzes ist die Schätzung der Sample-Size vor dem Test. Vor dem Hintergrund, dass wir in der Regel mit real-time Daten im E-Commerce arbeiten und oft schnelle Ergebnisse brauchen, erweist sich die Methode ein Stück weit als inflexibel und nicht mehr zeitgemäß.

(2) Kontinuierliches Beobachten des laufenden Tests kann zu hohen Fehlerraten führen

Der traditionelle Ansatz erlaubt keine Sneek Peaks, bei denen in regelmäßigen Abständen die Testergebnisse während der Testlaufzeit analysiert werden. Oft beobachtet man dabei folgendes Vorgehen: Sobald signifikante Ergebnisse beobachtet werden, wird der Test gestoppt. Werden nach ein paar Wochen keine signifikanten Ergebnisse gemessen, wird der Test auch gestoppt. Und das ist ein Problem.

Der Frequentistische Ansatz funktioniert nur dann, wenn der Test die vorab geschätzte Mindestgröße erreicht hat. Kontinuierliches Beobachten der Ergebnisse mit der Folge, dass der Test vorzeitig abgeschaltet wird, erhöht das Risiko, fälschlicherweise einen Gewinner zu identifizieren, um ein vielfaches.

Bayesianischer Ansatz

(1) Falsche Annahmen zur Wahrscheinlichkeit des Uplifts

Die Bayesianische Statistik arbeitet mit a-priori-Wahrscheinlichkeiten zur Verteilung des Uplifts. Doch genau hier liegt auch die Gefahr der Methode. Sind die Annahmen falsch und widersprechen den Beobachtungen, die im laufenden Test gemacht werden, sind invalide Ergebnisse oder lange Testlaufzeiten die Folge. Es besteht die Gefahr, dass die Learnings aus der Vergangenheit nicht einfach so auf zukünftige Ereignisse übertragbar sind und im aktuellen Test nicht zu beobachten sind. So können die Ergebnisse des aktuellen Tests massiv beeinflusst werden.

(2) Bayes-Methoden schützen nicht vor methodischen Fehlern beim A/B-Testing 

Wer mit der Stats Engine von Optimizely arbeitet, dem wird folgende Situation vielleicht bekannt vorkommen: Der Test läuft seit ein paar Tagen und die Testvariante weist bereits einen signifikanten Uplift auf. Um sicher zu gehen, dass die Ergebnisse stabil sind, entscheidet man sich, den Test lieber noch etwas laufen zu lassen, da die Testgröße noch klein ist. Nach weiteren zwei Tagen dann die Ernüchterung: Der Uplift ist nicht mehr signifikant und das Tool empfiehlt, dass weitere 150.000 Visitors notwendig sind, um signifikante Ergebnisse zu erreichen. Was soll das denn, denkt man dann? Nun ja, genau dieses Phänomenen ist eines der grundlegenden Konzepte der Bayesianischen Statistik. Auf Basis neuer Beobachtungen wird die Wahrscheinlichkeit des Uplifts um die neuen Erkenntnisse erweitert. Dadurch können sich auch ständig neue Trafficschätzungen zur Testlaufzeit ergeben.

Die Ergebnisse sind zwar zu jedem Zeitpunkt während des Tests valide und interpretierbar. Aber gerade zu Anfang, wo die Schwankungen noch sehr hoch sind, ist auch hier Vorsicht geboten. Die Anzahl der Visitors im Test ist noch sehr klein und wird von außergewöhnlichen Beobachtungen (z.B. sehr hohen Bestellwerten) stark beeinflusst. Denn trotz der Vorteile, die der Bayesianische Ansatz bietet, gilt auch hier, dass die Methode bei geringen Datensätzen keine ausreichende Validität bietet. Die neueren Verfahren schützen also auch vor falscher Vorgehensweise beim A/B-Testing nicht (das Gleiche gilt im übrigen für die traditionellen Verfahren!).

Fazit

Insgesamt bieten beide Verfahren ihre Vor- und Nachteile was Methodik und praktische Anwendung beim Testing angeht. Welches Verfahren tatsächlich zu schnelleren Ergebnissen führt, hängt wie immer stark von Einzelfall ab. Unterschätzt man beispielsweise den Impact beim Frequentistischen Ansatz, kann es sein, dass die Bayesianische Methode den Uplift tatsächlich schneller identifiziert hätte, vorausgesetzt man hätte richtige Annahmen zur Wahrscheinlichkeitsverteilung getroffen. Aber woher soll man das vor dem Test denn so genau wissen was tatsächlich passiert? Richtig, das kann man nicht. Jeder Test ist anders und jeder Shop ist anders, so dass eine pauschale Empfehlung für oder gegen eine der Methoden nicht möglich ist.

Am Ende ist es ein bisschen so wie beim Smartphone: Apple oder Android? – Vermutlich eine Glaubensfrage. Der wichtigste Punkt ist, dass beide Verfahren richtig sind. Beide beantworten die gleiche Frage: Ist meine Testvariante signifikant besser als die Control?

Trotzdem führt die beste statistische Methode bei falscher Anwendung zu falschen Ergebnissen, wenn man die Grundlagen eines sauberen Tests nicht einhält.

Anstelle sich im Detail mit den Vor- und Nachteilen der einzelnen Methoden in den jeweiligen Tools zu beschäftigen, sollte man lieber sicher stellen, dass Tests sauber aufgesetzt werden und dabei die wichtigsten Statistik-Stolpersteine vermieden werden. Sowohl die Frequentistische als auch die Bayesianische Methode helfen dann dabei, die Gewinnnervariante im Test zu identifizieren.

Beide verfolgen also ein und das selbe Ziel, nur eben auf ganz unterschiedliche Art und Weise. Ein bisschen so wie Apple und Android eben.

Summary der Top Learnings:

  1. Sowohl Frequentistische als auch Bayesianische Ansätze arbeiten mit subjektiven Annahmen (bezüglich des erwarteten Uplifts bzw. der Wahrscheinlichkeit). Man sollte in jedem Fall versuchen, für diese Annahmen alle vorhandenen Informationen zu nutzen und mit Daten zu belegen.
  2. Verwendet man den klassischen Ansatz, dann sollte man Sneek Peaks während des Testzeitraums vermeiden. Wichtig ist hier, eine grobe Abschätzung zur Testgröße vorzunehmen und sich an diese zu halten.
  3. Bayesianische Verfahren erlauben ein kontinuierliches Beobachten der Testergebnisse, funktionieren aber nicht so gut bei kleinen Testgrößen.
  4. Der Test sollte immer so lange laufen bis ein voller Business Cycle (also der durchschnittliche Zeitraum vom Erstkontakt des Kunden auf der Seite bis zur finalen Conversion) abgebildet ist. Die Mindestlaufzeit sollte immer eine volle Woche betragen. Zu frühe Testergebnisse sind nicht verlässlich. Falls eine Variante außerordentlich schlecht läuft und die Unternehmensziele bedroht, sollte man natürlich reagieren.
  5. Beide Verfahren haben ihre Vor- und Nachteile. Dabei beantworten sie aber ein und die selbe Frage. Bei richtiger Anwendung sind sie verlässlich und liefern valide Ergebnisse. Hauptaufgabe des Nutzers ist es, sich darum kümmern, dass sie richtig angewendet werden.

Julia Engelmann

Dr. Julia Engelmann ist Head of Data Analytics bei konversionsKRAFT. Nach der Promotion im Bereich Makroökonomie war Julia Engelmann bei der Zalando SE in Berlin im Bereich Data Intelligence und Conversion Optimierung tätig. Bei konversionsKRAFT kümmert sie sich um die Themen Webanalytics, Big Data und Personalisierung.
Frage zum Artikel? Frag den Autor

3 Reaktionen auf „Testing Insights: Was steckt hinter der Signifikanz in meinem Testing Tool?

  1. Toller Artikel! Danke!

    • Sehr cooler Artikel, einfach und verständlich geschrieben!

      • Hi, danke, hat mir gut gefallen! 🙂 VG

        Schreibe einen Kommentar

        Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.