Von Julia Engelmann | Data Analytics | 0 Reaktionen

Nur 1/3 aller A/B-Tests liefern valide Testergebnisse. Sorge dafür, dass deiner dazu gehört!

Nur ein Drittel aller A/B-Tests liefern valide Testergebnisse.

Zugegeben, das klingt ziemlich ernüchternd. 2/3 aller Tests sind also für die Tonne. Wow. Das motiviert ja so richtig…Warum scheitern so viele A/B Tests? Die Gründe sind vielfältig und hier kommt die gute Nachricht. Die allermeisten davon hast du selbst in der Hand. Hier erfährst du, wie du sicherstellst, dass dein Test erfolgreich sein kann.

Ein wesentlicher Grund für keinen Uplift kann natürlich immer sein, dass die Konzepte einfach nicht funktionieren, die Zielgruppe deiner Website vielleicht etwas anderes braucht oder die Variante nicht kontrastreich genug ist. Oft beobachten wir in der Praxis aber auch ein immer wieder kehrendes Phänomen, nämlich dass Tests einfach zu früh abgeschaltet werden. Würden sie länger laufen, hätte man den Uplift signifikant nachweisen können. Wie kann man also sicherstellen, dass man nicht in die Testlaufzeiten-Falle tappt?

Nutze unser Testlaufzeit Tool um sicher zu stellen, dass du mit deinem Test signifikante Uplifts nachweisen kannst.

Gerade am Anfang unterliegen Testergebnisse großen Schwankungen, die sich erst im Laufe der Zeit stabilisieren und sich der tatsächlichen Conversion Rate. Betrachten wir folgendes Beispiel eines A/B-Tests mit 4 Varianten, erkennen wir, dass die Ergebnisse der Varianten nach einer bestimmten Zeit wieder zusammenlaufen. 

Die anfänglichen Schwankungen sind vollkommen normal und lassen sich durch einfache statistische Zusammenhänge begründen: Gerade am Anfang sind die Stichproben noch sehr klein und die Conversion Rate wird stärker von Ausreißern beeinflusst. Kaufen zufälligerweise in der Control auch nur ein paar Leute mehr als in der Variante, wirkt sich dies stärker auf die Conversion Rate aus wenn die Stichprobenzahl noch sehr klein ist als wenn sie schon aus einer großen Menge an Beobachtungen berechnet wird.

planung

Quelle: Qubit

Je größer die Anzahl der Besucher im Test, also je länger der Test läuft, desto eher nähert sich die Conversion Rate dem tatsächlichen Wert an, deswegen werden auch die Schwankungen immer geringer und die Ergebnisse immer valider weil sie ein repräsentatives Abbild aller Website-Nutzer bilden. Dazu ein Beispiel: 

Wie kann ich den Uplift meiner Variant auch sicher nachweisen?

Stellen wir uns vor, wir möchten herausfinden, ob es zwischen der Schuhgröße von Männern und Frauen einen Unterschied gibt und eben das mit einem Test nachweisen. Würden wir jetzt nur wenige Frauen und wenige Männer für die Stichprobe heranziehen, gingen wir das Risiko ein, nicht herauszufinden, dass Männer im Durchschnitt eine größere Schuhgröße haben als Frauen.

Es könnte ja sein, dass wir zufällig Männer mit eher kleineren Füßen und Frauen mit eher größeren Füßen für unseren Test herangezogen haben und nach einer zu kleinen Stichprobe bereits ein Ergebnis festgestellt haben.

Stichprobe - Schuhverlgeich

Je größer die Stichprobe wird, desto größer ist auch die Wahrscheinlichkeit, dass sich die Stichprobe „stabilisiert“ und wir den tatsächlichen Unterschied der Schuhgröße von Männern und Frauen nachweisen. Eine größere Stichprobe sorgt nämlich dafür, dass Du ein verlässliches Bild der tatsächlichen Schuhgrößen von Männern und Frauen bekommst und die vorhandenen realen Unterschiede auch im Test findest.

Die Stichprobe im Online Business

Im Online Business interessiert uns natürlich, ob unsere erstellte Variante besser als unsere bisherige Variante (Control-Variante) ist. 

Das Beispiel: Uplift durch Gutschein

Gehen wir nun einfach einmal davon aus, dass Benutzer in einer Variante einen 10€-Rabatt auf ihre aktuelle Bestellung angezeigt bekommen, welcher in der Control-Variante nicht verfügbar ist.

Die Hypothese:

Durch den zusätzlichen monetären Anreiz von 10€ wird die Motivation, eine Bestellung durchzuführen, erhöht, wodurch wiederum auch die Anzahl der Bestellungen steigt.

Das Ergebnis:

Nach einer Testlaufzeit von 30 Tagen weist das Testing Tool einen signifikanten Uplift in der Conversion Rate von 3% auf. Hätten wir den Test allerdings nur 14 Tage laufen lassen, hätten wir gerade mal einen Uplift von 1% festgestellt, welcher nicht signifikant gewesen wäre.

Die Erkenntnis: Länger = Valider! Aber wie lange genau?

Prinzipiell kann man sagen: Je länger ein Test läuft, desto höher ist die Wahrscheinlichkeit, einen wahren Unterschied im Test nachzuweisen. In dem Beispiel also, dass ein Gutschein auf die Bestellung im Online Shop die Conversion Rate signifikant erhöht. 

Ist dieser Effekt sehr deutlich, dann erlangt man bereits bei einer kleineren Stichprobe valide Ergebnisse. Ist der Effekt jedoch sehr gering, wie etwa in dem Beispiel mit der Website mit einem Uplift von 3%, dann muss die Stichprobe um ein Vielfaches größer sein, um den Effekt auch mit einer gewissen Sicherheit nachzuweisen.

Ist unsere Stichprobe zu klein, gehen wir das Risiko ein, dass wir den existierenden Unterschied nicht herausfinden, obwohl es einen gibt. Wie groß die Stichprobe mindestens sein muss, um den Effekt auch nachweisen zu können, findest Du mit Hilfe der statistischen Power-Berechnung heraus:

Die statistische Power-Berechnung

Die statistische Power ist die Wahrscheinlichkeit, mittels eines Experiments einen Uplift nachweisen zu können, der auch tatsächlich existiert.

Je größer die Power ist, desto wahrscheinlicher ist es, einen tatsächlich existierenden Uplift mittels eines A/B-Tests signifikant nachweisen zu können.

In der Regel spricht man von einem starken Test, wenn dieser eine Power von mindestens 80% hat. Das bedeutet, dass die Wahrscheinlichkeit bei 80% liegt, einen Uplift nachzuweisen, der auch tatsächlich existiert. Im Umkehrschluss besteht also immer noch ein 20 %iges Risiko, dass wir einen Uplift nicht nachweisen der aber in Wirklichkeit existiert. Vielleicht hast Du schon von dem sogenannten „Beta-Fehler“ oder einem „False Negative“ gehört (Fehler 2. Art).

Es ist quasi so, als hätte Christoph Kolumbus ein 20%-iges Risiko gehabt, an Amerika vorbei zu segeln und somit ein Land nicht zu entdecken, das aber tatsächlich da war.

Ist die Power des Experiments zu niedrig, laufen wir aber nicht nur Gefahr, reelle Uplifts nicht nachzuweisen. Noch schlimmer: Wir schalten ein Experiment ab, weil es einen signifikanten Gewinner ausweist, der aber in Wirklichkeit gar keiner ist. Wenn so etwas auftritt, spricht man von einem „Alpha-Fehler“ oder einem „False-Positive“ (Fehler 1. Art).

In diesem Fall hätte Kolumbus also gedacht, er hätte in Indien angelegt, obwohl er einen neuen Kontinent entdeckt hatte.

Santa Maria, Nina and Pinta of Christopher Columbus

Schalten wir ein Experiment zu früh ab, nämlich sobald das Testing Tool einen signifikanten Uplift zeigt, liegt die Fehlerrate bei 77%. Dies bedeutet, dass die Wahrscheinlichkeit, dass der gemessene Effekt rein zufällig zustande gekommen ist, bei 77% liegt.

Ton Wesseling: You should know that stopping a test once it’s significant is deadly sin number 1 in A/B-testing land. 77% of the A/A-tests (same page against same page) will reach significance at a certain point (Quelle).

Vielleicht kennst Du nachfolgende Situation aus deinem Optimierer-Alltag:

Der durchgeführte Test hat einen Uplift von 10% auf die Bestellungen gebracht. Die Ergebnisse sind nach zehn Tagen signifikant (Konfidenz >95%) und der Test wird abgeschaltet. Eigentlich ein Ergebnis, das man sich nur wünschen kann.

laufzeit10tage

Um nochmal sicher zu gehen, hälst Du nochmal Rücksprache mit deinem Kollegen aus dem Analytics Team: Können wir schon abschalten? Der Kollege rät Dir dazu, vorsichtshalber noch ein paar Tage abzuwarten, da die CTBC noch nicht stabil ist. Er möchte sicher gehen, dass die CTBC sich auf diesem hohen Niveau hält und das Konzept mit hoher Wahrscheinlichkeit auch tatsächlich die Conversion Rate signifikant steigert. Außerdem haben wir mit 10 Tagen Testlaufzeit noch nicht einmal einen Buying Cycle von 2 Wochen abgedeckt. Na gut…Du willigst ein. Dann warten wir halt noch ein paar Tage. Was soll sich schon ändern, denkst Du dir….

Ein paar Tage später dann die Ernüchterung. Tatsächlich ist der Effekt immer weiter zurück gegangen und die CTBC auf unter 80% zurückgegangen.

laufzeit18Tage

 

Was ist bei dem Test passiert?

Hätten wir vor dem Test eine Power-Berechnung durchgeführt, hätten wir herausgefunden, dass unser Test einen Monat laufen muss, bevor wir eine Power von 80% erreichen. Der zwischenzeitliche Effekt von 10% und die hohe CTBC beruhten nicht auf einem validen Test mit ausreichend langer Testlaufzeit sondern waren nur eine zufällige, kurzweilige Erscheinung die aber nicht auf eine signifikante Verbesserung der tatsächlichen Conversion Rate schließen ließ. 

Zu deiner Verteidigung hat aber ja auch schon das Testing Tool von einem Gewinner gesprochen, weshalb du den Test aus bestem Wissen und Gewissen hättest abschalten können, hätte dein Statistik-Kollege dich nicht berechtigterweise zum Abwarten verdonnert. Der Knackpunkt: Die statistische Power war zu diesem Zeitpunkt gerade einmal bei 20% und das Testing Tool hatte diese auch nicht ausgewiesen. Das bedeutet, zu diesem Zeitpunkt lag die Wahrscheinlichkeit, den Uplift auf Basis dieser Stichprobengröße zu finden, wenn er denn tatsächlich auch existent war, bei 1 zu 5! 

Um herauszufinden, wie lange der Test denn mindestens hätte  laufen müssen, um valide Ergebnisse zu erzielen, sollte bereits vor dem Teststart eine Berechnung der Testlaufzeit unter Berücksichtigung der statistischen Power durchgeführt werden. 

Nutze unser Testlaufzeit Tool um sicher zu stellen, dass du mit deinem Test signifikante Uplifts nachweisen kannst.

 

Diese Faktoren bestimmen die Minimale Testlaufzeit

Unique Visitors / Monat Hier gibst du die Anzahl der Besucher an, die potenziell am Test teilnehmen werden. Hier ist es wichtig, dass sich die Visitor Anzahl auf den Bereich der Seite bezieht, auf dem auch der Test stattfinden wird. Je höher die Anzahl der Visitor im Test ist, desto schneller lässt sich ein Uplift statistisch nachweisen. 

Soll der Test zum Beispiel auf der Produktdetailseite laufen, benötigst Du die Anzahl der Besucher, die durchschnittlich die Produktdetailseite besucht haben..

Aktuelle Conversion Rate der Testseite  – Hierbei handelt es sich um das Verhältnis der Personen, die auf der Testseite waren und gekauft haben zu denen, die nicht gekauft haben.

Beispiel: Die Produktdetailseite wurde insgesamt von 15.000 Benutzern innerhalb des Monats besucht. Das bedeutet, dass die Conversion Rate der Testseite = 2.600 Conversion / 15.000 Besucher der Produktdetailseite ist (17,3%).

Erwarteter minimaler Uplift – Das ist der Effekt auf die Conversion Rate, den wir durch das Testkonzept erwarten und wohl die schwierigste Größe, die man abschätzen muss. Eigentlich will man ja gerade das mit dem A/B Test herausfinden… Die Höhe des zu erwartenden Uplifts hat aber einen entscheidenden Einfluss auf die Testlaufzeit: Denn je höher dieser ist, desto schneller kann man ihn auch mit geringerer Testgröße nachweisen. Marginal kleine Uplifts hingegen brauchen eine exponentiell steigende Testlaufzeit.

Deswegen ist es wichtig, hier eine möglichst realistische Einschätzung abzugeben. Es empfiehlt sich auch, dass man etwas pessimistischer vorgeht und den Uplift tendenziell unterschätzt. Das führt dazu, dass man die Testlaufzeit überschätzt, also länger als sie eigentlich sein müsste um auf sicherer Seite zu sein.

Hier solltest du einen Wert eingeben, der auf Basis Deiner bisherigen Testing-Erfahrung für einen solchen Test auch realistisch ist. Je näher du mit Deiner Schätzung an diesem Wert bist, desto besser schätzt du auch die Power des Experiments und erhältst valide Daten. Handelt es sich um einen Test, dessen Ausgang du überhaupt nicht einschätzen kannst, empfehle ich dir einen Uplift zu schätzen, den du mindestens erreichen willst, um von einem erfolgreichen Test zu sprechen, den du im Nachgang auch ausrollen würdest.

Anzahl aller Varianten des Tests – Diese Information ist wichtig, da sich die Laufzeit in Abhängigkeit der Anzahl der Varianten verlängert. Je mehr Varianten der Test enthält, desto länger wird die Testlaufzeit. Achte darauf, dass du nicht zu viele Varianten parallel gegeneinander testest, da dann die Gefahr von falsch-positiven Testergebnissen steigt (Alpha-Fehler Kumulierung).

Konfidenz – Wie sicher möchtest Du bei Deinem Testergebnis sein? Konfidenz gibt an, inwiefern Du bereit bist, das Risiko von Zufallseffekten einzugehen. Hierbei solltest Du die Konfidenz nehmen, die Du auch sonst zur Interpretation deiner Testergebnisse heranziehst. In der Regel ist diese 95%. Dies bedeutet, dass das Risiko, einen Zufallseffekt zu finden, der in Wahrheit gar nicht existiert, nur 5% beträgt.

Power – Die Power drückt die Wahrscheinlichkeit aus, mit welcher Du einen tatsächlich existierenden Uplift mittels Experiment auch nachweist. Häufig wird hier der Wert 80% angestrebt.

Die folgenden 5 Schritte helfen dir bei einer erfolgreichen Testplanung

  1. Definiere für dich, wie viel Uplift deine Variante mindestens erreichen muss, damit du von einem erfolgreichen Test sprichst. —> Das heißt, dass du die Variante auch bauen und ausrollen würdest.
  2. Lege fest, wie sicher du dir sein willst, einen tatsächlichen Uplift auch wirklich herauszufinden (Power). In anderen Worten: Inwieweit bist du bereit, einen Uplift nicht herauszufinden, den es in Wirklichkeit gibt?
  3. Plane eine realistische Anzahl an Varianten für dein Experiment. Je weniger Traffic dir zu Verfügung steht, desto weniger Varianten solltest du in deinem Experiment verwenden.
  4. Berechne die Mindest-Testlaufzeit und die minimale Anzahl an Conversions und Visitors für deinen Test und behalte diese fest im Auge.
  5. Schalte den Test erst ab, wenn du die minimalen Testanforderungen erfüllt hast.

Das Fazit:

Du möchtest, dass deine Tests zu dem einen Drittel gehören, die valide Ergebnisse liefern? Mit einer durchdachten Testplanung vor dem Test schließt du aus, dass dein Experiment aufgrund von zu kurzer Laufzeit keine validen Ergebnisse liefert.

Mit Hilfe einer Testlaufzeit-Berechnung wird die Validität der Testergebnisse abgesichert. Wie sicher es genau sein soll, liegt dabei natürlich im individuellen Ermessen. Die Höhe der gewünschten Power und der akzeptierten Fehlerwahrscheinlichkeit kann je Test vom Anwender individuell festgelegt werden.

Finde einen guten Mittelweg zwischen Validität und Business-Interessen.

Natürlich ist eine hohe Validität in der Regel mit längeren Testlaufzeiten und somit höheren Kosten verbunden. Letztendlich muss jeder für sich entscheiden, an welchem Punkt die höchste Rentabilität von A/B-Tests erreicht und ein geringes Restrisiko des Irrtums in Kauf genommen werden, um dadurch Zeit und bares Geld sparen können. Dieses kleine Fenster der maximalen Rentabilität von A/B-Tests behandelt das U-Modell der Validität (im Video von André Morys erklärt).

Julia Engelmann

Dr. Julia Engelmann ist Head of Data Analytics bei konversionsKRAFT. Nach der Promotion im Bereich Makroökonomie war Julia Engelmann bei der Zalando SE in Berlin im Bereich Data Intelligence und Conversion Optimierung tätig. Bei konversionsKRAFT kümmert sie sich um die Themen Webanalytics, Big Data und Personalisierung.
Frage zum Artikel? Frag den Autor

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.