2/3 aller A/B-Tests sind nicht valide (mit Gratis-Download am Ende)

Ich gebe zu, die Aussage hört sich erschreckend an. Zunächst möchte ich Dich beruhigen: Es liegt nicht daran, dass Konzepte schlecht sind oder A/B-Testing generell unzuverlässig ist. Die fehlenden Ergebnisse sind vielmehr auf etwas zurück zu führen, was man eigentlich vermeiden kann. Nämlich sicherzustellen, dass Tests ausreichend lange laufen.

Gerade am Anfang unterliegen Testergebnisse großen Schwankungen, die sich erst im Laufe der Zeit stabilisieren und den tatsächlichen Conversion Rates annähern. Betrachten wir folgendes Beispiel eines A/B-Tests mit 4 Varianten, erkennen wir, dass die Ergebnisse der Varianten nach einer bestimmten Zeit wieder zusammenlaufen. 

Quelle: http://www.qubit.com/sites/default/files/pdf/mostwinningabtestresultsareillusory_0.pdf

planung

Wenn Tests zu früh abgeschaltet werden, bekommt man häufig Ergebnisse angezeigt, die tatsächlich nur die momentane Perspektive zeigen. Der wahre Ausgang kann – ähnlich einer unvorhersehbaren Wendung in einem Film – nicht einmal ansatzweise erahnt werden.

Damit Du Deine Tests nicht zu früh abschaltest und sicherstellst, dass sie zu dem einen Drittel der Tests gehören, die valide Ergebnisse liefern, möchte ich Dir durch diesen Artikel die nötigen Werkzeuge an die Hand geben.

Wie kann ich Uplifts meiner Varianten auch sicher nachweisen?

Stellen wir uns vor, wir möchten herausfinden, ob es zwischen der Schuhgröße von Männern und Frauen einen Unterschied gibt und eben das mit einem Test nachweisen. Würden wir jetzt nur wenige Frauen und wenige Männer für die Stichprobe heranziehen, gingen wir das Risiko ein, nicht herauszufinden, dass Männer im Durchschnitt eine größere Schuhgröße haben als Frauen.

Es könnte ja sein, dass wir zufällig Männer mit eher kleineren Füßen und Frauen mit eher größeren Füßen für unseren Test herangezogen haben und nach einer zu kleinen Stichprobe bereits ein Ergebnis festgestellt haben.

Schuhverlgeich

Je größer die Stichprobe wird, desto größer ist auch die Wahrscheinlichkeit, dass sich die Stichprobe „stabilisiert“ und wir den tatsächlichen Unterschied der Schuhgröße von Männern und Frauen nachweisen. Eine größere Stichprobe sorgt nämlich dafür, dass Du ein verlässliches Bild der tatsächlichen Schuhgrößen von Männern und Frauen bekommst und die vorhandenen realen Unterschiede auch im Test findest.

Die Stichprobe im Online Business

Im Online Business interessiert uns natürlich, ob unsere erstellte Variante besser als unsere bisherige Variante (Control-Variante) ist. 

Das Beispiel: Uplift durch Gutschein

Gehen wir nun einfach einmal davon aus, dass Benutzer in einer Variante einen 10€-Rabatt auf ihre aktuelle Bestellung angezeigt bekommen, welcher in der Control-Variante nicht verfügbar ist.

Die Hypothese:

Durch den zusätzlichen monetären Anreiz von 10€ wird die Motivation, eine Bestellung durchzuführen, erhöht, wodurch wiederum auch die Anzahl der Bestellungen steigt.

Das Ergebnis:

Nach einer Testlaufzeit von 30 Tagen weist das Testing Tool einen signifikanten Uplift von 3% auf. Hätten wir den Test allerdings nur 14 Tage laufen lassen, hätten wir gerade mal einen Uplift von 1% festgestellt, welcher nicht signifikant gewesen wäre.

Die Erkenntnis: Länger = Valider! Aber wie lange genau?

Prinzipiell kann man sagen: Je länger ein Test läuft, desto höher ist die Wahrscheinlichkeit, einen wahren Unterschied im Test nachzuweisen. In unserem Fall, dass Männer eine größere Schuhgröße haben als Frauen.

Ist dieser Effekt – wie bei unserem Anschauungsbeispiel der Schuhgröße – sehr deutlich, dann erlangt man bereits bei einer kleineren Stichprobe valide Ergebnisse. Ist der Effekt jedoch sehr gering, wie etwa in dem Beispiel mit der Website mit einem Uplift von 3%, dann muss die Stichprobe um ein Vielfaches größer sein, um den Effekt auch mit einer gewissen Sicherheit nachzuweisen.

Ist unsere Stichprobe zu klein, gehen wir das Risiko ein, dass wir den existierenden Unterschied nicht herausfinden, obwohl es einen gibt. Wie groß die Stichprobe mindestens sein muss, um den Effekt auch nachweisen zu können, findest Du mit Hilfe der statistischen Power-Berechnung heraus:

Die statistische Power-Berechnung

Die statistische Power ist die Wahrscheinlichkeit, mittels eines Experiments einen Uplift nachweisen zu können, der auch tatsächlich existiert.

Je größer die Power ist, desto wahrscheinlicher ist es, einen tatsächlich existierenden Uplift mittels eines A/B-Tests signifikant nachweisen zu können.

In der Regel spricht man von einem starken Test, wenn dieser eine Power von mindestens 80% hat. Das bedeutet, dass die Wahrscheinlichkeit bei 80% liegt, einen Uplift nachzuweisen, der auch tatsächlich existiert. Im Umkehrschluss besteht also immer noch ein 20 %iges Risiko, dass wir einen Uplift nicht nachweisen der aber in Wirklichkeit existiert. Vielleicht hast Du schon von dem sogenannten „Beta-Fehler“ oder einem „False Negative“ gehört (Fehler 2. Art).

Es ist quasi so, als hätte Christoph Kolumbus ein 20%-iges Risiko gehabt, an Amerika vorbei zu segeln und somit ein Land nicht zu entdecken, dass aber tatsächlich da war.

Ist die Power des Experiments zu niedrig, laufen wir aber nicht nur Gefahr, reelle Uplifts nicht nachzuweisen. Noch schlimmer: Wir schalten ein Experiment ab, weil es einen signifikanten Gewinner ausweist, der aber in Wirklichkeit gar keiner ist. Wenn so etwas auftritt, spricht man von einem „Alpha-Fehler“ oder einem „False-Positive“.

TIPP: In dem E-Book „Leitfaden zur statistischen Interpretation von Testergebnissen – Das Statistik 1×1 für Online-Marketer“ wird dieses Thema genauer behandelt.

In diesem Fall hätte Kolumbus also gedacht, er hätte in Indien angelegt, obwohl er einen neuen Kontinent entdeckt hatte.

Santa Maria, Nina and Pinta of Christopher Columbus

Schalten wir ein Experiment zu früh ab, nämlich sobald das Testing Tool einen signifikanten Uplift zeigt, liegt die Fehlerrate bei 77%. Dies bedeutet, dass die Wahrscheinlichkeit, dass der gemessene Effekt rein zufällig zustande gekommen ist, bei 77% liegt.

Ton Wesseling: You should know that stopping a test once it’s significant is deadly sin number 1 in A/B-testing land. 77% of the A/A-tests (same page against same page) will reach significance at a certain point (Quelle).

Vielleicht kennst Du nachfolgende Situation aus Deinem Optimierer-Alltag:

Der durchgeführte Test hat einen Uplift von 10% auf die Bestellungen gebracht. Die Ergebnisse sind nach zehn Tagen signifikant (Konfidenz >95%) und der Test wird abgeschaltet. Eigentlich ein Ergebnis, das man sich nur wünschen kann.

laufzeit10tage

Um keine Zeit zu verlieren, schaltet man den Test sofort ab, lässt das Konzept gleich von der IT-Abteilung fest implementieren und ersetzt die Original-Variante mit der neuen. Jetzt muss man ja nur noch warten, bis der Uplift dann auch in den Zahlen zu sehen ist. 

Was aber, wenn dieser Uplift von 10% einfach unter realen Bedingungen nicht eintreten will und die Zahlen ein ganz anderes Bild zeigen? Es kann nämlich sein, dass der Uplift gar nicht zu sehen ist! Die Zahlen sind im Prinzip genauso wie vorher – also unverändert.

Das kann daran liegen, dass man den Test schlichtweg zu früh abgeschaltet hat. Hätte man den Test einfach noch etwas länger laufen lassen, hätte man festgestellt, dass sich die Conversion Rate beider Varianten wieder angleicht. Auch die Signifikanz, die zuvor festgestellt wurde, ist dahin. Dieser Effekt wird in den nachfolgenden Grafiken verdeutlicht:

laufzeit18Tage

Was ist bei dem Test passiert?

Hätten wir vor dem Test eine Power-Berechnung durchgeführt, hätten wir herausgefunden, dass unser Test einen Monat laufen muss, bevor wir eine Power von 80% erreichen. Nun wurde der Test aber schon nach zehn Tagen abgeschaltet, weil das Ergebnis ja signifikant war. Zu Deiner Verteidigung hat ja auch schon das Testing Tool von einem Gewinner gesprochen, weshalb Du den Test aus bestem Wissen und Gewissen abschalten konntest. Der Knackpunkt: Die statistische Power war zu diesem Zeitpunkt gerade einmal bei 20% und das Testing Tool hatte diese auch nicht ausgewiesen.

Berechnung der minimalen Testlaufzeit für valide Ergebnisse

Um herauszufinden, wie lange der Test denn mindestens laufen muss, um valide Ergebnisse zu erzielen, müssen wir bereits vor dem Teststart eine Berechnung unter Berücksichtigung der statistischen Power durchführen: 

Diese Faktoren bestimmen die Minimale Testlaufzeit

Conversions / Monat – Das ist die Metrik, auf die Du optimieren möchtest. In der Regel sind es die Bestellungen. Für eine genaue Planung solltest Du hier nach Möglichkeit nur die Conversions berücksichtigen, die zuvor auch auf der Testseite waren.

Führen wir zum Beispiel auf der Produktdetailseite einen Test durch. Innerhalb eines Monats haben 3.000 Benutzer eine Bestellung durchgeführt. Von diesen 3.000 Benutzern waren aber nur 2.600 zuvor auf der Produktdetailseite. 400 Bestellungen wurden entweder direkt aus dem Warenkorb oder über die Kategorieseite durchgeführt. In diesem Fall wären die Conversion / Monat = 2.600.

Conversion Rate der Testseite – Hierbei handelt es sich um das Verhältnis der Personen, die auf der Testseite waren und gekauft haben zu denen, die nicht gekauft haben.

Beispiel: Die Produktdetailseite wurde insgesamt von 15.000 Benutzern innerhalb des Monats besucht. Das bedeutet, dass die Conversion Rate der Testseite = 2.600 Conversion / 15.000 Besucher der Produktdetailseite ist (17,3%).

Anzahl aller Varianten des Tests – Diese Information ist wichtig, da sich die Laufzeit in Abhängigkeit der Anzahl der Varianten verlängert. Je mehr Varianten der Test enthält, desto länger wird die Testlaufzeit.

Konfidenz – Wie sicher möchtest Du bei Deinem Testergebnis sein? Konfidenz gibt an, inwiefern Du bereit bist, das Risiko von Zufallseffekten einzugehen. Hierbei solltest Du die Konfidenz nehmen, die Du auch sonst zur Interpretation deiner Testergebnisse heranziehst. In der Regel ist diese 95%. Dies bedeutet, dass das Risiko, einen Zufallseffekt zu finden, der in Wahrheit gar nicht existiert, nur 5% beträgt.

Power – Die Power drückt die Wahrscheinlichkeit aus, mit welcher Du einen tatsächlich existierenden Uplift mittels Experiment auch nachweist. Häufig wird hier der Wert 80% angestrebt.

Erwarteter Uplift – Das ist der Effekt auf die Conversion Rate, den wir durch das Testkonzept erwarten. Hier solltest Du einen Wert eingeben, der auf Basis Deiner bisherigen Testing-Erfahrung für einen solchen Test auch realistisch ist. Je näher Du mit Deiner Schätzung an diesem Wert bist, desto besser schätzt Du auch die Power des Experiments und erhältst valide Daten. Handelt es sich um einen Test, dessen Ausgang Du überhaupt nicht einschätzen kannst, empfehle ich Dir einen Uplift zu schätzen, den Du mindestens erreichen willst, um von einem erfolgreichen Test zu sprechen, den Du im Nachgang auch ausrollen würdest.

Tools für die Powerberechnung

Da Testingtools in der Regel leider keine Power-Berechnung durchführen bzw. diese ihren Benutzern anbieten, obliegt es einem selbst, diese durchzuführen. Um die statistische Power zu berechnen, gibt es im Netz mehrere Tools. Eines der bekanntesten ist gPower

Diese Tools sind meist etwas schwierig zu durchblicken und nicht auf den Arbeitsalltag eines CROs gemünzt.  Zum Glück gibt es aber auch für uns Optimierer deutlich besser auf unseren CRO-Prozess abgestimmte Tools, um die Testlaufzeit zu berechnen.

Als Download habe ich Dir einen Testplanungs-Kalkulator zu Verfügung gestellt. In diesem trägst Du wenige Parameter ein und erhältst eine individuelle Testlaufzeit-Empfehlung für das Experiment.

Mindestanzahl Conversion

Der Download-Link befindet sich am Ende des Artikels 😉

Es geht sogar noch eleganter: Das eigens von konversionsKRAFT entwickelte all-in-one Conversion Tool Iridion gibt Optimierern eine Möglichkeit an die Hand, mit deren Hilfe sie einen Power-Test aus gleich zwei Perspektiven machen können: Neben der „normalen“ Testlaufzeit-Berechnung kann man auch analysieren, ob man in einem vorgegebenen Testzeitraum überhaupt valide Ergebnisse erzielen kann.

validity calculation

Nach Eingabe der entsprechenden Informationen wird für das Experiment eine individuelle Empfehlung gegeben, wie lange das Experiment mindestens laufen muss, oder ob man die Anzahl der Varianten reduzieren bzw. die Testlaufzeit verlängern muss, um valide Ergebnisse zu erhalten.

validity

In 5 Schritten zur erfolgreichen Testplanung

  1. Definiere für Dich, wie viel Uplift Deine Variante mindestens erreichen muss, damit Du von einem erfolgreichen Test sprichst. —> Das heißt, dass Du die Variante auch bauen und ausrollen würdest.
  2. Lege fest, wie sicher Du dir sein willst, einen tatsächlichen Uplift auch wirklich herauszufinden (Power). In anderen Worten: Inwieweit bist Du bereit, einen Uplift nicht herauszufinden, den es in Wirklichkeit gibt?
  3. Plane eine realistische Anzahl an Varianten für Dein Experiment. Je weniger Traffic Dir zu Verfügung steht, desto weniger Varianten solltest Du in Deinem Experiment verwenden.
  4. Berechne die Mindest-Testlaufzeit und die minimale Anzahl an Conversions und Visitors für Deinen Test und behalte diese fest im Auge.
  5. Schalte den Test erst ab, wenn Du die minimalen Testanforderungen erfüllt hast.

Fazit:

Du möchtest, dass Deine Tests zu dem einen Drittel gehören, die valide Ergebnisse liefern? Mit einer durchdachten Testplanung vor dem Test schließt Du aus, dass Dein Experiment aufgrund von zu kurzer Laufzeit keine validen Ergebnisse liefert.

Mit Hilfe einer Testlaufzeit-Berechnung wird die Validität der Testergebnisse abgesichert. Wie sicher es genau sein soll, liegt dabei natürlich im individuellen Ermessen. Die Höhe der gewünschten Power und der akzeptierten Fehlerwahrscheinlichkeit kann je Test vom Anwender individuell festgelegt werden.

Finde einen guten Mittelweg zwischen Validität und Business-Interessen.

Natürlich ist eine hohe Validität in der Regel mit längeren Testlaufzeiten und somit höheren Kosten verbunden. Letztendlich muss jeder für sich entscheiden, an welchem Punkt die höchste Rentabilität von A/B-Tests erreicht und ein geringes Restrisiko des Irrtums in Kauf genommen werden, um dadurch Zeit und bares Geld sparen können. Dieses kleine Fenster der maximalen Rentabilität von A/B-Tests behandelt das U-Modell der Validität .

konversionsKRAFT Testplanung Excelsheet

Mit dem Download meldest Du Dich automatisch für die wöchentlichen konversionsKRAFT News an. So verpasst Du keinen unserer Artikel, erfährst als erste/r von spannenden Events und Webinaren und erhältst Zugang zu exklusiven Downloads. Die Ortsangabe ermöglicht es uns, Dich gezielt zu lokalen Events einzuladen. Diese Zustimmung kannst Du jederzeit widerrufen.

Außerdem hast Du die Chance auf einen Freiplatz im „konversionsKRAFT Conversion Seminar” an einem Ort Deiner Wahl.

Dankeschön!

Lade jetzt das eBook "konversionsKRAFT Testplanung Excelsheet" herunter:

konversionskraft-testplanung.xlsx (173KB)> Jetzt herunterladen

Mehr zum Thema

Am 02.06.2016 zeigten wir im Webinar „So kontrollierst Du Deinen Conversion-Prozess“ die 5 essentiellen Bestandteile nachhaltiger Conversion-Optimierung und stellten das Tool Iridion vor.

Mit den Conversion-Manager-Trainings 2016 wirst Du zum Conversion-Profi. Auf unserer Trainingsseite findest Du alle 4 Trainings. Im Training „Advanced Conversion Testing“ zeigen wir die wichtigsten Funktionsweisen des Website-Testings und geben viele Tool-Tipps an die Hand. Im Juni geht es schon los. Sichere Dir schnell noch Deinen Platz!

  • Send to Kindle
  • http://kKrft.ly/KEy
Steffen Schulz Steffen Schulz ist Senior Conversion Consultant bei der Web Arts AG und beschäftigt sich mit der Optimierung von Websites. Neben der Erstellung von quantitativen und qualitativen Analysen legt er dabei den Fokus auf die statistische Auswertung sowie die Interpretation von Testergebnissen. Zudem beschäftigt er sich mit der Erstellung von Testkonzepten und dabei insbesondere mit der Definition und Integration von verhaltenspsychologischen Triggern aus der Konsumforschung und des Neuromarketings. Als Google AdWords-Professional und Konzeptionierer ist ihm eine ganzheitliche Betrachtung und Optimierung von Websites sehr wichtig. Bei Fragen können Sie Ihn gerne jederzeit auf Xing kontaktieren.

Hinterlassen Sie einen Kommentar