Conversion-Tests richtig interpretieren: ein Plädoyer für Methode und Geduld
Wir haben einen Uplift von 120 % mit einer CTBO von über 95 % erreicht! Und das in weniger als einer Woche Testlaufzeit? Großartig, Champagnerflaschen auf!
Solches (oder ähnliches) passiert es in Agenturen oder im eCommerce ständig. Landauf, landab scheinen die Cases und Best Practices immer neue Grenzen zu sprengen und fast automatisch Geldregen auszulösen.
Es wäre durchaus interessant, einmal nach einem Jahr nachzufragen, wie sich die Schnellschuss-Testmethoden denn auf lange Sicht ausgewirkt haben. So mancher würde an dieser Stelle in beschämtes Schweigen verfallen.
Ok. Wo liegen denn die Probleme beim Testing?
Vielfach (wenn nicht fast immer) wird übersehen, dass beim Testing in einer produktiven Onlineumgebung ein Feldexperiment durchgeführt wird, dessen interne Validität aus der Perspektive einer “sauberen” experimentellen Forschung sehr niedrig anzusetzen ist.
Interne Validität? Was ist dass denn? vereinfacht:
“Für Aussagen oder in empirischen Studien gezogene Schlussfolgerungen wird ein hoher Grad an interner Validität angenommen, wenn Alternativerklärungen für das Vorliegen oder die Höhe der gefundenen Effekte weitestgehend ausgeschlossen werden können. Interne Validität (oder Ceteris-paribus-Validität) liegt vor, wenn die Veränderung der abhängigen Variable eindeutig auf die Variation der unabhängigen Variable zurückgeführt werden kann (keine Alternativerklärung).
Um dies zu gewährleisten, müssen Störvariablen kontrolliert bzw. durch verschiedene Methoden wie Zufällige Verteilung, Elimination, Konstanthaltung und Parallelisierung ausgeschaltet werden.” (wikipedia.de)
Betrachtet werden hier die Auswirkungen des angewandten Experimentaldesigns auf die Generalisierbarkeit und Wiederholbarkeit (Replizierbarkeit) von Untersuchungsergebnissen. Denn im wissenschaftlichen Umfeld gelten Untersuchungsergebnisse nur dann etwas, wenn sie von anderer, unabhängiger Stelle mit Ergebnissen, welche eine gleiche Aussage beinhalten, wiederholt werden können.
Kausalität kann schwierig sein
Eine aussagekräftige statistische Betrachtung einer Experimentalsituation setzt das Vorhandensein von unabhängigen Variablen (die Variable, die MANIPULIERT wird: Roter Button vs. grüner Button) und abhängige Variablen (Anzahl der Käufe) voraus, deren Änderung in Abhängigkeit gemessen wird, und jetzt kommt es: Unter der Annahme, dass eine Änderung der unabhängigen eine signifikante Änderung der abhängigen Variable kausal nach sich zieht.
Bedeutet was? Wir benötigen möglichst hohe Konstruktvalidität. Konstruktvalidität bezeichnet – wiederum einfach ausgedrückt – die Robustheit des Experimentaldesigns gegenüber externen Störfaktoren.
Empirische Sozialwissenschaftler tun so gut wie alles, um eine Sache möglichst auszuschließen: Die Gefährdung der Konstruktvalidität ihrer Experimente durch genau diese Störvariablen. Durch mannigfaltige Maßnahmen wird versucht, Fehler und Verzerrungen durch Störfaktoren und Kreuzeffekte möglichst auszuschließen.
Worauf soll dass denn aber nun hinauslaufen?
Nun ja: Schaut man sich unser Experimentaldesign einmal genauer an, fällt eines auf: Eigentlich können wir nur die zufällige Verteilung in Kontroll – und Testgruppe garantieren. Aber – Achtung, hier kommt der wichtigste Satz!: Alle anderen Störfaktoren können nicht, wie in einem “richtigen” empirischen Experiment, ausgeschaltet werden.
Diese können unter anderem sein:
- Fehler in der Zufälligkeit der Verteilung (niemand garantiert, dass eine rhythmische A/B-Verteilung auf eine nicht bekannte Gesamtheit nicht zufällig doch eine verzerrte Stichprobe trifft.) Selbst bei großen Stichproben können kurze Testlaufzeiten dazu führen, dass eine nicht-repräsentative Stichprobe aus der Grundgesamtheit gezogen wird.
- Periodische Verhaltensänderungen der Gesamtheit im Feldversuch: Ein gutes Beispiel ist die fundamentale Änderung einiger Stellschrauben des Kaufverhaltens in der Weihnachts- (Oster-, Sommer-, …-) Zeit.
- Beeinflussung durch Ereignisse des Zeitgeschehens:
Beispiel 1: Ein A/B-Test für den Abschluss von Flugreisen beginnt zufällig kurz nach einem verheerenden Flugzeugabsturz
Beispiel 2: Ein Landingpage-Test für Buchungen von Dienstleistungen beginnt zufällig gleichzeitig mit einer Welle von Fraudattacken mit gestohlenen Kreditkartendaten. Jemand, der sich unerlaubt in ein System bringen möchte, wird sich nicht um die Positionierung von Persuasionelementen scheren.
Nun könnte man ja sagen: Aber solch ein Ereignis von außen trifft doch Control und Alternative gleichermaßen. Das stimmt zwar ,aber: Korreliert unsere Änderung in der alternativen Variante mit dem externen Ereignis (und die Originalvariante nicht), ist das Ergebnis verfälscht.
Ein weiteres Beispiel: Wurden in einem A/B-Test im Flugreisenbeispiel die Sicherheits- und Vertrauenselemente verstärkt, kann eine negative emotionale Attribution stattfinden. Die Nutzer empfinden Elemente, die Sicherheit und Vertrauenswürdigkeit suggerieren, in einer solchen “Extremsituation” als unangebracht und dies sorgt für einen negativen Effekt – und somit eine Verzerrung der Testergebnisse.
- Jahreszeit, Tageszeit, etc.: Menschen verhalten sich zu verschiedenen Zeitpunkten (oder Intervallen) unterschiedlich. Surf- und Kaufverhalten der Nutzer unterliegt periodischen Schwankungen: Die emotionale Grundstimmung ist Montags anders als am Wochenende, die Kaufbereitschaft (und die Reaktion auf unterschiedliche persuasive Maßnahmen) am Anfang der Monats anders als kurz vor Monatsende.
Es gibt also für verschiedene Branchen und Kontexte diverse ( und schwer zu antizipierende) verzerrende Momente.
Bedeutet dies nun, dass jegliches Testen eigentlich Blödsinn ist und man wieder auf das gute alte Bauchgefühl und die Heuristiken (“Das hat schon immer funktioniert”) der Konzepter und Designer hören sollte?
Oh nein, bloß nicht!
Erstens: Signifikanz ist nichts ohne Laufzeit!
Eigentlich läuft die ganze Argumentation auf ein Ziel hinaus: Geduld! Die Testlaufzeit ist ein weitaus wichtigerer Faktor für die Interpretation des Testergebnisse als oftmals gedacht, und zwar über die statistische Betrachtung hinaus. Ein toller Artikel hierzu findet sich bei Analytics Impact: Test Fatigue – Why it Happens.
Oftmals ergeben sich nach relativ kurzer Zeit signifikante Ergebnisse (meines Erachtens sind viele “Riesenuplifts” in Best Practices genau solche Ergebnisse) mit sehr hohen Ergebnissen, die sich nach längerer Testlaufzeit meist abflachen und nach einer gewissen (vorher nicht bestimmbaren!) Zeit kumulativ harmonisieren und wirklich stabil werden.
Merksatz: Große Up- oder Downlifts können zwar schnell hohe Signifikanz- beziehungsweise Konfidenzniveaus erreichen, sind in diesem Falle aber noch lange nicht über die Zeit stabil. Der Zufall kann auch bei mathematisch korrekter Betrachtung nur in einem System mit vollständiger Konstruktvalidität ausgeschlossen werden: beim Testen bringt am Ende nur Laufzeit robuste Ergebnisse! Wichtig ist eine k0ntextbezogene Betrachtung von zyklischem Verhalten: Der Abverkauf von weißen Sportsocken wird unter Umständen robuster gegenüber zyklischem Nutzerverhalten sein als der von Premium-Fernsehgeräten.
Eine gewissenhafte Interpretation unter Einbezug aller denkbarer Faktoren stellt jedoch den größtmöglichen Erfolg der abgeleiteten Maßnahmen sicher. Um es mit den Worten Avinash Kaushiks zu sagen: “It’s all about the “Why”, not the “How Much”.
Abhilfe schafft – neben einem robusten Wesen und guten Nerven: Wenn Tests nicht gut performen nicht sofort die Flinte ins Korn werfen, sondern abwarten. Gleichzeitig aber auch schon Hypothesen für eine Schärfung der ursprünglichen Hypothesen entwickeln. Was könnte die Nutzer noch stören? Wurde irgendetwas nicht bedacht?
Zweitens: Methodisch so sauber testen wie möglich
Ein Test performt schlecht nach einigen Tagen und produziert Downlifts und das Management rutscht unruhig auf den Stühlen? Schlecht beraten ist, wer jetzt sofort Tests anhält, Konzepte in Frage stellt oder schlimmstenfalls in laufende Tests eingreift und Alternativen verschlimmbessert. Sinnvoller: Test stoppen, gegebenenfalls Learnings umsetzen und unter Umständen mit weniger Traffic neu starten. Und dann aushalten!
Eine weitere Vorgehensweise zum Ausschluss von Ungereimtheiten ist die detaillierte Betrachtung der Analytics-Daten während der Testlaufzeit. Treten hier saisonal untypische Muster auf? Können technische Probleme ausgeschlossen werden? Zur Not muss ein A/A-Test her: Zwei identische Varianten gegeneinander laufen lassen, um technische Probleme innerhalb der Testingtools oder der Testarchitektur ausschließen zu können.
Drittens: (Positive) Extremwerte kritisch betrachten
nach drei Tagen sind gigantische Uplifts mit hohen Signifikanzniveaus erreicht? ( By the way: Das erreichte Signifikanzniveau ist direkt abhängig von der Größe des Deltas zwischen Control und Alternative. Ich kann also mit 10:1 erreichten Conversions schon eine extrem hohes Signifikanzniveau errechnen. Über die Aussagekraft mache sich jeder bitte selbst Gedanken). Sehr verständlich ist der Drang, Gewinnervarianten schnell auszurollen um möglichst schnell Umsätze mitzunehmen. Schwierig wird dies allerdings, wenn sich das Ergebnis nach zwei Wochen in Gegenteil verkehrt…
Viertens: the long run rules!
Wir haben einen Testsieger mit einem Teil des Gesamttraffics nach relativ langer Laufzeit stabil bestimmt und rollen nun auf den ganzen Traffic aus – und die Umsätze gehen zurück! Oh mein Gott, sollten wir nicht spätestens JETZT in Panik ausbrechen? Nein, denn auch solche Effekte sind gar nicht unbedingt selten und können immer mal auftreten.
Haben wir langfristig einen robusten Effekt mit hohem Signifikanzniveau (und annehmbar kleinen Konfidenzintervallen) bestimmt, wird sich dieser auch langfristig durchsetzen!
Fazit: Methode und Geduld sind Trumpf
Leider ist die Mähr vom Superuplift in drei Tagen nicht immer der Wahrheit letzter Schluss – Conversionoptimierung ist eher Marathon als Sprint.
Immer im Hinterkopf behalten: Die Aussage” Wir wollen ja nicht bis zum Mond fliegen” kann schnell zum Bumerang werden, wenn man die richtige Umlaufbahn verpasst. Im Größenvergleich zum Gesamtsystem ist der Mond nämlich winzig klein, und ohne Präzision fliegt man schnell mit Höllentempo – vorbei.
Zum Abschluss: Ein amüsanter und gut verständlicher Lesetipp zur Logik und Kausalität innerhalb der Statistik: Mit an Wahrscheinlichkeit grenzender Sicherheit. Logisches Denken und Zufall (Hans Herrmann Dubben).