Von André Morys | Data Analytics | 0 Reaktionen

Weshalb Du Deinem Testing Tool nicht blind vertrauen solltest

Vertraust Du Deinem Tool? Setzt Du alle Gewinner direkt um, ohne das Testergebnis zu hinterfragen? Testing Tools sind unverzichtbar, doch sie haben ihre Grenzen. Wir zeigen Dir, wann Du einen tieferen Blick in die Testergebnisse werfen solltest, damit Du keine Fehlentscheidungen triffst, die Dich viel Geld kosten können.

Ein Kochbuch macht Dich noch nicht zum Koch

Nur weil Du ein Kochbuch besitzt, bist Du noch lange kein Koch geschweige denn kocht sich das Essen von selbst. Genauso verhält es sich bei Testing Tools. Zwar übernehmen Tools komplizierte statistische Berechnungen Deiner Daten, doch als Conversion Optimierer musst Du die Ergebnisse auch verstehen und hinterfragen, um kein Risiko einzugehen.

Schon 1963 haben amerikanische Statistiker in der renommierten Fachzeitschrift „Psychological Review“ im Artikel „Bayesian statistical inference for psychological research“ gewarnt:

„As usual, a consumer need not understand in detail the distribution theory on which the methods are based; the manipulative mathematics are being done for him. Yet, like any other theory, distribution theory must be used with informed discretion. The consumer who delegates his thinking about the meaning of his data to any „powerful new tool“ of course invites disaster. Cookbooks, though indispensable, cannot substitute for a thorough understanding of cooking.“

Höher, schneller, weiter: Die neue Ära der Testing Tools

Genauso ist es bei Testing Tools. Sie werden immer intelligenter und schneller und übernehmen unsere Entscheidungen. Sie setzen zum Teil bereits heute Multi-Armed Bandit Algorithmen (Teil des Machine Learnings) ein, um den Traffic intelligent zwischen den Varianten zu verteilen. Signifikante Testergebnisse sollen hierdurch um bis zu 300% schneller erreichbar sein.

Fehler verbrennen Geld

Die Zeitersparnis ist eine super Sache. Doch wenn statistisch nicht sauber gearbeitet wird, dann steigt mit der hohen Frequenz gleichzeitig das Risiko, einen Gewinner zu finden, der gar keiner ist. Wird der vermeintliche Gewinner ausgerollt oder andersherum ein Gewinner nicht als solcher erkannt und verworfen, dann verbrennt man Geld.

Sei schlauer als Dein Testing Tool

Bei der Durchführung Deiner Tests solltest Du sichergehen, dass Dein Tool einige statistische Korrekturen automatisch vornimmt. Sollte Dein Tool diese Korrekturen nicht anbieten, dann liegt es an Dir, die Ergebnisse kritisch zu prüfen oder Dir Expertenrat einzuholen. Natürlich bedeutet das mehr Arbeit. Doch Du reduzierst hierdurch das Risiko eines Fehlschlags.

Das Simpson Paradoxon und die Alpha-Fehler Kumulierung sind zwei Phänomene, die beim Testing leicht auftreten und die Validität Deiner Ergebnisse gefährden. Wir erklären Dir, worauf Du achten musst, damit Du nicht mit Deinem Test an die Wand fährst:

Das Simpson Paradoxon

Wusstest Du, dass ein Sieger für einen Gesamtdatensatz zum Verlierer werden kann, wenn man sich die Segmente ansieht? Genau dieses Phänomen beschreibt das Simpson Paradoxon. Zur Erklärung haben wir eine einfache Beispielrechnung konstruiert:

Die Auswertung für den Gesamt-Traffic ergibt, dass Variante 1 bei einem zweiseitigen Hypothesentest (Konfidenzniveau 95%; Test-Stärke >80%) ein statistisch signifikanter Sieger (grün) ist.

Eine nachträgliche Segmentierung nach Gerätetyp (Desktop, Mobile, Tablet) zeigt aber, dass Variante 1 für alle Gerätetypen einzeln schlechter abschneidet. Für Desktop und Mobile ist die Verschlechterung sogar statistisch signifikant (rot).

Das Simpson Paradoxon beschreibt einen der am häufigsten übersehenen Fehler beim A/B-Testing (Welche andere Fehler gemacht werden können, kannst Du in diesem Artikel von Ron Kohavi, CRO Experte bei Microsoft nachlesen). Wenn man sich die Daten anschaut, dann stellt sich sofort die Frage: „Welchen Zahlen soll ich in dieser Situation glauben? Dem Ergebnis für den Gesamt-Traffic oder dem für die einzelnen Segmente?“ Wir schauen es uns genauer an…

Wodurch wird das Phänomen in der Tabelle verursacht?

Wenn man die Aufteilung der Anzahl der Visitor zwischen Control und Variante 1 für den Gesamt-Traffic und die einzelnen Segmente betrachtet, fallen deutliche Unterschiede auf:

  • Für den Gesamt-Traffic ist die Aufteilung gleichmäßig 50/50.
  • Für die einzelnen Segmente variiert die Aufteilung jedoch stark je nach Segment. Diese Schieflage sorgt dafür, dass die Gesamtauswertung unterschiedlich gewichtet verläuft:
  • Die Conversion Rate für Desktop ist in diesem Beispiel deutlich höher als für Mobile.
  • Segment Desktop: Variante 1 enthält 3,5 mal mehr Desktop-Traffic als die Control. Diese Tatsache gibt Variante 1 eine stärkere Gewichtung in die Gewinner-Richtung für die Gesamtauswertung, da in Variante 1 dadurch insgesamt wesentlich mehr Conversions zustande kommen als in der Control (auch wenn Variante 1 in diesem Segment schlechter abschneidet als die Control).
  • Segment Mobile: Variante 1 schneidet für Mobile signifikant schlechter ab als die Control. Dies fällt aber in der Gesamtauswertung durch den sehr kleinen Traffic-Anteil (3 Mal kleiner als die Control) nur geringfügig ins Gewicht. Das schlechte Abschneiden der Variante 1 wird dadurch in der Gesamtauswertung überschattet, dass die Control mit einem hohen Traffic-Anteil und gleichzeitig wenigen (verglichen mit Desktop) Conversions in die Gesamtauswertung einfließt.

Wie umgehe ich das Simpson Paradoxon?

Die gute Nachricht ist, dass es Mittel gibt, das Simpson Paradoxon zu umgehen: Hierzu müssen die Visitor nicht nur für den Gesamt-Traffic gleichmäßig zufällig auf die Variante 1 und Control verteilt werden. Zusätzlich muss bei der zufälligen Ausspielung darauf geachtet werden, dass die Aufteilung homogen auch über bestimmte Dimensionen (in unserem Beispiel wäre dies der Gerätetyp) geschieht. Das Verfahren nennt man in der Fachwelt stratifizierte Zufallsstichprobe (stratified sampling).

Die schlechte Nachricht ist aber, dass so eine Funktionalität nach unserem besten Wissen von den meisten gängigen Testing Tools nicht angeboten wird. Hier musst Du also selber ran.

Was soll ich tun, wenn das Simpson Paradoxon bei meinem A/B-Test eintritt?

Falsch wäre es, die V1 zum Gewinner zu ernennen. Das wäre eine Fehlentscheidung, denn sie ist es nicht. Stattdessen solltest Du wie folgt vorgehen:

  1. Verknüpfe Dein Testing Tool mit Deinem Analytics Tool, um im Nachhinein Segmente zu analysieren. Testing Tools sind da recht eingeschränkt und machen Dir das Leben schwer.
  2. Erstelle in Deinem Analyse Tool Grafiken mit den Conversion Rates pro Segment. So kannst Du schnell sehen, ob das Paradoxon in Deinem Test aufgetreten ist.
  3. Wenn das Paradoxon aufgetreten ist, analysiere die einzelnen Segmente separat, und zwar nicht nur quantitativ (also aus Datensicht) sondern auch qualitativ. Das heißt: Betrachte das Konzept nochmals im Detail und überlege, weshalb es bei diesen Segmenten schlechter funktioniert hat. Meistens kannst Du auf diese Weise neue Optimierungsansätze finden.
  4. Auf Basis dieser Analyse solltest Du nun weitere Testkonzepte für die einzelnen Segmente entwickeln, um so gezielt für jedes Segment zu optimieren.
  5. Wenn Du auf die einzelnen Segmente optimierst, dann personalisierst Du eigentlich bereits. Aus diesem Grund – wie Analytics Guru Avinash Kaushik bereits betonte – ist die Analyse der Segmente so wichtig. Wenn Du bei mehreren Tests merkst, dass das Simpson Paradoxon aufgetreten ist, solltest Du das als wichtigen Hinweis sehen, dass Du personalisieren musst.

Multivariate Tests und Alpha-Fehler Kumulierung

Wenn Du auf einem Datensatz nicht nur eine Nullhypothese sondern mehrere Nullhypothesen gleichzeitig testest, taucht ein weiteres Problem auf: Das multiple Testproblem. Im Website-Testing liegt es dann vor,

  • wenn mehr als eine Variante gegen die Control getestet werden (A/B/n-Test oder MVT),
  • wenn mehr als ein Goal in die Auswertung einbezogen wird, oder
  • wenn die Auswertung für mehrere nachträglich definierte Segmente vorgenommen wird.

Hier kommt es zur sogenannten Alpha-Fehler Kumulierung. Und diese birgt ein großes Risiko…

Die Ergebnisse Multivariater Tests sind gefährlich

Die ersten sechs von über 90 Zeilen eines typischen MVT-Resultats zeigen fast immer nur Gewinner. Bei diesem MVT wird die Kombination in der dritten Zeile vom Testingtool zu 96% direkt als signifikantes Ergebnis „gefeiert“. 30% Mehr Umsatz mit nur einem Test – wer hätte das nicht gerne. Doch leider gaukelt uns das Testing Tool hier etwas vor – und das hat ganz einfache statistische Gründe.

multivariate tests

Jeder, der schon einmal versucht hat, die Resultate eines Multivariaten Tests zu validieren, der stößt auf ein Problem: Es wird nicht klappen. Lassen sich Testergebnisse nicht innerhalb einer vertretbaren Toleranz reproduzieren, spricht man von fehlender Validität.

„Valide = wahr“

Anders gesagt: die Ergebnisse des Multivariaten Tests waren nicht wahr. Jedenfalls nicht so richtig. Oft machen die Ergebnisse auch gar keinen Sinn. Jeder, der im E-Commerce testet, kennt typische Uplifts und weiß, dass ein einfaches Vertauschen von Elementen selten überhaupt etwas bringt.

Multivariate Tests: Die Statistik-Illusion

„Wie kann so etwas passieren? Schließlich ist das Ergebnis doch statistisch signifikant. Warum also die Aufregung? Ich bin kein Statistik-Experte, aber dennoch habe ich verstanden, dass wir bei einem Test mit einem 95 prozentigen Konfidenzniveau akzeptieren, dass unsere „angebliche“ Gewinnervariante mit 5% Wahrscheinlichkeit gar kein Gewinner ist.“

Marketer, Dienstleister und Tool-Anbieter sagen dann gerne:

        „Wir machen Marketing und keine Herz-OP“

Das ist zwar pragmatisch und bis zu einem gewissen Bereich völlig OK.

Aber: Mit steigender Anzahl der Variationen multipliziert sich auch unser 5% Fehler in Multivariaten Tests. Hier sprechen wir von der Alpha-Fehler Kumulierung.

Was ist die Alpha-Fehler Kumulierung?

Bei einem einfachen A/B-Test bestimmt das gesetzte Signifikanzniveau α (meist gesetzt auf 0.05 oder als Prozentzahl 5%) die Wahrscheinlichkeit dafür, dass ein signifikanter Unterschied zwischen der Control und der Variante festgestellt wird, obwohl der Unterschied rein durch einen Zufall entstanden ist. Bei einem A/B/n-Test oder einem MVT werden mehrere Varianten gegen die Control gleichzeitig getestet und zwar jeder für sich lokal mit dem gesetzten Signifikanzniveau alpha.

Global gesehen kommt es aber zu der so genannten Alpha-Fehler Kumulierung: Mit jeder zusätzlichen Variante steigt die Wahrscheinlichkeit, dass mindestens einer der deklarierten Sieger tatsächlich gar keiner ist.

Der kumulierte alpha-Wert α_{kum} wird wie folgt berechnet:

Dabei ist alpha (α) das ursprüngliche Signifikanzniveau für die einzelnen Vergleiche und N die Anzahl der Varianten, die gegen die Control getestet werden.

In der Tabelle unten wird dargestellt, wie die kumulierte Alpha-Fehler-Wahrscheinlichkeit (für das Signifikanzniveau 5%) mit der wachsenden Varianten-Anzahl ansteigt.

Besonders bei einem MVT kommt es schnell zu einer sehr großen Anzahl der Varianten. Zum Beispiel, erzeugt man für jeweils die Headline, das Hintergrundbild und den CTA-Button jeweils 3 Varianten, so entstehen 3 x 3 x 3 = 27 Varianten, die gegen die Control getestet werden müssen. In so einem Fall besteht eine knapp 75%-ige Wahrscheinlichkeit dafür, dass es mindestens zu einem „Falsch-Alarm“ kommt oder anders ausgedrückt, dass bei mindestens einer der Sieger-Varianten der signifikante Uplift rein zufällig entstanden ist.

Statistische Signifikanz ist nicht gleich Validität. Letzteres streben wir an. Die Signifikanz ist nur ein Zwischenschritt, sozusagen das Minimal-Ziel.

Wie vermeide / korrigiere ich den kumulierten Alpha-Fehler?

Es gibt diverse Ansätze, den kumulierten α-Wert zu korrigieren, z.B. das Bonferroni– oder das Šidák– Verfahren. Bei den meisten Korrektur-Verfahren wird das Signifikanzniveau α für die einzelnen Tests durch unterschiedliche Strategien nach unten korrigiert, so dass der kumulierte alpha-Wert das ursprünglich gewünschte Signifikanzniveau α nicht überschreitet.

Nutze MVTs nicht leichtsinnig. Solltest Du sie aber doch anwenden, z.B. um Kreuzeffekte zweier kontraindizierten Hypothesen zu messen, dann befolge diese Tipps:

  1. Informiere Dich genau, ob Dein Testing Tool entsprechende Korrektur-Verfahren zur Vermeidung des kumulierten Alpha-Fehlers einsetzt. Falls nicht, dann solltest Du für die Korrektur selbst sorgen oder, falls es zu aufwendig erscheint, das Konfidenzniveau von 95% auf zumindest 99% oder 99,5% erhöhen. Dabei beachte, dass der Test in diesem Fall noch länger laufen muss, damit eine ausreichende Teststärke erreicht werden kann. Hier erfährst Du mehr zur Testlaufzeit-Berechnung.
  2. Reduziere die Anzahl der Kombinationen so gut es geht. Weniger Variationen haben einem geringeren Effekt auf den Fehler. Ein Test, der zwei oder drei Hypothesen und deren Kreuzeffekte misst, kommt meist mit 15 bis 30 Kombinationen aus.
  3. Validiere die Gewinnervariante im Idealfall nochmals im Anschluss über einen A/B-Test, wenn Du wirklich quantifizieren möchtest, wie groß der Einfluss der Veränderung wirklich ist. Sei nicht enttäuscht, wenn von dem einst so großen Uplift gar nicht mehr so viel übrig ist.
  4. Glaube nicht, Du hättest auf Basis der MVT-Resultate gerade 30% mehr Umsatz gemacht.

Risiken einer nachträglichen Segmentierung

Bei der nachträglichen Segmentierung (z.B. in Google Analytics oder direkt im Testing Tool) kann man wegen des Simpson Paradoxons auch bei einem unschlüssigen A/B-Test heimliche Gewinner finden.

In der Tabelle unten besagt die Auswertung für den Gesamt-Traffic, dass der leichte Uplift der Variante 1 leider nicht statistisch signifikant ist. Damit kann sie nicht als Sieger deklariert werden.

Wenn man aber den Gesamt-Traffic nach Desktop, Mobile und Tablet segmentiert und die Auswertung noch einmal durchführt, dann ist die Variante 1 in jedem einzelnen Segment statistisch signifikant besser.

Was ist bei der nachträglichen Segmentierung zu beachten?

  • Die untersuchten Segmente müssen groß genug sein, damit die statistische Validität überhaupt gewährleistet werden kann.
  • Die Alpha-Fehler Kumulierung tritt nicht nur bei den MVTs ein, sondern auch bei Mehrfachvergleichen der segmentierten Daten. Hier gilt das Prinzip:

Wer nur lange genug sucht (d.h. viele Segmente bildet), der findet auch wahrscheinlich einen Gewinner. Nur die Wahrscheinlichkeit, dass es kein wahrer Gewinner ist, steigt mit jedem zusätzlich untersuchten Segment an.

  • Bei der Auswertung sollte man auch hier die oben erwähnten Korrektur-Verfahren einsetzen oder alternativ mit einem höheren Konfidenzniveau arbeiten. Für die beiden aufgeführten Beispiele des Paradoxons werden insgesamt also jeweils 4 Hypothesentests ausgewertet (Gesamt-Traffic und 3 Varianten). Dies heißt, dass die Wahrscheinlichkeit mindestens einen falschen signifikanten Sieger pro Beispiel zu deklarieren insgesamt auf 18,55% steigt, wenn mit dem nicht korrigierten Konfidenzniveau von 95% bei der Signifikanz-Entscheidung gearbeitet wird.

Weshalb „schneller“ nicht immer „besser“ ist

Signifikante Testergebnisse bis zu 300% schneller zu erreichen klingt wahnsinnig verlockend. Wir freuen uns auf die Ära des Machine Learning und sehen gespannt dabei zu, wie Testing Tools immer intelligenter werden.

Kontrolle geht über Vertrauen. Tappe nicht in die Testingfalle, indem Du vermeintliche Sieger feierst und nach kleinen Anpassungen 30% Uplift erhoffst. Denn:

Uplift erfordert Kontrast!

High Impact Testing ist für uns Optimierer der spannendste Quadrant des „4-Felder-Modell des A/B-Testings“. Die Basis sind starke Hypothesen und durchdachte Testkonzepte, die beim Nutzer einen hohen Kontrast erzeugen. Viel Kontrast führt zu einer Änderung des Nutzerverhaltens und somit zu einem hohen Impact auf die Conversion Rate.

Nur die wenigsten Webseiten wie booking.com haben genug Traffic, um valide high-frequency zu testen.

5_4_felder_modell_a_b_testing

Das passende Conversion Whiteboard zum 4-Felder-Modell des A/B-Testings gibt es hier.

Fazit

Gerate nicht in die Testingfalle, sondern achte also auf saubere Daten und Erkenntnisse. Dabei kommst Du manchmal nicht umher, Dein Testing Tool genau unter die Lupe zu nehmen. Macht es keine Korrekturen, dann analysiere die Ergebnisse von Hand oder hol´ Dir Expertenrat.

Das klingt nach Aufwand? Vielleicht… Aber mit falschem Ergebnissen brauchst Du viel mehr Zeit, im schlimmsten Fall machst Du ein gesamtes Optimierungsprogramm unglaubwürdig.

Also lass Dich nicht von wohlklingenden Uplifts einlullen, sondern hinterfrage die Resultate immer gewissenhaft.

In anderen Worten: Werde selbst zum Koch und Deinem Sternemenü steht nichts mehr im Wege. 😉

Mehr Wissenswertes zum Thema

10 Statistik-Fallen beim Testing – Der ultimative Guide für Optimierer

Multivariates Testing (MVT)

Agiles Optimieren in der Praxis: Nacheinander, gleichzeitig oder multivariat testen?

Seminar Conversion Testing

Die wirklich wahren Conversion-Killer – Mit 5 Maßnahmen zur Testing-Exzellenz

Das Nürburgringprinzip: Don’t burn money in black holes!

 

André Morys

André Morys ist Gründer und Vorstand von konversionsKRAFT und beschäftigt sich seit 1996 mit der Conversion Optimierung von Websites und Onlineshops. André Morys ist Dozent für User Experience an der TH Mittelhessen und Autor des Fachbuchs "Conversion Optimierung". Er ist häufiger Sprecher und Moderator auf Konferenzen.
Frage zum Artikel? Frag den Autor

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.