Die Conversion-Lüge Teil 1: Multivariate Tests und Buttonschubserei

Multivariate Tests: Immer wieder höre ich von Experimenten, bei denen bestimmte Elemente einer Seite einfach verschoben, vertauscht oder weg gelassen werden. Oft geschieht diese "Buttonschubserei" durch multivariate Tests. Das verblüffende Ergebnis: Es gibt fast immer eine Siegerkombination, die einen Uplift hat.
 

Vorab: Ich möchte multivariate Tests nicht verteufeln. Aber eine Sache möchte ich gerne einmal aus der Welt räumen. Und die sieht so aus: Die ersten sechs von über 90 Zeilen eines typischen MVT-Resultats zeigen fast nur Gewinner. Mit 96% wird die Kombination in der dritten Zeile vom Testingtool direkt als signifikantes Ergebnis „gefeiert“. 30% Mehr Umsatz mit nur einem Test – wer hätte das nicht gerne.
Doch leider gaukelt uns das Testingtool hier etwas vor – und das hat ganz einfache statistische Gründe.
multivariate tests
Abb. 1: Multivariate Tests mit vielen Kombinationen und nur wenigen hundert Conversions pro Kombination – dieses Ergebnis ist mit Vorsicht zu genießen.
 

Warum?

Weil ich an die Ergebnisse nicht glaube. Jeder, der schon einmal die Resultate eines multivariaten Tests versucht hat zu validieren, der stößt auf ein Problem: Es wird nicht klappen. Lassen sich Testergebnisse nicht innerhalb einer vertretbaren Toleranz reproduzieren, spricht man von fehlender Validität.
„Valide = wahr“
Anders gesagt: die Ergebnisse des multivariaten Tests waren nicht wahr. Jedenfalls nicht so richtig. Oft machen die Ergebnisse auch gar keinen Sinn. Jeder, der im ECommerce testet, der kennt typische Uplifts und weiß, dass ein einfaches Vertauschen von Elementen selten überhaupt etwas bringt.

Multivariate Tests: Die Statistik-Illusion

multivariate-tests
Wie kann so etwas passieren? Schließlich ist das Ergebnis doch statistisch signifikant. Warum also die Aufregung? Ich bin kein Statistik-Experte, aber dennoch habe ich verstanden, dass wir bei einem Test mit einem 95 prozentigen Konfidenzniveau akzeptieren, dass unsere „angebliche“ Gewinnervariante mit 5% Wahrscheinlichkeit gar kein Gewinner ist. Marketer, Dienstleister und Tool-Anbieter sagen dann gerne:
        „Wir machen Marketing und keine Herz-OP“
Das ist zwar pragmatisch und bis zu einem gewissen Bereich völlig OK. Aber: Mit steigender Anzahl der Variationen multipliziert sich auch unser 5% Fehler in multivariaten Tests. (Danke an dieser Stelle an Andreas Korsus für seinen inspirierenden Vortrag über Statistik-Irrtümer auf dem conversionCAMP 2013!)
Bei 16 Varianten beträgt die Wahrscheinlichkeit, dass die Gewinnervariante gar kein Gewinner ist, bereits 56%.
multivariate tests 2
Abb. 2: Der Fehler kumuliert sich (Quelle: Andreas Korsus).
Also: aufpassen. Statistische Signifikanz ist nicht gleich Validität. Letzteres streben wir an, die Signifikanz ist nur ein Zwischenschritt, sozusagen das Minimal-Ziel.

Was also tun?

Verstehen Sie mich nicht falsch, multivariate Tests sind ein wundervolles Werkzeug der quantitativen Marktforschung. Sie eignen sich perfekt dazu, um Kreuzeffekte zu analysieren und Optimierungsspielräume zu erforschen. Achten Sie dabei jedoch auf folgende Aspekte:

 

Erstens:

Missbrauchen Sie multivariate Tests nicht zum Ausprobieren. Optimieren ist nicht „Trial and Error“. Gehen sie mit qualitativen Hypothesen vor, damit sie die Ergebnisse auch erklären können.

          „Kombination 71 hat gewonnen. Keine Ahnung warum. Stell‘ sie einfach live“

So etwas passiert tatsächlich und ist grober Unfug. Gehen Sie lieber methodisch korrekt vor und verzichten Sie auf multivariate Tests wenn Sie nicht wissen, wofür sie in Wirklichkeit da sind.

Zweitens:

Wenn Sie jedoch Kreuzeffekte messen wollen, z.B. weil sie zwei möglicherweise kontraindizierte Hypothesen haben und den optimalen Mix identifizieren möchten, dann machen Sie es gleich richtig.

Brauchbare multivariate Tests – so geht’s:

  1. Arbeiten Sie mit einem höheren Konfidenzniveau, z.B. 99% oder 99,5%. Das braucht zwar mehr Conversions, sie lügen sich aber nicht in die Tasche. Es ist für eine höhere Validität ohnehin erforderlich, den Test länger laufen zu lassen um einem besseren Traffic-Querschnitt zu nutzen.
  2. Reduzieren Sie die Anzahl der Kombinationen so gut es geht. Weniger Variationen haben einem geringeren Effekt auf den Fehler. Ein Test, der zwei oder drei Hypothesen und deren Kreuzeffekte misst, kommt meist mit 15 bis 30 Kombinationen aus.
  3. Validieren Sie die Gewinnervariante im Idealfall nochmals im Anschluss über einen A/B-Test, wenn Sie wirklich quantifizieren möchten, wie groß der Einfluss der Veränderung wirklich ist. Seien Sie nicht enttäuscht, wenn von dem einst so großen Uplift gar nicht mehr so viel übrig ist.
  4. Ermitteln Sie bei Bedarf den Einfluss der verschiedenen Hypothesen über eine Varianzanalyse (MANOVA) (das heißt z.B. bei VWO „Section Report“ oder in anderen Tools auch „Factor Analysis“).
  5. Glauben Sie nicht, sie hätten auf Basis der MVT Resultate gerade 30% mehr Umsatz gemacht.

Fazit: Es ist nicht kompliziert, gute Ergebnisse zu erzielen.

Ich weiß, das alles klingt kompliziert. Ist es aber nicht. Es klingt so, als bräuchte man mehr Zeit. Stimmt auch nicht. Mit falschem Ergebnissen braucht man viel mehr Zeit, im schlimmsten Fall macht man ein gesamtes Optimierungsprogramm unglaubwürdig.
Achten Sie also auf saubere Daten und Erkenntnisse, legen Sie Wert auf ein hohes Konfidenzniveau.
Multivariate Tests sind toll. Aber: Lassen Sie sich nicht von wohlklingenden Uplifts einlullen sondern hinterfragen Sie die Resultate immer gewissenhaft!
Viel Erfolg beim Optimieren!

PS: Im nächsten Teil möchte ich verraten, wie Sie unglaubwürdige Case-Studies mit den richtigen Fragen „enttarnen“ können.

PPS: Haben Sie noch weitere Mythen, Irrtümer oder Problemfelder, unter denen das Thema Conversion Optimierung leidet? Ich freue mich über Hinweise und setze mich damit gerne kritisch auseinander!
  • Send to Kindle
  • http://kKrft.ly/lBx
André Morys André Morys ist Gründer und Vorstand der Web Arts AG und beschäftigt sich seit 1996 mit der Conversion Optimierung von Websites und Onlineshops. André Morys ist Dozent für User Experience an der TH Mittelhessen und Autor des Fachbuchs "Conversion Optimierung". Er ist häufiger Sprecher und Moderator auf Konferenzen. /// @morys auf Twitter folgen /// facebook /// Google+

, , , , ,

13 Reaktionen auf  “Die Conversion-Lüge Teil 1: Multivariate Tests und Buttonschubserei”

Kommentare

  1. JK JK

    „Statistik-Artikel“ finde ich immer gut. So kann man gut erkennen, dass man etwas mehr Hirnschmalz benutzen muss, wenn Tests bzw. die Interpretation von Tests statistisch sauber sein sollen:-)

    Ich hätte mir noch einen Satz gewünscht, warum/wie sich die 5%-Fehler bei steigender Variationszahl multiplizieren (Rechenweg). Ich kann ja nicht einfach Varationen*“Fehlerlevel“ rechnen?!

  2. Laurent Müllender Laurent Müllender

    Sehr guter Artikel!

    Also ich würde nicht unbedingt MVT nutzen um einen Winner zu bestimmen. Ich sehe es eher als Vorbereitung eines AB Tests um die Elemente zu identifzieren die es sich zu optimieren lohnt, bzw die die am meisten Einfluss haben. Diese werden dann gezielt in AB Tests optimiert.

    Und ja, ebenfalls oft vernachlässigt: Reduktion der Kombinationen. Das geht gut mit full factorial design, Taguchi usw.

    Falls nächstes Mal ein Speaker-Slot frei ist zu eMail Testing/CRO hätte ich wieder etwas zum Conversion Summit anzubieten 🙂

  3. Andreas Korsus Andreas Korsus

    @JK
    Es stimmt, man kann nicht einfach die Anzahl der Variationen mit dem Fehler-Level multiplizieren, ansonsten könnte die Wahrscheinlichkeit über 100% erreichen – das geht natürlich nicht.

    So berechnet man das Fehlerniveau: 1-(1-Alpha)^n
    mit Alpha als Fehlerwahrscheinlichkeit (5% = 0,05) und n die Anzahl der Varianten.

    (Als Ergebnis ergibt sich eine Zahl zwischen 0 und 1, für eine entsprechende Prozentdarstellung mit 100 multiplizeren. ^ ist das Zeichen für „hoch“)

  4. JK JK

    @Andreas Korsus
    Super danke.

    @Laurent Müllender
    Interessanter Ansatz, multivariate Tests auf A/B-Tests einzudampfen.

  5. Ara Ara

    Ähnliches gilt übrigens auch für A/B-Tests – nur ist da die statistische Komponente nicht ganz so komplex. Aber auch hier kann man u.U. zu dem Ergebnis kommen, das eine Variante, die total daneben aussieht, gewinnt – und schon hat der Black-Metal-Shop einen pinken Button…

Trackbacks/Pingbacks

  1. […] Die Conversion-Lüge Teil 1 – Immer wieder höre ich von Experimenten, bei denen Elemente einer Seite verschoben, vertauscht oder weggelassen werden. Oft geschieht diese `Button-schubserei´ durch multivariate Tests. Das verblüffende Ergebnis. Weiter… […]

  2. […] Am Beispiel der Potenzierung von Messfehlern in multivariaten Tests wurde deutlich gemacht, wie schnell ein Testergebnis fehlinterpretiert werden kann, wenn die Risiken nicht bewusst oder unklar […]

  3. […] 14. Die Conversion-Lüge Teil 1: multivariate Tests und Buttonschubserei – Der Conversion-Optimierung-Experte André Morys fühlt den multivariaten Tests auf den Zahn und gibt Tipps für einen brauchbaren Aufbau der Testumgebung. […]

  4. […] Wichtig für den Praktiker: Wer große MVTs laufen lässt, braucht viel Traffic und Zeit. Es ist auch hier möglich, signifikante Ergebnisse zu erzielen – aber nur mit ordentlich Dampf auf dem Kessel. Alle anderen sind sehr gut beraten, ein MVT-Ergebnis immer als klassischen A/B-Test nochmals zu verifizieren. Und wundern Sie sich nicht, wenn das Ergbnis nicht übereinstimmt. Weiterführend lesen Sie bitte folgenden Artikel: Die Conversion Lüge Teil I: Multivariate Tests und Buttonschubserei. […]

  5. […] Multivariate Tests sind anspruchsvoll. Wer nicht aufpasst, lügt sich selbst in die Tasche. Hier sind konkrete Tipps, wie man zu guten Ergebnissen kommt.  […]

  6. […] Weil 99.9% dieser “Low-Haning-Fruits” bereits geerntet sind. Oder weil es schlicht und einfach gelogen ist. Nicht mit Absicht sondern aufgrund fehlenden Wissens über Statistik. ( -> Die Conversion Lüge) […]

  7. […] Bonus Blogpost zum Thema Statistik und warum die meisten MVT Resultate falsch sind: Die Conversion Lüge […]

  8. […] muss das Ergebnis auf seine Güte geprüft werden. Der Autor André Morys schreibt dazu im Blog konversionsKRAFT: „Statistische Signifikanz ist nicht gleich Validität. Letzteres streben wir an, die Signifikanz […]

Hinterlassen Sie einen Kommentar