Die Testing-Falle, in die jeder mal tappt
Jeder hat es schon getan. Ehrlich. Ich weiß es. Ich habe es auch schon getan und meine Kollegen haben es auch schon getan.
Was?
Einen Test à la “Probier doch einfach mal aus, den Button hierher zu machen und die andere Box lieber weiß.” Oder so ähnlich. Wenn man wirklich nicht weiß, was das Problem einer Seite (bzw. der dort nicht erfolgenden Konversion) ist, dann kommt man schon in die Versuchung einfach mal ein paar Dinge auszuprobieren, von denen man glaubt, sie könnten eine Auswirkung haben.
Was ist so schlimm daran?
A) Je kleiner die Veränderung, desto größer ist die Wahrscheinlichkeit, dass das Resultat Zufall ist
Vor allem bei Seiten mit wenig Traffic und/oder wenn ohne Segementierung gearbeitet wird (was meist dort der Fall ist), sind die Unterschiede zwischen derart kleinen Iterationen so gering, dass unterschiedliche Konversionsraten ein reines Zufallsprodukt sind. Im Reporting sieht so ein Test dann so oder so ähnlich aus:
Bild 1) Tagesdarstellung von Resultaten eines A/B Tests (nicht kumuliert)
Der Zufalls-Teufel sorgt dafür, dass sich die Ergebnisse insgesamt immer weiter aneinander anschmiegen – einige Tage lang liegt eine Version vorne, dann die andere Version. Wenn man lange genug wartet, hat man vielleicht Glück, und für kurze Zeit gibt es eine Siegervariante.
Bild 2: Darstellung mit kumulierten Werten zeigt das Zufalls-Problem
B) (das größere Problem) Wenn es einen Sieger gibt, weiß niemand WARUM.
Ich gebe zu, das ist ein wenig abstrakt. Aber es ist das viel viel größere Problem (denn in Fällen mit genügend Traffic entwickeln selbst die oben genannten Tests nach wenigen Wochen einen fast stabilen Trend, auch wenn die Uplifts dann irgendwo im Bereich von 0,52% oder 2.13% sind – wer will das schon?).
Warum ist es ein so großes Problem?
Weil hinter dem Test keine echte qualitative Hypothese gesteckt hat.
Eine gute Test-Hypothese beinhaltet die Erklärung für eine mögliche Ursache, das “Warum”. Wenn der Warenkorb-Button also in Größe und Position verändert wird, müsste eine gute Hypothese lauten:
“Die meisten Nutzer übersehen den Button.
Wenn wir ihn größer machen, steigt die Chance der Konversion, weil die Nutzer ihn nun sehen”.
Jeder, der so eine Hypothese guten Gewissens nachvollziehen und als wichtigste Optimierung für einen Test priorisiert, sollte diesen Test auch machen. Aber ehrlich: Ist das wirklich das Problem der Seite?
Das Formulieren echter Hypothesen ist in Wirklichkeit mehr Arbeit als das direkte “Ausprobieren”. Optimierer müssen sich mit der Seite intensiver auseinandersetzen, sie mit den Augen der Nutzer sehen. Und sie müssen sich fragen “Ist es das wirklich?”…
Denn: Traffic ist kostbar, Ressourcen sind kostbar, alles kostet Geld – selbst mit kostenlosen Tools. Wirklich.
Tests, die scheitern, sollte man wenigstens dazu nutzen daraus zu lernen – in Wirklichkeit will jedoch jeder lieber aus erfolgreichen Tests lernen.
Wie kann man aus einen schlechten Test lernen, wenn man die Ursachen (sprich die Hypothese) nicht kennt?
Man wird sagen “Menno, ich dachte, das funktioniert” (frustrierten Gesichtsausdruck nicht vergessen).
Das reicht aber nicht.
Tests ohne echte Hypothesen werden zu echten Problemen
Spätestens, wenn man mehrere solcher Verlegenheiten durchtestet, wird es ein Problem. Dann laufen Variante A1 und B1 gegen C1 und C2. Schnell wird sogar (auch aus Verlegenheit) ein echter multivariater Test daraus. Das Ergebnis sieht meist nicht besser aus (irgendwie so):
Bild 3: Noch mehr Zufälle auf einem Haufen machen es nicht besser
Nach wenigen Wochen Laufzeit wird dann einfach die Siegervariante online gestellt. Auch wenn sich meistens eine kleine Gruppe von Leuten bemüht, die Ergebnisse zu interpretieren, endet die Diskussion in einem kollektiven “Pfff….” und einer sagt irgendwann:
“Lasst uns einfach die Siegervariante ausrollen”.
Das ist dann der Todesstoß der Optimierung (auch wenn es einen Uplift gab), denn echte Optimierung endet mit einem Learning, d.h. alle Beteiligten (am besten die gesamte Organisation) lernen aus den Resultaten. Ihre Hypothese wird validiert – oder widerlegt. Beider ist wichtig zu wissen. Das funktioniert aber – wie schon gesagt – nur bei einer echten Hypothese.
Verlegenheitstester und Ausprobierer nehmen sich diese Chance und vergeuden viel Zeit, Traffic, Ressourcen, und verpassen die Chance aus Tests zu lernen.
Bild 4: Aus den Verlierervarianten kann man nur lernen, wenn man weiß, warum sie nicht funktionieren
Optimieren ist nicht Ausprobieren!
Die Probleme von Tests mit fehlenden oder schwachen Hypothesen sind zusammenfassend:
- Zufallsresultate, die oft nicht signifikante Unterschiede produzieren (kein hohes Konfidenzlevel)
- Tests müssen daher länger laufen als nötig
- Wenn Varianten gewinnen / verlieren, weiß niemand “Warum”
- Daraus lässt sich nicht lernen (und daher auch keine Anschlusstests ableiten)
- Die Mühe erzeugt im besten Fall einen kleinen Uplift, aber kein Wissen
- Um ehrlich zu sein war alles eine große Verschwendung von (sehr teuren) Ressourcen
Daher gilt:
Liebe Conversion SuperHEROES, bitte stellt Eure Hypothesen auf den Prüfstand, bevor ihr daraus ein Testkonzept / einen Testplan macht! Fragt Euch:
“Was ist der Grund dafür, dass das besser funkionieren könnte? Warum? Was passiert genau, wenn wir das verändern?”
Seid ehrlich zu Euch selbst, denn Traffic ist teuer, Zeit ist kostbar und Testing-Ressourcen wertvoll!
Kleine Zugabe: Die bessere Hypothese wäre…
Wer sich jetzt fragt, wie denn eine bessere Hypothese aussehen kann, dem möchte ich auf Basis der Button-Problematik von oben ein paar konkrete Beispiele nennen:
Bild 5) Beispielseite http://www.mytheresa.com/de-de/tribtoo-105-platform-pumps-155259.html
Beispiele für “oberflächliche” Hypothesen ohne echtes “Warum wären”:
- Ändere Buttonfarbe / -größe / -stil / -position
- Mach’ die Box mit dem Inhalt “hübscher”
- Platziere die alternativen Bilder unter dem Hauptbild
- …
So ließe sich schnell ein einfacher Test mit mehreren Varianten erzeugen. Doch hinter all diesen Veränderungen fällt es mehr oder weniger schwer, den wahren Grund aus Nutzersicht zu formulieren (“ich (der Nutzer) kaufe eher, wenn die Bilder links stehen…” WTF?).
Bessere Hypothesen (aus Nutzersicht -> mit Ableitung) sind:
- “685 € sind viel Geld – vielleicht kann ich irgendwo anders ein Schnäppchen machen” -> Zeige dem Nutzer, dass es diesen Schuh zu diesem Preis nur hier gibt, und die Wahrhscheinlichkeit für den Kauf (oder Nicht-Abbruch) steigt.
- “Brauche ich das wirklich?” -> Zeige dem Kunden, was die (emotionalen) Werte (Value Propositions) dieses Produktes sind um seinen Wunsch zu bestärken, dann wird er weniger zaudern und das Risiko des Abbruchs sinkt.
- “So teure Schuhe kaufe ich lieber dort, wo ich sie sehen kann…” -> Räume die wichtigsten Bedenken des Kunden vor dem Kauf aus (Häufige Fragen) und blende Hotline “above the fold” (steht zu tief) und Rückgabeoptionen prominenter ein.
Die Hauptaspekte dieser Thesen lassen sich unter den Überschriften:
- Stimulanz (Alleinstellung)
- Relevanz (Value Prosposition)
- Sicherheit (Bedenken ausräumen)
zusammenfassen. Alle diese (und noch viel mehr) Aspekte gibt es übrigens in dem Framework “Sieben Ebenen der Konversion”, das wir hier schon vor einiger Zeit zusammengefasst haben. Falls sich jemand fragt, wofür man ein Framework braucht: Um die Verlegenheitsphase und Ausprobiertests zu beenden, lassen sich mit dem Framework in einer Art Checkliste (so hoffe ich) bessere Hypothesen erzeugen. Das Framework wird hier im Blog erklärt (in einer etwas älteren Fassung) oder etwas konkreter und detallierter im Buch “zum Blog”.
Vielleicht hat ja einmal jemand Lust, die beiden Arten von Tests in ihrer Performance gegeneinander zu testen – eine Art Meta-Test.
Weitere Infos zu dem Thema:
5 grobe Testing-Fehler, die viel Geld kosten können
Checkliste: Die vier Erfolgssäulen der Conversion-Strategie
War das schon alles? Weitere 10 “Tödliche Fehler der Conversion Optimierung”
14 Kommentare
Axel Schröder,
Hallo Herr Morys,
danke für den tollen Beitrag. Eine Frage hätte ich noch.
In allen Berichten über Testing und Optimierung steht irgendwann der Satz “mit genügend Traffic” oder “zu wenig Traffic für saubere statistische Ergebnisse”. So oder zumindest so ähnlich.
Um es kurz zu machen: Ab welchen Pageimpressions pr Seite kann man von “genügend Traffic” sprechen? Ab welchen PI-Zahlen macht Testing wirklich Sinn, wenn man methodisch sauber arbeiten will? Sollten die PI in einem bestimmten Zeitintervall erreicht werden oder ist das letztlich egal (sind z.B. 1000 PI pro Tag gleich zu sehen wie 1000 PI pro Monat, Hauptsache 1000 PI)?
Ich freue mich auf Ihre Antwort!
Mit bestem Gruß,
Axel Schröder
André Morys,
Hallo Axel Schröder,
rein statistisch darf das Ergebnis einfach kein Zufallsprodukt sein. Dafür ist die Größe der “stichprobe” wichtig – also nicht die Pageimpressions sondern die Zahl der Conversions.
Ein Beispiel: Wenn man 200 Conversions (Aktionen, Bestellungen, Registireurngen, etc.) zur Verfügung hat und zwei Versionen einer Seite testet, dann hätte jede Seite bei gleicher Leistung 100 Conversions. Wenn jedoch eine Seite um 10% besser konvertiert sind es schon (#ähem #hüstel ich rechne mal nach) ca. 90 vs. 110 Conversions.
Die Frage lautet jetzt: Kann es Zufall sein, dass die eine Version 20 Conversions mehr hat als die andere?
Diese Zahl wird durch das Konfidenzlevel ausgedrückt und ist eine rein statistische Betrachtung. Es gibt dafür Tools, die das ganz präzise ausrechnen.
Wir rechnen mit der Daumenregel, dass wir mindestens 1.000 Conversions für einen Test brauchen, Test sollten nicht länger als vier bis sechs Wochen laufen.
Ich hoffe, das beantwortet die Frage ein wenig besser.
André Morys,
(PS: Ich bin gespannt bis der erste bemerkt, dass die Rechnung oben natürlich aus dem Kopf hingepfuscht ist…)
Axel Schröder,
Hallo Herr Morys,
vielen Dank für die Erläuterung.
Sie gehen von einem ganz anderen Ansatz aus, als ich zunächst vermutete. Ich dachte immer, ich hätte 1000 PI und bei einer CR von 2% eben 20 Conversions. Eine Testseite, die dann 30 schafft, ist mit 3% eben besser. Daher auch meine Frage nach dem Traffic und den PI.
Sie hingegen lassen die PI außer Acht und gehen von der Conversion selbst und ihrer Verteilung auf die zwei zu testenden Seiten aus.
Das ist für mich als statistischer Laie ein ganz neuer Denkanstoß – vielen Dank dafür!
Damit können auch Nischenseiten mit vergleichsweise wenig Traffic (in Ihrem Beispiel ca. 25 Conversionen / Tag, bei 2% CR ca. 1250 PI / Tag) sinnvoll testet werden.
Mit bestem Gruß,
Axel Schröder
UI-Check,
Hallo Herr Morys,
vielen Dank für diesen anregenden Artikel, wir sind ganz Ihrer Meinung. Viele Unternehmen oder Webseitenbetreiber überschätzen die Aussagekraft der von Ihnen erwähnten Tests. Was halten Sie persönlich von professionellen crowdgestützten Usability Tests?
Ich freue mich auf Ihr Feedback,
Anna vom UI-Check Team
André Morys,
Hallo Anna,
jeder Optimierer, der echte Nutzer beobachten kann, wird es einfacher haben gute Hypothesen aufzustellen. Dabei zählt meiner Meinung nach das möglichst authentische Erlebnis – ob dies über Remote-Tests möglich ist, kann ich noch nicht sagen da bislang dazu die Erfahrungen fehlen.
tom,
Wenn ich mir den ausführlichen und ernsthaft durchdachten Artikel ansehe incl. der Statistik (mit Quartilen) frage ich mich natürlich im Umkehrschluss -Ist die Kernaussage des Artikels:
“Macht es entweder vernünftig und dann am besten durch einen Fachmann wie mich oder lasst es bleiben es kostet nur Zeit und Geld und bringt euch nichts ?”
Ihr Schreibstil ist erfrischend, ehrlich und anregend. Bin auf Ihre Antwort gespannt.
PS: Psychologen beschäftigen sich während des Studiums zum Großteil mit dem Erstellen und Falsifizieren von Hypothesen. Sind diese also besser als andere Akademiker geeignet für diese Arbeit ?
Gruss Tom
André Morys,
Hallo Tom,
zur Kernaussage: Nein, das ist sie nicht, es wäre nur eine mögliche Option. Der Artikel versucht aber das Prinzip so zu veranschaulichen, dass jeder die Qualität seiner Tests verbessern kann
zum Schreibstil: Danke für das Feedback, ich versuche so zu schreiben wie ich denke 🙂
zum Psychologen: Stimmt, deshalb beschäftigen wir auch Psychologen – vor allem in der Testkonstruktion und Ergebnisinterpretation. Vor allem, weil es a) fundiertes Statistik Wissen braucht und b) den Zusammenhang mit qualitativen Methoden, z.B. User-Research. Deshalb sind Psychologen die besseren Statistiker.
Gruss zurück
Andre
Sonja Quirmbach,
Es ist wie im Matheunterricht:
Erst die Behauptung ordentlich formulieren, dann die Beweisführung starten. ;o)
Sehr gut beschrieben!
Thomas Henssler,
Super Artikel. Trifft den Nagel auf den Kopf. Danke!
Svitlana Olytska,
Ja, Herr Morys, Sie haben Recht, dass eine erfolgreiche Analyse und das Resultat der Testing völlig von echt gute Hypothese hängen. Selbstverständlich gibt es in eCommerce keinen Erfolg ohne das Ziel, dass ganz klar und erhabenes ist. Dank Ihrem Schreibstill ist Ihre Zusammenfassung besonders leicht zu annehmen und dann in der Arbeit zu benutzen. Trotz total positiven Eindruck von Ihren Artikel, muss ich aber zugeben dass die Graphiken und Diagrammen im ersten Teil des Beitrag sing schwer zu verstehen. Meine Meinung nach, wäre es besser die andere (mehr detaillierte und mit Shops verbundene) Beispiele zu benutzen.
Aber im Allgemeinen ist der Artikel echt super!
Volker Schnaars,
Toller Artikel. Sehr informativ. Das Buch ist bereits bestellt. Was mir an Ihren Beispielen: “Bessere Hypothesen (aus Nutzersicht -> mit Ableitung)” am Besten gefällt ist die zentrale Rolle die hier die Nutzersicht erkennbar spielt. Ich selbst bin ein überzeugter Verfechter des persona modelling als Ausgangsbasis für jedes nutzerzentrierte Marketing. Ich finde, Sie demonstrieren in Ihren Test-Cases sehr schön den Nutzen von personas für die Conversion-Optimierung.
Katharina Kuelper,
Leider fehlt noch immer Ebene 7: “Die Bewertung” aus der Serie “Die 7 Ebenen der Konversion”. Wird es die noch geben oder findet man das vollständige Framework nur im Buch?
André Morys,
Hallo Katharina, das stimmt, zur Zeit wird dies nur im Buch beschrieben. Sobald ich Zeit finde werden aber alle Ebenen noch einmal aktualisiert und anhand von Videos konkretisiert.