Case Study zu KPIs beim A/B-Testing: Conversion, Retouren, Deckungsbeitrag
Welche KPI zählt beim A/B-Testing? Wer allein die Conversions betrachtet und Retouren oder den Deckungsbeitrag außer Acht lässt, der denkt nicht weit genug. Eine andere Variante könnte trotz geringerer Conversions mehr Umsatz erzielen. Dafür gibt es zum Glück in fast allen Testingtools ein Revenue-Tracking. Doch reicht das aus?
Ein mögliches Szenario könnte sein, dass jene Konsumenten, die “vorne” im Bestellprozess emotional angestachelt werden, weiter hinten umso kritischer schauen werden. Im Sinne von schlechtem Erwartungsmanagement könnte eine Über-Optimierung sogar höhere Retourenquoten zur Folge haben. Eine vorschnell als Gewinner (im Sinne der Conversion) gefeierte Version könnte sich zum Deckungsbeitrag-Albtraum entwickeln, wenn sie zu viele Retouren erzeugt.
In einer Case Study mit unseren Business-Intelligence-Partnern von nextel haben wir untersucht, wie Retouren im A/B-Tests gemessen und analysiert werden können. Zum Glück war es technologisch kein Hexenwerk. Es braucht nur die richtigen Daten an der richtigen Stelle sowie das nötige Handwerkszeug, um sie zu analysieren.
Den Case haben wir auf dem ConversionSUMMIT in Frankfurt vorgestellt. Die Folien hierzu finden sich weiter unten in diesem Artikel.
Das Test-Setup
Wir haben auf Basis der Originalversion drei optimierte Varianten abgeleitet.
a) Template-Optimierung: Bei gleichen Inhalten haben wir die Darstellung der Inhalte im Template verbessert
b) Fokus “Discount”: Um gezielt bestimmte Kundentypen anzusprechen, haben wir eine Preis-Fokus-Version angefertigt
c) Fokus “Qualität”: Um erneut andere Kundentypen anzusprechen, haben wir die Produktfeatures im Bild aufgezählt und Details im Bild geändert
Die beiden wichtigsten Hypothesen des Tests lauteten:
A) Emotional fokussierte Versionen verkaufen besser
B) Unterschiedliche Varianten provozieren unterschiedliches Retourenverhalten
Um die beiden Hypothesen validieren zu können, arbeitete das Testingtool mit Warenwirtschaft und Data Warehouse / Business Intelligence zusammen. Das komplette Setup sah wie folgt aus:
Die große Frage lautet: Geht der Optimierungsschuss nach hinten los, weil die Überbetonung der Produktvorzüge mehr Retouren erzeugt? Oder sind die Varianten der A/B-Tests “resistent” gegen das Damokles-Schwert der Warenrückgabe?
Die Resultate
Zunächst: Die Optimierung auf Basis der gemessenen Conversions funktioniert. Die Siegervariante hatte 244% Uplift auf die Add-to-Cart-Rate, also die Micro-Conversion, die unmittelbar auf der “emotional optimierten” Seite selbst passiert. Davon bleiben 43% mehr Bestellungen bis durch den Checkout übrig.
Ergebnis 1: Emotionales Verkaufen funktioniert
- Das Schaffen von Anreizen (Value Propositions) hat den größten Effekt auf den Uplift
- Add-to-Cart Conversion ist 244% höher als bei der Control
- 43% mehr Orders dieses Schuhs gemessen im Warenwirtschaftssystem
Wichtige Learnings:
- Im Testingtool werden alle Conversions gemessen (auch die, die einen anderen Schuh kauften)
- Filter explizit auf diesen Schuh sind schwer umsetzbar
- Daten aus dem Warenwirtschaftssystem sind präziser als die aus dem Testingtool
Ergebnis 2: Optimierung hat Einfluss auf Retourenquote
Doch wie wirken sich die Varianten der A/B-Tests auf das Retourenverhalten aus? Die Analyse zeigt, dass es sehr starke Auswirkungen gibt:
- Optimierte Varianten provozieren höhere Retourenquote
- Die Gewinnervariante hat auch die höchste Retourenquote
- Fast 3 x mehr Retouren im Vergleich zur Control-Version
Wichtige Learnings:
- Shop-Optimierung ohne Kontrolle der KPI “Retouren” kann gefährlich werden
- Retourenquote als Optimierungsziel im (Fashion-) E-Commerce?
“Die Party wäre hier zu Ende gewesen”, sagte Michael vom Sondern, CEO von nextel, “hätten wir nicht ganz genau auf den Deckungsbeitrag geschaut.”
Denn: Eine niedrige Retourenquote ist ja nicht das endgültige Ziel der Optimierung. Am Ende zählte die daraus resultierende KPI des Deckungsbeitrags. Und der sah wie folgt aus:
Ergebnis 3:
- Die Preisversion zog tatsächlich andere Käufertypen an, bei denen es zu einigen Stornierungen kam.
- Teilweise wurden Vorkasse-Bestellungen nicht gezahlt – daher kam es zum niedrigsten Deckungsbeitrag.
- Die Siegervariante hatte zwar die meisten Retouren – in der Betrachtung des Deckungsbeitrags blieben von den 43% Order-Uplift noch 22% Deckungsbeitrags-Uplift übrig.
Wichtige Learnings:
- Emotionalität hat signifikante Auswirkung auf Retouren
- Alle Daten kennen (Warenwirtschaft miteinbeziehen!)
- Keine voreiligen Schlüsse ziehen
- Auf den Deckungsbeitrag insgesamt schauen
- Web Analyse & Testing feat. Business Intelligence = mehr Transparenz
Der komplette Vortrag bei Slideshare:
7 Kommentare
Julian Kleinknecht,
Sehr interessanter Testaufbau und Ergebnisse! Ich habe eine kurze Frage: Wurde der Test denn für alle Produkte oder nur für den einen Schuh durchgeführt?
Beim zweiten Fall wird es wohl kaum signifikante Ergebnisse gegeben haben, oder verkauft sich dieser eine Schuh so gut? Falls Template übergreifend getestet wurde, würde mich interessieren, auf welche Weise die Vorteile im Variante “Fokus Qualität” gespeichert wurden. Die Bulletpoint scheinen ja nicht für alle Schuhe im Quelltext vorhanden zu sein. Jedenfalls habe ich sie bei meinem kurzen Versuch nicht gefunden.
André Morys,
Hallo Julian, es gab genug Traffic, Stichprobe – und auch Kontrast – um ein Konfidenzlevel von >95% zu erreichen obwohl wirklich ganz dezidiert nur dieses Produkt getestet wurde.
Thomas Henssler,
Wie kannst du dir sicher sein, dass nicht genau die Abweichung von der Standard-Darstellung verantwortlich ist? … also quasi nicht nur Kanibalisierungseffekte eingetreten sind.
André Morys,
Hallo Thomas, genau deshalb ja die inkrementelle Veränderung der Varianten (oder verstehe ich die Frage nicht?)
Roland Schäfer,
Vielen Dank für die wirklich interessanten Einblicke!
Morten,
Sehr interessanter Artikel!
Dennoch frage ich mich, warum die aktuellen Produktdetailseiten auf Kickz.de (Stand Feb. 2015) am ehesten aussehen wie die urpsrüngliche Control-Variante aus dem Test – und damit eher eine typische Shop-Ansicht. Oder ist diese Einschätzung falsch? Sie haben nach meinem Eindruck eigentlich gar nichts mit der angeblich optimalen Variante “Qualität” gemein.
Wahrscheinlich stelle ich eine ähnliche Frage wie Thomas über mir: Ging es bei den Studienergebnissen wirklich nur um dieses eine spezielle Produkt? Und ist diese Art der Produktdarstellung daher gar nicht auf andere Produkte im Online-Shop 1:1 übertragbar? Denn wenn die Ergebnisse doch so eindeutig wären, wie in der Studie suggeriert, müssten dann nicht alle Produkte so wie in der Gewinner-Variante dargestellt werden?
Über eine Einschätzung würde ich mich freuen!
André Morys,
Hallo Morten, der Test bezog sich nur auf dieses eine Produkt. Man kann es einen “strategischen” Test nennen. Außerdem ging es und ja nicht nur um die Optimierung sondern auch darum, ein bestimmtes Klientel anzulocken. Ob und welche Varianten ein Unternehmen nach einem solchen Test umsetzt – darauf haben wir keinen Einfluss. Tatsächlich würde hinter der Umsetzung auch eine recht große Investitions stehen – alle Fotos und Teile des Shop-Templates müssten erneuert werden.