Agile Produktwelt / Produktmanagement

Agiles Optimieren in der Praxis: Nacheinander, gleichzeitig oder multivariat testen?

Thorsten Barth
 Lesezeit: 11 Minuten    
2
arrow_down
2

Wohl jeder, der ein Online Business kontinuierlich optimiert, kennt es: Man entwickelt einen umfangreichen Katalog von Hypothesen, großen Optimierungskonzepten und auch kleinen Ideen, die in Tests verprobt werden wollen. Nun hängt die Effektivität der gesamten Optimierungs-Arbeit sowohl von der Qualität der Optimierungen, als auch vom “Durchsatz” ab – ein Jahr kann da auf einmal sehr kurz erscheinen… Früher oder später kommt also die Frage auf, ob man nicht mehrere Tests gleichzeitig starten und Optimierungen bündeln kann, und was die richtige Reihenfolge ist, zu optimalen Ergebnissen und Erkenntnissen zu gelangen.

Die Optimierung eines Online-Erlebnisses ähnelt der Veränderung eines Ökosystems. Jede Änderung an einer Stelle beeinflusst Nutzer auf mehreren Ebenen und damit das Gesamtsystem. Bereits die Werbeanzeige entscheidet darüber, wer sie anklickt und wer nicht – und beeinflusst, was die Nutzer auf der Landing Page erwarten – und so zieht es sich weiter durch bis zum letzten Klick und sogar zum Folgebesuch…

Was ist also die richtige Strategie für agiles Optimieren, um mehrere Conversion Tests durchzuführen, deren Ergebnisse sich unter Umständen beeinflussen?

  • Soll ich erst „vorne“ oder erst „hinten“ testen?
  • Wie beeeinflussen sich parallel laufende Tests an verschiedenen Stellen? Ist es überhaupt methodisch richtig, mehrere Tests parallel zu starten? Oder verfälsche ich damit meine Ergebnisse?
  • Wann ist ein Multivariater Test angebracht, wann nicht?
  • Hätte die neue Variante, die im letzten Test leider verloren hat, gewonnen, wenn dazu passende Änderungen im restlichen Shop mit getestet worden wären?
  • Optimiere ich mich an ein „lokales Maximum“ heran, lasse aber die wahren Potenziale brach liegen?

Ich werde in diesem Artikel nicht alle diese Fragen beantworten, aber zumindest rechnen wir einmal gemeinsam durch, wie sich Unterschiede in der Testplanung auf die nackten Zahlen – und im extremen Fall auf die Entscheidung für eine Kombination – auswirken.

Jeder Eindruck hat kurzfristige und langfristige Wirkung – also auch jede Änderung

Zunächst einmal möchte ich ein Ausgangs-Szenario entwickeln. Stellen wir uns dazu einen Online-Shop vor. Obwohl echte Customer Journeys sowieso nicht linear sind, reicht es für unser Rechenbeispiel aus, es stark vereinfacht zu betrachten:

  1. Landing Page
  2. Shop: Mehrere Page Impressions, Aktionen usw.
  3. Warenkorb und Checkout
  4. Bestellung erfolgt!

Zunächst der Status Quo – ohne Tests, ohne Optimierungen:

Von allen Benutzern, die die Landing Page sehen, klickt bereits nur ein Teil weiter in den Shop. Es kann eine Click-Through-Rate (CTR) gemessen werden. Wenn wir 20% CTR annehmen, werden wir also von 80% der Nutzer nicht erfahren, wie die restlichen Stationen der Website auf sie gewirkt hätten, da sie nur die Landing Page gesehen haben. Bei den 20% der Nutzer, die jedoch weiterklicken, hinterlässt die Landing Page zudem einen Eindruck, der sich auf ihre Motivation, ihre Erwartungshaltung, ihre Annahmen über den Anbieter usw. auswirkt.

So geht es im gesamten Shop weiter. Hier wirkt sich, neben allen anderen Faktoren, auch der durch die Landing Page vermittelte Eindruck aus. Ein Teil der Nutzer bricht ab, der andere Teil klickt weiter und wird durch die Eindrücke und Inhalte weiter beeinflusst. Im dritten Schritt wirken sich also auch die durch die beiden vorangegangenen Schritte gewonnenen Eindrücke auf die eigentliche Kaufentscheidung aus. In welchem Maß und auf welche Art dies passiert, kann von Fall zu Fall sehr stark unterschiedlich sein.

Kleine Änderung – Vielschichtige Wirkung

Ändere ich nun die Landing Page, passieren zwei Dinge:

  1. Die Landing Page „filtert“ unterschiedliche Besucher.
    Ein Teil der Nutzer, die vorher weiter geklickt hätten, bricht ab. Im Gegenzug klickt ein Teil der Nutzer weiter, die mit der „alten“ Landing Page vielleicht abgebrochen hätten. Das Resultat kann als Click-Through-Rate quantifiziert werden – jedoch sagt diese nichts darüber aus, ob nun vielleicht ganz andere Nutzer angesprochen werden, die sich nachfolgend auch unterschiedlich verhalten und letztlich entscheiden werden.
  2. Die Landing Page beeinflusst die Nutzer, die weiter klicken, unterschiedlich.
    Beide Landing Pages hinterlassen unterschiedliche Eindrücke und Erwartungshaltungen bei den Nutzern, die sich ebenfalls auf das Kaufverhalten auswirken. Das kann eher subtil sein, aber auch sehr offensichtlich wie z.B. unterschiedlich beworbene Produkte, oder eine Rabatt-Aktion in der B-Variante – hier leuchtet es ein, dass Nutzer sich unterschiedlich verhalten, werden – selbst, wenn beide Landing Pages eine identische CTR (als Zahl!) aufweisen.

Kurz und gut: Wenn ich „vorne“ etwas ändere, erhalte ich „weiter hinten“ andere Nutzer, und diese haben auch ggf. etwas anderes im Kopf. Alles, was ich „weiter hinten“ teste, analysiere oder optimiere, ist davon abhängig.

Aber gilt das eigentlich umgekehrt ebenso? Hängt das Ergebnis von Tests auf der Landing Page denn vom Shop dahinter ab?

Naja, ich habe ja jetzt die Frage schon suggestiv so formuliert, dass die Antwort selbstverständlich „Ja“ lautet – schließlich optimieren wir ja eigentlich nicht auf die Click Through Rate, sondern zumindest auf Bestellungen, besser auf Umsatz oder Gewinn, niedrige Retourenquote und am Ende rundum zufriedene Kunden, die erneut bestellen und den Shop weiter empfehlen – auch wenn es nicht immer möglich ist, all das genau zu messen.

Es kommt durchaus vor, dass eine Strecke, die ich für eine bestimmte Nutzergruppe mit emotional passenden Elementen und Argumenten angereichert habe – mit einem Uplift von, sagen wir, 5% – bei einer anderen Zusammensetzung des Traffics sogar schlechter abschneidet, als die „alte“, die klar und „ohne Schnörkel“ war.

So. Dies alles nur, um noch einmal die eigentlich bereits bekannten und selbstverständlichen Zusammenhänge in Erinnerung zu rufen: Wir optimieren ein Business, ein komplexes Ökosystem, nicht eine einzelne Anzeige, Seite oder einen Button!

Bleiben wir nun bei dem genannten Szenario, und rechnen es einmal durch. Dafür habe ich eine Tabelle erstellt, in der ich frei erfundene Konversionsraten für die unterschiedlichen Fälle eingetragen habe.

Nehmen wir aber an, dass es sich hier um die „tatsächlichen“, gegebenen Zahlen der jeweiligen Kombinationen unter gewissen Rahmenbedingungen handelt – egal, ob getestet wird, oder nicht.

Szenario 1: Unabhängig Konversionsraten

Szenario - 1 Unabhängige-Konversionsraten

So. Nun zur eigentlichen Frage.

Gehen wir einmal davon aus, dass wir am Ausgangspunkt sind. Wir kennen die Konversionsrate für die Variante „1A“. Wie wirkt sich die Teststrategie darauf aus, welche Erkenntnisse gewonnen werden, und welche Kombination am Ende online ist?

Szenario - 1 - Teststrategie

Klar – wenn keinerlei Abhängigkeiten bestehen, ist die Reihenfolge der Tests egal, man kann diese auch gleichzeitig oder multivariat durchführen und wird immer zum gleichen Ergebnis kommen.

Szenario 2: Abhängigkeit, aber in die gleiche Richtung

Nun nehmen wir einmal an, die Kombination der beiden Alternativ-Versionen passt so gut zusammen, dass sie einen zusätzlichen Conversion-Boost auslöst.

Szenario - 2 - Abhängigkeit aber in die gleiche Richtung

Auch hier untersuchen wir wieder, wie sich die Reihenfolge bzw. Strategie auf das Ergebnis auswirkt:

Szenario - 2 - Teststrategie

OK, der Fall ist immer noch einfach – jeder Test ermittelt den gleichen Gewinner, egal unter welchen Bedingungen. So gelangt man auch immer zum gleichen Ziel, da man keine falschen Entscheidungen trifft, auch wenn man die entstehende Konversionsrate aus der Kombination nicht immer sofort kennt.

Szenario 3: Die Kombination der Varianten beeinflusst sich negativ

Wie sieht es aus, wenn die geänderte Checkout-Variante sich nur bei Besuchern positiv auswirkt, die die erste Landing Page gesehen haben, während sie andere Kunden verprellt?

Ich muss an dieser Stelle noch einmal darauf hinweisen, dass meine Zahlen zwar frei erfunden und bewusst extrem gewählt sind, es aber in der Praxis durchaus Fälle geben kann, bei denen derartige Abhängigkeiten bestehen – stellen wir uns z.B. einfach vor, dass auf der Landing Page 2 ein Versprechen (z.B. Rabatt-Aktion) gemacht wird, das in Checkout A einwandfrei funktioniert, während in Checkout B die Rabatt-Aktion nicht mehr aufzufinden ist.

Szenario - 3 - Die Kombination der Varianten beeinflusst sich negativ

Was passiert nun, wenn ich teste?

Strategie a) ermittelt zunächst für die Landing Page 2 einen Uplift von +20%. Der Checkout-Test wird auf LP2 durchgeführt und ergibt, dass die neue Version abgestraft wird, also bleibt Landing Page 2 mit Checkout A online.

Bei Strategie b) wird man zunächst herausfinden, dass der Checkout 2 ein wenig besser funktioniert, diesen online schalten und daraufhin Landing Page 2 mit -18% für den eindeutigen Verlierer halten, was Bestellungen/Revenue angeht. Wenn man schlau ist, wird man die Ergebnisse hinterfragen, weil ihre Click-Through-Rate ebenso hoch oder noch höher als die von Landing Page 1 ist.

Bei Strategie c) ist zunächst alles bestens – sobald die unglückliche Kombination „2B“ online geschaltet wird, zeigt sich jedoch schnell, dass ein Problem vorliegt, und man wird nach den Ursachen suchen.

Bei Strategie d) wird des nun spannend. Hier müssen wir genauer rechnen: Zum Testzeitpunkt des LP-Tests ist der Checkout-Test ebenfalls online, so dass eine Hälfte der getesteten Benutzer beider Landing Page Varianten Checkout A sieht (sofern sie bis dort durchklicken), und die andere Hälfte Checkout B. Es sind also alle vier Kombinationen gleichzeitig online, ganz wie bei einem multivariaten Test (MVT). Bei der Auswertung der Konversionsrate der beiden Landing Pages wird jedoch die Information, welchen Checkout der Nutzer gesehen hat, nicht berücksichtigt – so ergibt sich bei der Auswertung ein Mittelwert beider Konversionsraten. Dieser liegt für beide Landing Pages bei 5,25%. Der Test wird also keinen Gewinner für die Landing Page ermitteln. Der Mittelwert für die Konversionsraten der Checkout-Variante A liegt bei 5,5%, für Checkout B bei 5,0%. Das ergibt einen Uplift von 10% für Checkout A. Das Ergebnis: Der neue Checkout ist schlechter, die neue Landing-Page bringt keinen Vorteil, man lässt alles beim Alten: Uplift: 0%.

Der multivariate Test, also Strategie e) ergibt für die Kombination 2A einen Uplift von 20%.

Szenario - 3 - Teststrategie

Man sieht an diesen Beispielen: Sobald Abhängigkeiten zwischen Varianten bestehen, die dazu führen, dass Entscheidungen für oder gegen eine Variante anders ausfallen, je nachdem, ob man andere Tests bereits durchgeführt hat oder nicht, ist ein MVT das einzige Setup, das das Ergebnis nicht dem Zufall überlässt – denn Strategie a) hat hier nur zufällig zu einem besseren Resultat geführt als Strategie b).

Das heißt natürlich nicht, dass man jetzt nur noch multivariat testen und dabei möglichst viele Hypothesen in einem einzigen großen Test unterbringen sollte. In der Praxis bildet man kontinuierlich Hypothesen und Optimierungskonzepte, wobei man die Resultate vorangegangener Experimente, aber auch neue Erkenntnisse aus der qualitativen Marktforschung und der Webanalyse, Kampagnen und andere aktuelle Einflüsse berücksichtigt. Welche Änderungen man gleichzeitig, nacheinander oder auch multivariat testet, muss man immer noch selbst entscheiden. Dieser Artikel soll bei der Beantwortung der Frage helfen, was diese Möglichkeiten für die Auswertung der Tests bedeuten, und damit ggf. eine Entscheidungs- oder Argumentationshilfe sein.

Hier noch einmal ein paar Thesen:

  • Wenn man nur nach Konversionsrate oder Revenue-Steigerung auswertet, kann man vorher nicht sagen, ob es besser ist, zuerst „vorne“ oder „hinten“ zu testen.
  • Führt man zwei Tests an verschiedenen Stellen einer Strecke gleichzeitig (unabhängig voneinander) durch, ist dies nicht per se schlechter oder besser, als wenn man sie nacheinander durchführt. Beide Tests ergeben zwar ggf. unterschiedliche Uplifts, diese sind jedoch nicht per se falsch, sondern bezogen auf die Mittelwerte des jeweils anderen Tests „richtig“.
  • Am Ende zählt nicht der Uplift einer einzelnen Maßnahme, sondern die Verbesserung, die durch die Gesamtheit aller Maßnahmen erreicht wurde. Dabei spielt auch eine Rolle, das Test-Setup nicht komplexer zu gestalten als nötig, um die Zeit und den Traffic möglichst effizient für weitere Experimente einsetzen zu können.
  • Eine Entscheidung, in welcher Reihenfolge man testet, ist auch „Intuitionssache“. Es spielt dabei u.a. die Frage eine Rolle, wo man kurzfristig den höheren Uplift erwartet, der bereits nach Abschluss des Experiements realisiert werden kann, aber auch wo der Erkenntnisgewinn für weitere Optimierungen am größten ist, usw.
  • Wenn starke, ggf. gegenläufige Abhängigkeiten der getesteten Varianten vermutet werden, kann ein MVT auch dann Sinn machen, wenn die Faktoren nicht auf der gleichen Seite „zu sehen“ sind.
  • Ein multivariates Setup erfordert nicht per se mehr Traffic, um zu brauchbaren Resultaten zu führen, als eine komplette Serie einzelner Tests. Jedoch sollte eine bestimmte Testdauer eines einzelnen Experiments nicht überschritten werden.

Kann ich nicht noch mehr herausholen?

Noch ein weiterer Aspekt ist übrigens in unserem dritten Szenario bemerkenswert: Eventuell sind 20% nicht der maximal mögliche Uplift. Falls nämlich die beiden Landing Pages tatsächlich unterschiedliche Nutzertypen dazu veranlassen, die Reise in den Shop mit einem Klick weiter zu führen, könnte man versuchen, über eine Segmentierung herauszufinden, ob man bereits vor dem Aufruf der Landing Page die Nutzergruppen für die beiden unterschiedlichen Landingpage-Varianten (und damit im Beispiel auch für die dazu passenden Checkout-Varianten) voneinander unterscheiden und so mit Hilfe von Targeting, oder z.B. über eine Zuordnung der Anzeigen zu den Landing Pages die jeweils passende Version zeigen kann. In einem solchen Fall wäre am Ende ein noch höherer Uplift erreichbar. Auf das Thema Segmentierung werde ich in einem separaten Artikel demnächst eingehen.

Über den Autor

Thorsten Barth

Vorstand

Thorsten Barth hat einen Hintergrund als Software-Entwickler und arbeitet mit Leidenschaft an der Schnittstelle zwischen Menschen, Daten und Prozessen. Als Vorstand von konversionsKRAFT ist er zuständig für alle Themen der Softwareintegration - Analytics, Testing, Targeting, Recommendations, Search, E-Commerce-Plattformen, Content Management Systeme uvm. Aktuelle Interessensgebiete sind u.a. Big Data, RTB, User Profiling und die damit verbundenen Targeting-Möglichkeiten.
Frage zum Artikel? Frag den Autor!

Welche Frage hast du an den Autor?

17 [contact-form-7 id="53320" title="Autorkontakt"]

2 Kommentare

  1. Gravatar

    David Kuruc,

    Hallo Thorsten,

    sehr intelligenter Artikel der schön aufgezeigt, dass man auf Websites nicht von unabhängigen Variablen ausgehen kann. Gefallen hat mir auch die Differenzierung bezüglich der Test-Methoden und Versuchsplanung. Sind A/B oder Multivariate Tests besser ist eigentlich eine alberne Frage.
    Denke man sollte sich eher auf solche nüchterne Analysen stützen bei der Planung von Tests als auf Intuition. Zumal dies kein kontrolliertes Umfeld ist wo Intuition zu zuverlässigen Ergebnissen führen wie ja x-Untersuchungen zum Thema Expertenintuition zeigen. Wobei ich mich auch manchmal dabei ertappe auf meine Intuition zu hören die mir sagt im Checkout anzufangen und erst die „Usability-Hygienefaktoren lösen“ – was auch sinnvoll sein kann aber gewisse Test belehren einem dann eben doch wieder, dass was auf einer Seite eine Usability-Hürde darstellt für ein anderes Publikum scheinbar Freudentaumel auslösen kann. Letztlich ist man aber dann eben doch auf Heuristiken und Annahmen angewiesen und muss auch Kompromisse eingehen um vorwärts zu machen – denn die Ressourcen Zeit ist immer knapp und manchmal hilft einem der Zufall auch 😉

    VG

    David

  2. Gravatar

    Thorsten Barth,

    Hallo David,

    ja, so sehe ich es auch… Und genau deine Überlegungen sind es doch, wo es sich auszahlt, Erfahrung und Intuition (im Optimalfall ist man dabei zu zweit oder zu dritt) mit fundiertem Wissen über die Zusammenhänge zu kombinieren. Bewusstes Eingehen von Kompromissen da, wo man das Risiko, etwas wichtiges zu übersehen, klein ist im Verhältnis zum Output.

    Man muss ja unterschiedliche Ziele und Faktoren ständig abwägen. Kurzfristige Umsetzbarkeit, maximaler Erkenntnisgewinn, Verbreiterung oder Verlagerung des angesprochenen Publikums, um mehr Futter zum Testen “weiter hinten” zu haben, Aufwand für den Test, verfügbarer Traffic, vermutete Abhängigkeiten…

    In deinem Beispiel könnte man ja wirklich zunächst die Killerschwachstellen hinten beseitigen. Wenn man dann vorne “Audience” und “Intent” manipuliert hat, kann man ja später immer noch mal an der gleichen Baustelle weiter machen. Ich denke, es ist generell sinnvoll, sich nicht im Projekt-Stil der Reihe nach mit einer Baustelle nach der andereren zu beschäftigen, sondern immer systemisch zu denken.

    Gruß
    Thorsten

Schreibe einen Kommentar

Teile diesen Artikel

Kostenlos anmelden