Experimentation

A/B-Test Hypothesen – Wie ein kleines Detail über Erfolg und Misserfolg entscheidet

Max Freund

11. Dezember 2014, Lesezeit: 7 Minuten

Kein Test mehr ohne Hypothese, richtig? Denn die ist für einen erfolgreichen Test entscheidend. Aber gehören Sie auch zu denjenigen, die der Meinung sind, dass die reine Existenz einer Hypothese ein Testkonzept rechtfertigt?

Heute möchte ich ein Thema aufgreifen, dass in letzter Zeit viel zu kurz kommt. Und zwar das Erstellen von nutzerorientierten Hypothesen auf Basis eines Frameworks. Denn nur so schaffen Sie es starke Testkonzepte zu entwickeln, die nicht nur Ihre Kollegen und Chefs, sondern auch Ihre Konsumenten überzeugen!

Aber mal von vorne

Ein wesentlicher Bestandteil eines jeden Testkonzept ist die Hypothese. War vor einigen Jahren fast ausschließlich die subjektive Empfindung und das Bauchgefühl entscheidend, sind sich inzwischen die meisten Test-Verantwortlichen über die Wichtigkeit einer Hypothese bewusst.

Problematisch wird es allerdings, wenn die Hypothese nur als Mittel benutzt wird um eigene Testideen zu pushen.

Und das klingt dann ungefähr so:

PM: „Chef, ich würde die Trust-Elemente im Warenkorb größer machen! Die sieht man ja kaum!”

Chef: „Klasse Idee, wie lautet die Hypothese?“

PM: „Ähhhh, ja, also größere Elemente erzeugen mehr Aufmerksamkeit und der Nutzer fühlt sich dann sicherer!“

Chef: „Natürlich, das geht mir auch immer so. Sehr gut, so machen wir das!“

Klingt eigentlich erst mal gar nicht so verkehrt, oder?

Das Problem: Fehlende Qualität bei der Hypothesenerstellung

Der Knackpunkt dabei ist, dass die Hypothese generiert wurde, um die Testidee zu bestätigen – aber erst, nachdem es die Testidee schon gegeben hatte. Dabei sollte es umgedreht sein. Denn nur so lässt sich sicherstellen, dass die Testidee eine saubere Grundlage besitzt.

A-B-Testing nach Schema F — Viele Test werden auf ungefähr diese Art und Weise entwickelt

Testhypothesen sollten in erster Linie auf dem Kaufentscheidungsprozess der Konsumenten beruhen, und nicht auf persönlichen Annahmen, Vorgaben oder Best-Practices der Wettbewerber.

Zwar darf nicht bezweifelt werden, dass auch auf diesem Weg Erfolge erzielt werden können, dennoch wird man langfristig Probleme bekommen. Denn die Hypothese stützt zwar die Testidee, beantwortet aber oft nicht die Fragen im Kopf des Konsumenten.

Und spätestens wenn alle Low Hanging Fruits abgeerntet sind und das Potenzial erschöpft ist – wird es knifflig.

Nutzerfragen als Basis zur Hypothesenbildung

Wenn man diesen Gedanken fortführt, stellt man fest, dass es nicht nur die Hypothesen sind, sondern die Fragen im Kopf des Nutzers, auf die es ankommt.

Schauen wir uns den folgenden Warenkorb eines relativ bekannten E-Commerce-Unternehmens an:

Gehen wir davon aus, dass wir nicht denken würden er wäre perfekt – ist ja schließlich von Amazon – dann kann ich mir gut vorstellen, dass viele Conversion-Optimierer auf den ersten Blick einige Punkte anzumerken hätten:

Warenkorb wirkt unaufgeräumt
Sehr textlastig/überladen
Keine Angabe von Versandkosten
Keine Lieferzeit
Keine Trust-Elemente
Farbe der CTA nicht eindeutig
etc.

Da kommen schon ein paar Dinge zusammen (ich bin sicher es lässt sich noch mehr finden) woraus man hervorragend Testkonzepte entwickeln kann.

Aber sind diese Elemente wirklich relevant, oder sind es nur oberflächliche Details, die überhaupt keinen (merklichen) Einfluss auf die Kaufentscheidung haben?

An dieser Stelle sollten wir uns besser folgende Fragen stellen:

Ist die Unübersichtlichkeit wirklich ein Problem?
Hält das fehlende Trust-Symbol davon ab, hier zu kaufen?
Wie wichtig ist die Angabe von Lieferzeiten für Besucher des Amazon-Warenkorbs?
Und wie findet man heraus, welche Faktoren wirklich wichtig sind?

Mit System zu mehr Uplift

Die Königsdisziplin heißt: Konsumenten verstehen.

Und wie geht das? Wie finden wir heraus, was sich die Menschen fragen, ohne dabei Gefahr zu laufen einfach zu spekulieren?

Eine kostspielige Möglichkeit wäre es, sie in ein Labor zu setzen, mit psychologisch durchoptimierten Verhaltensfragen zu konfrontieren oder mittels Eye-Tracking oder Magnetresonanztomographen den Kaufprozess zu durchleuchten.

Da dies wohl leider nicht immer möglich ist, bleibt noch eine Option die Werbeprofis schon seit vielen Jahren gebrauchen. Und zwar der Einsatz diverser Verhaltensmodelle, wie zum Beispiel:

das 7-Ebenen-Modell von André Morys,
das Lift-Modell von Widerfunnel,
BJ Fogg’s Behaviour Modell,
oder das Rubikonmodell der Handlungsphasen

Angewendet lässt sich mithilfe dieser Modelle das Verhalten von Konsumenten in bestimmten Situationen des Kaufprozesses analysieren. Dies gibt uns die Möglichkeit Entscheidungen und Fragen im Kopf der Nutzer einzugrenzen und nachvollziehbarer zu machen. Die Hypothese erhält einen Bezug zum inneren Dialog des Besucher – wir testen genauer und effektiver.

Praxisbeispiel Amazon

Angewendet auf die oben bereits gezeigte Grafik, haben wir also einen neuen Schritt im Prozess der Testentwicklung:

A-B-Testing mit nutzerorientierter Hypothese — Idealerweise wird vor der Hypothese die Nutzerfrage gestellt.

Gut, versuchen wir diesen Ablauf am Beispiel von Amazons Warenkorb:

#1: Der Auslöser:

Ein schönes Beispiel für diesen Blogpost finden 🙂

#2: Nutzerfrage definieren:

Der Warenkorb ist bei Amazon nicht klassisch vor dem Checkout eingebunden, sondern losgelöst. Der Nutzer kann über zwei Wege dorthin gelangen (ich hoffe, es wurde keiner übersehen):

Er hat bereits einen oder mehrere Artikel im Warenkorb und klickt irgendwo auf der Seite im Menü auf den Punkt „Warenkorb ansehen“.
Er hat gerade einen Artikel in den Warenkorb gelegt und klickt anschließend auf den Button im ersten Checkout-Schritt „Warenkorb bearbeiten“.

Bei Amazon werden zudem Artikel im Warenkorb sehr lange gespeichert. Einem Nutzer werden also ggf. Dinge gezeigt, die sich gar nicht auf die aktuelle Kaufabsicht beziehen.

Bezugnehmend auf das 7-Ebenen-Modell kann man sagen, dass bei den meisten Anbietern die Ebenen Vertrauen und Sicherheit im Warenkorb entscheidend sind. Also zum Beispiel Fragen nach dem Bestellrisiko, Kundenservice, Garantie, etc.

Bei Amazon ist das augenscheinlich nicht so. Diese Dinge werden bereits vorher beantwortet. Nutzer im Warenkorb sind dort nur, um ausgewählte Artikel noch einmal zu überprüfen. Wir bewegen uns also nicht auf den Ebenen Vertrauen und Sicherheit, sondern auf der Relevanz-Ebene (natürlich spielen diese Fragen immer noch eine gewisse Rolle, aber bei Weitem nicht so stark, wie bei weniger bekannten Anbietern).

Relevante Fragen für Besucher, die bereits Artikel im Warenkorb liegen haben und diese ggf. nur noch mal überprüfen wollen, könnten lauten:

„Sind meine Artikel im Preis noch aktuell oder gibt es vielleicht ein günstigeres Angebot?“

oder

„Sind meine Artikel noch bei Amazon auf Lager und kann ich mit dem gewohnt hohen Standard rechnen, oder muss ich mich vielleicht auf längere Wartezeit einstellen?“

#3: Nutzerorientierte Hypothese entwickeln:

Diese Fragen gilt es nun kreativ und kontraststark zu beantworten. Dabei ist es wichtig, nicht nur in eine Richtung zu testen, sondern auch in eine vielleicht anfänglich nicht so vielversprechend wirkende.

Unsere Testhypothesen könnten lauten:

Variante 1:

Durch eine Änderung der Bezeichnung „Auf Lager“, hin zu „Auf Lager – Versand durch Amazon“ erkennt der Nutzer sofort, was ihn erwartet. Er muss nicht zurück auf die Produktseite. Die Wahrscheinlichkeit des Kaufs erhöht sich.

Variante 2:

Das Entfernen der Bezeichnung „Auf Lager“ verhindert, dass der Nutzer sich mit der Frage nach der Lieferung auseinandersetzt. Er wird den gewohnten Standard erwarten. Dies erhöht die Wahrscheinlichkeit des Kaufs.

#4: Testkonzept entwickeln:

Ein komplettes Konzept auf die Beine zu stellen würde den Umfang dieses Artikels sprengen. Durch die ausformulierten Hypothesen wird aber schon deutlich, wo es hinführen wird.
Wichtig ist die Richtung, aus der die Hypothese formuliert wird.

Vergleicht man den Stand jetzt mit den zu Beginn aufgezeigten offensichtlichen Punkten, wird schnell deutlich, dass wir mit dieser Vorgehensweise ein ganz anderes Ergebnis erhalten werden als bei einem einfachen „Trust-Icons-Prominenter-Anzeigen-Test“.

Kein Uplift ist auch eine Erkenntnis

Böse Zungen mögen jetzt sagen, dass das am Ende des Tages keinerlei Mehrwert bringt. Die viel aufwändigere Konzeptphase kann man sich schenken, wenn man dadurch agiler und einfach mehr testen kann.

Und da ist natürlich auch ein Fünkchen Wahrheit dran. Denn vergleicht man ein Testkonzept nach Schema F mit hohem Uplift mit einem methodisch entwickelten Testkonzept mit hohem Uplift, fällt natürlich nur der Mehraufwand in der Konzeptphase ins Gewicht.

Die Früchte dieser Vorgehensweise erntet man aber eigentlich erst, wenn ein Test mal nicht so gut läuft.

Sind die Ergebnisse nämlich weniger erfreulich, liefern Testkonzepte mit einer nutzerorientierten Hypothese einen wichtigen Fingerzeig für kommende Projekte. So erhalten Sie öfter positive Ergebnisse. Der ROI steigt.

Fazit

Jeden Tag werden hunderte Testkonzepte entwickelt und ins Rollen gebracht. Wenn man dabei vermeiden will, willkürlich zu werden, sind Hypothesen erforderlich. Und zwar gute, nutzerorientierte Hypothesen die klar aufzeigen, in welche Richtung getestet werden soll.

Insbesondere für Unternehmen die nicht die Möglichkeiten von Amazon haben – also eigentlich alle – erhöht es die Durchschlagskraft von A/B-Testing enorm und hilft kosten zu sparen und effektiver zu arbeiten.

Weiterführende Artikel

3 Kommentare

Christian Decher, 11.12.2014

Klasse Artikel! Einen ähnlichen Dialog hatte ich kürzlich mit einem Kollegen. Die Ergebnisse des Tests waren dann leider nicht wirklich toll. Jetzt weiss ich, worauf zu achten ist! Werde mir die einzelnen Modelle mal näher anschauen. Vielen Dank.

Zum Antworten anmelden
Wu, 11.12.2014

Zu viel Interpretation. Eine Hypothese wie die genannte:

Quote

Durch eine Änderung der Bezeichnung „Auf Lager“, hin zu „Auf Lager – Versand durch Amazon“ erkennt der Nutzer sofort, was ihn erwartet. Er muss nicht zurück auf die Produktseite. Die Wahrscheinlichkeit des Kaufs erhöht sich.

Unquote

unterstellt gleich einen Grund für eine mögliche Verhaltensänderung. Ist der Test positiv wird der Grund gleich mit validiert. Dabei kann eine Verhaltensänderung auch ganz andere Ursachen haben, z.B.:

“Die Wiederholung der Marke im Lieferstatus erhöht durch das Vertrauen, das diese beim Kunden genießt, die Kaufwahrscheinlichkeit.”

Der Effekt wäre der gleiche, die Ursache eine völlig andere. In Experimenten wird viel zu oft ein Grund unterstellt, der aber eigentlich nur eine Hypothese ist, die durch das Experiment nur nicht ausgeschlossen wird.

Da ist es besser einfach eine Verhaltensänderung zu unterstellen, und diese zu testen. Andernfalls muss man Experimente schaffen, die möglichst wenige Ursachen zulassen.

Zum Antworten anmelden
Gabi, 10.01.2015

Ein sehr aus der Praxis bezogener Artikel! Die Nachteile von der Unübersichtlichkeit eines Web-shops oder auch nur der Homepage ist m.E. völlig unterschätzt. Oft sind dann Hindernisse noch extra eingebaut bei der Adresseingabe, ob man nun gezwungen ist, eine Telefonnummer einzugeben, oder Ähnliches. Ein unübersichtlicher Warenkorb, der z.B. nicht bearbeitet werden kann, oder ein Web Shop ohne ersichtliche Telefon Nummer ist ebenso abschreckend. Der Kunde verhält sich dann schnell ablehnend und steigt vielleicht sogar im nächsten Klick aus um schon zum nächsten Anbieter zu wechseln.
Viele Grüße Gabi

Zum Antworten anmelden

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.

A/B-Test Hypothesen – Wie ein kleines Detail über Erfolg und Misserfolg entscheidet

Aber mal von vorne

Das Problem: Fehlende Qualität bei der Hypothesenerstellung

Nutzerfragen als Basis zur Hypothesenbildung

Mit System zu mehr Uplift