Testingfehler vermeiden: 4 Fallstricke bei der Segmentierung

Wer am Ende eines Optimierungssprints schon einmal ganz bedröppelt auf Testergebnisse geblickt hat, der kennt das Gefühl: Eigentlich hat man alles richtig gemacht, aber die Ergebnisse sind mau - kein Uplift, doof. Noch schlimmer, so etwas zu reporten und mit dem Team oder gar dem Vorgesetzten besprechen zu müssen. Die gute Nachricht: Das passiert auch den Besten. Die schlechte: So etwas muss nicht sein.

Wie werden Website-Tests ausgespielt?

Aus Analysen werden insights generiert, Hypothesen erstellt und priorisiert. Diese werden in Konzepte überführt und anschließend geht es ans Testing. Soweit so gut. Um den Effekt bestmöglich nachweisen zu können, werden Website Tests häufig für alle Besucher ausgespielt, also den ganzen Kuchen. Ausnahmen sind hier meist mobile Tests, die speziell für Nutzer mit mobilen Endgeräten ausgespielt werden (Targeting). Nach Abschluss des Tests sucht man dann Effekte, die über alle Besucher hinweg zu erkennen sind. D.h. man sucht nach der Bestätigung dafür, dass die Hypothese für alle Besucher gleichermaßen funktioniert und bemisst dies zum Beispiel an der Conversion Rate.

Testing Varianten

Das nachfolgende Beispiel (echte Daten eines Tests) zeigt, dass die Variante B zwar einen Uplift erzielt hat, aber der Effekt zu klein ist, um ihn statistisch nachweisen zu können. Rein objektiv könnte man meinen: Test hat mir gezeigt, dass die Variante B keinen Effekt erzielt hat.

Test Ergebnisse ohne Segmentierung

Nicht den ganzen Kuchen auf einmal essen

Was allerdings häufig vernachlässigt wird: Unterschiedliche Besucher-Segmente können ganz unterschiedlich auf Tests reagieren. D.h. wenn man den ganzen Kuchen = Traffic testet und über alle Besucher reportet dann gehen interessante Teilbereiche unter. Fast schon ein Klassiker ist das Testing von Unique value propositions oder Services, die ein Unternehmen einzigartig macht. Hierbei reagieren nämlich Neue Besucher ganz anders als Wiederkehrende Besucher/ Bestandskunden. Die Daten des obigen Beispiels kommen aus genau so einem Test.

Fehler beim Testing 4 Fallstricke Segmentierung

4 Fallstricke bei der Segmentierung

Folgende Fallstricke bei der Auswertung ohne Segmentierung können in der Praxis auftreten. Die Fallstricke gilt es zu beachten, um nicht falsche oder unvollständige Schlüsse aus Tests zu ziehen. Basis ist das bereits gezeigte Beispiel oben.

Fall 1: Keine Effekte in der Summe, aber positive Segmente vernachlässigt

In der Summe sind die Effekte (siehe Tabelle oben) über alle Besucher nicht nachzuweisen. Der erste Fall soll zeigen, dass bei Betrachtung von Segmenten ein positiver Effekt aufzufinden ist, den man ohne Segmentierung nicht entdeckt hätte. Bedeutet in der Konsequenz, dass man einen Testsieger für ein Segment nicht erkannt und damit nicht weiter verfolgt hätte. Entgangener Umsatz! Konkret hat das Segment der neuen Besucher um einiges besser auf den Test reagiert. Ein signifikanter Uplift in Höhe von 13,48%, den man sicherlich auch einfahren möchte.

Besucher Segmente

Fall 2: Keine Effekte in der Summe, aber negative Segmente vernachlässigt

Der zweite Fall wäre ein Test, der in der Summe keinen großen Effekt zeigt, in einem einzelnen Segmenten aber signifikant schlechter läuft.

Hier noch mal die Ausgangswerte:

Test Ergebnisse ohne Segmentierung

 

Werte nach Segmentierung:

Besucher Segmente - 2

Hierfür habe ich das obere Beispiel erneut hergenommen und im Segment „Neue Besucher“ einfach den Uplift zum Downlift gemacht. Die Summe des Tests ist zwar nach wie vor positiv (2,08% in der oberen Tabelle), allerdings ist der „Downlift“ signifikant. Die Zielgruppe der Neuen Besucher wird also falsch angesprochen, bzw. so angesprochen, dass sie negativ darauf reagieren.

Der Vollständigkeit halber sollen noch 2 weitere Fälle beschrieben werden, die aber nicht mit Zahlen untermauert werden, das Prinzip ist das gleiche wie bei den Fällen 1 und 2.

Fall 3: Positive Effekte in der Summe, aber negative Segmente vernachlässigt

Testvarianten, die über alle Besucher hinweg zu signifikant positiven Ergebnissen führen, sind Sieger, bei denen man die Ergebnisse häufig nicht weiter verfolgt. Fakt ist aber, dass es auch hier Segmente geben kann, mit negativen Reaktionen in der Zielgruppe. Das kann zum Beispiel dann passieren, wenn es in bestimmten Browsern zu Fehlern kommt (und diese nicht in der Qualitätssicherung gefunden wurden).

Möglich ist auch, dass es negative Effekte in einem kleineren Segment gibt und das größere Segment mit positive Effekten das kleiner überlagert.

Fall 4: Negative Effekte in der Summe, aber positive Segmente vernachlässigt

Der Umgekehrte Fall geht natürlich auch: Negativer Gesamteffekt, aber einzelne Segmente, die positiv auf die Testvariante reagiert haben.

Wie kommt man an segmentierte Test-Ergebnisse ran? 

Bevor man allerdings Segmente bilden kann, muss man die Voraussetzung dafür schaffen. Testingplattformen wie Optimizely, vwo und Test & Target bieten hierfür von Haus aus schon unterschiedliche Segmente an. Wer allerdings noch tiefer in die Daten eintauchen will und dabei auch die volle Power der eigenen Analytics Tools nutzen möchte, der kommt nicht umhin, die Systeme mit einander zu verbinden.

Für Optimizely gibt es hier zwei Anleitungen, wie die Plattform mit Google Analytics oder Universal Analytics verknüpft werden kann:

> Optimizely und GA (classic) verknüpfen

> Optimizely und UA verknüpfen 

Für das Testingtool vwo gibt es hier zwei Anleitungen, wie die Plattform mit Google Analytics oder Universal Analytics verknüpft werden kann:

> vwo und GA verknüpfen

> vwo und UA verknüpfen

Nach der Verknüpfung können viele Segmente in GA oder UA gebildet werden (Traffic-Quellen, bestimmte Aktionen, die Nutzer durchgeführt haben, Mobile, Tablet, Marketingkampagnen, Browser-Typen und Browser-Versionen uvm.).

Vorsicht bei den Fallzahlen in Segmenten 

Wer in Segmenten nach Effekten der Test-Varianten sucht, der läuft zusätzlich Gefahr, dass die Datenmenge nicht mehr ausreicht, um statistisch belegbare Effekte nachzuweisen. Soll heißen: Die Datenbasis muss stimmen und hinreichend groß sein. Wenn in den Segmenten nur noch wenige Conversions gemessen werden, dann ist die Sample Size womöglich zu klein. Wer die Signifikanz von unterschiedlichen Testergebnissen in den Segmenten per Hand ausrechnen will, kann auf unseren Signifikanz-Rechner zurückgreifen.

Segmente als Vorstufe zur Personalisierung

Warum sind die Segmente darüber hinaus noch wichtig? Wer über Personalisierung nachdenkt und einzelnen Kundensegmente gezielt ansprechen möchte, der braucht zunächst eine Vorstellung davon, welche Segmente auf Optimierungsmaßnahmen reagieren. Der obige Test kann zum Schluss führen, neue und wiederkehrende Besucher unterschiedlich anzusprechen. Klingt logisch, denn ein wiederkehrender Besucher oder sogar Bestandskunde muss nicht immer wieder zu lesen bekommen, welche Vorteile der Online Shop bietet, denn er hat ja schon eingekauft und kennt die Vorzüge. Darüber hinaus ignorieren wiederkehrende Besucher gerne einmal Test-Varianten, weil sie sich zu sehr an die Seite gewöhnt haben – ihnen fällt die Änderung schlichtweg nicht ins Auge. In diesem Fall muss man dafür sorgen, dass Änderungen überhaupt wahrgenommen werden können, es fehlt an Stimulanz.

Was bei dem ganzen Datenwust zu beachten gilt: Es muss pragmatisch bleiben. Mit Personalisierung auf 20 Segmente zu feuern, macht keinen Sinn. Daher erst einmal klein beginnen.

Fazit  – Ohne Segmentierung geht nicht

Die Fallstricke zeigen, dass die Ergebnisse nur interpretiert werden können, wenn die Daten auch vollständig betrachtet werden. Sonst sieht man nur die halbe Wahrheit. Konsequenz: Die Kosten für den Test wären umsonst ausgegeben worden. Bei knappen Testing-Ressourcen (Anzahl Tests pro Jahr und endlichem Budget) ein Desaster. Hinzu kommt, dass die Beteiligten im Testingprozess falsche Ableitungen aus der Hypothese gezogen hätten. Vom entgangenen Umsatz mal gar nicht zu sprechen.

Die Verknüpfung der Daten aus der Testingplattform mit einem Webanalytics Tool ist nur der erste Schritt, denn die Frage nach erzeugten Retouren pro Testvariante lässt sich nur selten mit dem Webanalytics Tool beantworten. Es müssen also weitere Daten betrachtet werden, um ein wirklich vollständiges Bild zu bekommen.

Kurz zusammengefasst noch einmal die wichtigsten Schritte für die Segmentierung von Testing Daten

  1. Verknüpfung von Testingplattform und Webanalytics System (auch CRM und BI System)
  2. Segmente für Testvarianten anlegen (Anleitungen s.o.)
  3. Testlauf
  4. Reporting overall
  5. Reporting in Segmenten
  6. Bewertung der Varianten nach Segmenten
  7. Handlungsempfehlung ableiten
  • Send to Kindle
  • http://kKrft.ly/SSt
Gabriel Beck Gabriel Beck ist Mitglied der Geschäftsleitung der Web Arts AG. Zuvor hat er sich mit der Conversion Optimierung für die Kunden einer Performance Marketing Agentur gekümmert, wo er zuletzt als Standortleiter und Head of Conversion Optimization tätig war. Er betreibt das Blog conversiondoktor und spricht auf zahlreichen Konferenzen. Folgen Sie mir auf : Twitter // Facebook // Google+

2 Reaktionen auf  “Testingfehler vermeiden: 4 Fallstricke bei der Segmentierung”

Kommentare

  1. Axel Schröder Axel Schröder

    Hallo Herr Beck,

    danke für den Artikel. Ein typisches Problem für „die Kleinen“ ist aber nach wie vor ungelöst. Sinnvolle Tests bei kleinen Traffic-Mengen. Wenn die kleine Traffic-Menge durch Segmentierung noch kleiner wird, wird halt sehr schwer, die Tipps im Beitrag umzusetzen…

    Sie hatten zum Thema Testing bei wenig Traffic ja einen Beitrag in Aussicht gestellt.
    //www.konversionskraft.de/strategie/das-92-1-dilemma-als-gefahr-fuer-ihr-online-marketing-budget-2015.html#comment-1822183

    Ich freue mich nach wie vor, wenn er erscheint!

    Mit bestem Gruß,
    Axel Schröder

  2. Gabriel Beck Gabriel Beck

    Hallo Herr Schröder,

    danke für die Rückmeldung. Wir haben das Thema auf dem Schirm. Der Redaktionsplan ist voll und daher dauert es noch etwas bis zur Antwort. Ich kann derweil aber schon sagen, dass alternativ zum Testing für „die Kleinen“ qualitative Tests (Befragungen und Akzeptanz-Tests) geeignet sind.

    Viele Grüße,
    Gabriel Beck

Hinterlassen Sie einen Kommentar