Data Analytics

Data Sciences

Experimentation

Personalization

6 min Lesezeit

Testingfehler vermeiden: 4 Fallstricke bei der Segmentierung

Testergebnisse ohne Uplifts müssen nicht für die Katz sein. Wer genauer hinschaut, kann mit Segmentierung Uplifts finden, wo keine vermutet wurden.

Gabriel Beck

Inhalt

Wie werden Website-Tests ausgespielt?
Nicht den ganzen Kuchen auf einmal essen
4 Fallstricke bei der Segmentierung
Wie kommt man an segmentierte Test-Ergebnisse ran?
Vorsicht bei den Fallzahlen in Segmenten
Segmente als Vorstufe zur Personalisierung
Fazit – Ohne Segmentierung geht nicht

Die Entmystifizierung der Personalisierung

E-Book Download - 30 Seiten PDF

Mit diesen 4 Stufen entschlüsselst du nutzerzentrierte & datengetriebene Optimierung. Konkrete Tipps und Best Practices erwarten dich.

Kostenlos erhalten

Wer am Ende eines Optimierungssprints schon einmal ganz bedröppelt auf Testergebnisse geblickt hat, der kennt das Gefühl: Eigentlich hat man alles richtig gemacht, aber die Ergebnisse sind mau – kein Uplift, doof. Noch schlimmer, so etwas zu reporten und mit dem Team oder gar dem Vorgesetzten besprechen zu müssen. Die gute Nachricht: Das passiert auch den Besten. Die schlechte: So etwas muss nicht sein.

Wie werden Website-Tests ausgespielt?

Aus Analysen werden insights generiert, Hypothesen erstellt und priorisiert. Diese werden in Konzepte überführt und anschließend geht es ans Testing. Soweit so gut. Um den Effekt bestmöglich nachweisen zu können, werden Website Tests häufig für alle Besucher ausgespielt, also den ganzen Kuchen. Ausnahmen sind hier meist mobile Tests, die speziell für Nutzer mit mobilen Endgeräten ausgespielt werden (Targeting). Nach Abschluss des Tests sucht man dann Effekte, die über alle Besucher hinweg zu erkennen sind. D.h. man sucht nach der Bestätigung dafür, dass die Hypothese für alle Besucher gleichermaßen funktioniert und bemisst dies zum Beispiel an der Conversion Rate.

Das nachfolgende Beispiel (echte Daten eines Tests) zeigt, dass die Variante B zwar einen Uplift erzielt hat, aber der Effekt zu klein ist, um ihn statistisch nachweisen zu können. Rein objektiv könnte man meinen: Test hat mir gezeigt, dass die Variante B keinen Effekt erzielt hat.

Nicht den ganzen Kuchen auf einmal essen

Was allerdings häufig vernachlässigt wird: Unterschiedliche Besucher-Segmente können ganz unterschiedlich auf Tests reagieren. D.h. wenn man den ganzen Kuchen = Traffic testet und über alle Besucher reportet dann gehen interessante Teilbereiche unter. Fast schon ein Klassiker ist das Testing von Unique value propositions oder Services, die ein Unternehmen einzigartig macht. Hierbei reagieren nämlich Neue Besucher ganz anders als Wiederkehrende Besucher/ Bestandskunden. Die Daten des obigen Beispiels kommen aus genau so einem Test.

4 Fallstricke bei der Segmentierung

Folgende Fallstricke bei der Auswertung ohne Segmentierung können in der Praxis auftreten. Die Fallstricke gilt es zu beachten, um nicht falsche oder unvollständige Schlüsse aus Tests zu ziehen. Basis ist das bereits gezeigte Beispiel oben.

Fall 1: Keine Effekte in der Summe, aber positive Segmente vernachlässigt

In der Summe sind die Effekte (siehe Tabelle oben) über alle Besucher nicht nachzuweisen. Der erste Fall soll zeigen, dass bei Betrachtung von Segmenten ein positiver Effekt aufzufinden ist, den man ohne Segmentierung nicht entdeckt hätte. Bedeutet in der Konsequenz, dass man einen Testsieger für ein Segment nicht erkannt und damit nicht weiter verfolgt hätte. Entgangener Umsatz! Konkret hat das Segment der neuen Besucher um einiges besser auf den Test reagiert. Ein signifikanter Uplift in Höhe von 13,48%, den man sicherlich auch einfahren möchte.

Fall 2: Keine Effekte in der Summe, aber negative Segmente vernachlässigt

Der zweite Fall wäre ein Test, der in der Summe keinen großen Effekt zeigt, in einem einzelnen Segmenten aber signifikant schlechter läuft.

Hier noch mal die Ausgangswerte:

Werte nach Segmentierung:

Hierfür habe ich das obere Beispiel erneut hergenommen und im Segment “Neue Besucher” einfach den Uplift zum Downlift gemacht. Die Summe des Tests ist zwar nach wie vor positiv (2,08% in der oberen Tabelle), allerdings ist der „Downlift“ signifikant. Die Zielgruppe der Neuen Besucher wird also falsch angesprochen, bzw. so angesprochen, dass sie negativ darauf reagieren.

Der Vollständigkeit halber sollen noch 2 weitere Fälle beschrieben werden, die aber nicht mit Zahlen untermauert werden, das Prinzip ist das gleiche wie bei den Fällen 1 und 2.

Fall 3: Positive Effekte in der Summe, aber negative Segmente vernachlässigt

Testvarianten, die über alle Besucher hinweg zu signifikant positiven Ergebnissen führen, sind Sieger, bei denen man die Ergebnisse häufig nicht weiter verfolgt. Fakt ist aber, dass es auch hier Segmente geben kann, mit negativen Reaktionen in der Zielgruppe. Das kann zum Beispiel dann passieren, wenn es in bestimmten Browsern zu Fehlern kommt (und diese nicht in der Qualitätssicherung gefunden wurden).

Möglich ist auch, dass es negative Effekte in einem kleineren Segment gibt und das größere Segment mit positive Effekten das kleiner überlagert.

Fall 4: Negative Effekte in der Summe, aber positive Segmente vernachlässigt

Der Umgekehrte Fall geht natürlich auch: Negativer Gesamteffekt, aber einzelne Segmente, die positiv auf die Testvariante reagiert haben.

Wie kommt man an segmentierte Test-Ergebnisse ran?

Bevor man allerdings Segmente bilden kann, muss man die Voraussetzung dafür schaffen. Testingplattformen wie Optimizely, vwo und Test & Target bieten hierfür von Haus aus schon unterschiedliche Segmente an. Wer allerdings noch tiefer in die Daten eintauchen will und dabei auch die volle Power der eigenen Analytics Tools nutzen möchte, der kommt nicht umhin, die Systeme mit einander zu verbinden.

Nach der Verknüpfung können viele Segmente in GA oder UA gebildet werden (Traffic-Quellen, bestimmte Aktionen, die Nutzer durchgeführt haben, Mobile, Tablet, Marketingkampagnen, Browser-Typen und Browser-Versionen uvm.).

Vorsicht bei den Fallzahlen in Segmenten

Wer in Segmenten nach Effekten der Test-Varianten sucht, der läuft zusätzlich Gefahr, dass die Datenmenge nicht mehr ausreicht, um statistisch belegbare Effekte nachzuweisen. Soll heißen: Die Datenbasis muss stimmen und hinreichend groß sein. Wenn in den Segmenten nur noch wenige Conversions gemessen werden, dann ist die Sample Size womöglich zu klein. Wer die Signifikanz von unterschiedlichen Testergebnissen in den Segmenten per Hand ausrechnen will, kann auf unseren Signifikanz-Rechner zurückgreifen.

Segmente als Vorstufe zur Personalisierung

Warum sind die Segmente darüber hinaus noch wichtig? Wer über Personalisierung nachdenkt und einzelnen Kundensegmente gezielt ansprechen möchte, der braucht zunächst eine Vorstellung davon, welche Segmente auf Optimierungsmaßnahmen reagieren. Der obige Test kann zum Schluss führen, neue und wiederkehrende Besucher unterschiedlich anzusprechen. Klingt logisch, denn ein wiederkehrender Besucher oder sogar Bestandskunde muss nicht immer wieder zu lesen bekommen, welche Vorteile der Online Shop bietet, denn er hat ja schon eingekauft und kennt die Vorzüge. Darüber hinaus ignorieren wiederkehrende Besucher gerne einmal Test-Varianten, weil sie sich zu sehr an die Seite gewöhnt haben – ihnen fällt die Änderung schlichtweg nicht ins Auge. In diesem Fall muss man dafür sorgen, dass Änderungen überhaupt wahrgenommen werden können, es fehlt an Stimulanz.

Was bei dem ganzen Datenwust zu beachten gilt: Es muss pragmatisch bleiben. Mit Personalisierung auf 20 Segmente zu feuern, macht keinen Sinn. Daher erst einmal klein beginnen.

Fazit – Ohne Segmentierung geht nicht

Die Fallstricke zeigen, dass die Ergebnisse nur interpretiert werden können, wenn die Daten auch vollständig betrachtet werden. Sonst sieht man nur die halbe Wahrheit. Konsequenz: Die Kosten für den Test wären umsonst ausgegeben worden. Bei knappen Testing-Ressourcen (Anzahl Tests pro Jahr und endlichem Budget) ein Desaster. Hinzu kommt, dass die Beteiligten im Testingprozess falsche Ableitungen aus der Hypothese gezogen hätten. Vom entgangenen Umsatz mal gar nicht zu sprechen.

Die Verknüpfung der Daten aus der Testingplattform mit einem Webanalytics Tool ist nur der erste Schritt, denn die Frage nach erzeugten Retouren pro Testvariante lässt sich nur selten mit dem Webanalytics Tool beantworten. Es müssen also weitere Daten betrachtet werden, um ein wirklich vollständiges Bild zu bekommen.

Kurz zusammengefasst noch einmal die wichtigsten Schritte für die Segmentierung von Testing Daten

Verknüpfung von Testingplattform und Webanalytics System (auch CRM und BI System)
Segmente für Testvarianten anlegen (Anleitungen s.o.)
Testlauf
Reporting overall
Reporting in Segmenten
Bewertung der Varianten nach Segmenten
Handlungsempfehlung ableiten

Über den Autor

Gabriel Beck

Gabriel ist seit über 10 Jahren Conversion Optimierer und berät die konversionsKRAFT Kunden strategisch, ist Trainer für die Conversion Seminare und als Vorstand seit 2014 im Unternehmen.

gabriel.beck@konversionskraft.de

Warum erfolgreiche A/B-Tests eine saubere statistische Testplanung brauchen (plus neues Testplaner-Tool)

A/B Testing

8 min Lesezeit

Warum erfolgreiche A/B-Tests eine saubere statistische Testplanung brauchen (plus neues Testplaner-Tool)

Eine methodisch und statistisch saubere Testplanung ist die Grundlage für ein erfolgreiches Testing-Programm. Nutze dafür den neuen Testplaner.

70% deiner A/B-Tests sind “underpowered”: So rockst du die Statistik

A/B Testing

13 min Lesezeit

70% deiner A/B-Tests sind “underpowered”: So rockst du die Statistik

Viele A/B-Tests werden zu früh abgebrochen und sind nicht valide. Steigere den Testerfolg und berechne Mindestlaufzeiten mit dem Sample Size Tool!

Paralleles Testen: 3 Vorteile, von denen die innovativsten Unternehmen bereits profitieren

A/B Testing

14 min Lesezeit

Paralleles Testen: 3 Vorteile, von denen die innovativsten Unternehmen bereits profitieren