Data Analytics

Was eine Verlaufskurve mit Personalisierung zu tun hat

Thorsten Barth

6. Juni 2013, Lesezeit: 6 Minuten

Die meisten Testing-Tools verfügen über die Möglichkeit, Conversion Rates, Zwischenziele und Revenue-Ergebnisse im zeitlichen Verlauf als Kurve darzustellen.

Meist werden hierzu für jeden Tag die gemessenen Werte berechnet und entweder einzeln für jeden jeweiligen Tag, oder aber seit Beginn der betrachteten Periode kumuliert dargestellt.

Aber was sagt diese Verlaufskurve aus und wo drohen Fehlinterpretationen? Und was hat das ganze mit Samples, Segmentierung, Targeting und Personalisierung zu tun? Über diese Fragen will ich im folgenden Artikel philosophieren.

Tageweise Darstellung des Verlaufs eines A/B-Tests

Verlaufskurve VWO kumuliert — Kumulierte Darstellung des gleichen Tests

Interpretation

Wir diskutieren bei Web Arts regelmäßig über die laufenden und abgeschlossenen Tests – hier Beispiele für Verläufe, die uns dabei immer wieder begegnen:

Ziemlich chaotischer Verlauf — Chaotischer Verlauf, der ständig springt.

In den ersten Tagen verliert die Alternative gegen die Kontrollvariante, nach einiger Zeit kehren sich die Verhältnisse jedoch um.

Es ist ein klarer Unterschied zwischen Wochenende und Wochentagen erkennbar. — Ein deutlicher Unterschied zwischen Wochenende und Wochentagen ist erkennbar.

testing-diagramm-ausreisser — Zunächst scheint alles klar, plötzlich gibt es einen mehrere Tage andauernden Ausreißer.

Jetzt liegen einige Interpretationsmöglichkeiten auf der Hand. Eine grafische Darstellung ist geradezu eine Einladung für unser Gehirn, schnelle Schlussfolgerungen zu ziehen. Doch bin ich ja irgendwie ein Freund von Fakten und fange an, mir Fragen zu stellen: Was, wenn uns unser Gehirn einen Streich spielt? Welche Schlüsse darf man denn wirklich aus der tageweisen Betrachtung ziehen? Gibt es Randbedingungen dafür?

Projezieren wir bei der Interpretation vielleicht nur unser Wunschdenken in die Testergebnisse?

Zur Auffrischung: Wie rechnet ein Testing-Tool?

Ich denke, wir sollten uns doch noch einmal in Erinnerung rufen, auf welcher Grundlage die statistischen Berechnungen in den Testing-Tools ablaufen. Diese sind nämlich recht “primitiv”: Die einzigen Variablen, die bei einem A/B-Test, der auf Conversion-Rate optimiert wird, in die Berechnung von Uplift, CTBO und Konfidenz einfließen, sind:

Gesamtanzahl der Besucher auf der Kontrollvariante
Gesamtanzahl der Besucher auf der Alternative
Gesamtanzahl der Conversions auf der Kontrollvariante
Gesamtanzahl der Conversions auf der Alternative
Das (global vorgegebene) Konfidenzniveau für die Berechnung der Konfidenzintervalle, beispielsweise 90%.

Vergeblich sucht man nach der Dauer des Experiments. Die zeitliche Komponente ist für die Auswertung völlig unerheblich. Unerheblich also, wann die Besucher auf der Seite waren. Wie lange sie dort waren, und auch, wann letztendlich eine Bestellung stattgefunden hat. Selbst, wenn am ersten Tag eines Experiments überhaupt niemand bestellt, am zweiten Tag nur über die Kontrollvariante bestellt wird, und am dritten Tag ausschließlich über die Alternative, wird das Testing-Tool exakt so rechnen, wie es bei einer gleichmäßigen Verteilung der Bestellungen über die gesamten 72 Stunden der Fall gewesen wäre.

Verschweigt uns das Testing-Tool also die wichtigsten Informationen?

Sagt eine Verlaufskurve mehr aus, als die nackten Zahlen?

Stellen alle Nutzer, die innerhalb der Testdauer in das Experiment aufgenommen wurden, das „Sample“ dar, so haben wir es mit der Entscheidung, uns eine Verlaufskurve zeigen zu lassen, in kleinere Untersamples eingeteilt. Wir müssen uns bewusst machen, dass die Unterteilung in Tage willkürlich gewählt ist – was nicht heißen soll, dass es eine schlechte Einteilung ist. Wir hätten jedoch statt dessen das Sample ebenso gut anders unterteilen können, z.B. wochenweise oder stundenweise, wie z.B. Adobe Test&Target es anbietet:

Konfigurationsmöglichkeiten für die Verlaufskurve in Adobe® Test & Target™

Mit ein wenig Phantasie sind weitere Unterteilungen denkbar – vielleicht fallen Ihnen beim Lesen bereits einige Möglichkeiten ein. Aber erst einmal grundsätzlich: Die Unterteilung nach Tagen gruppiert die Nutzer nach einem fest definierten Kriterium. Das ist vergleichbar mit einer Segmentierung.

Im Grunde genommen starte ich jeden Tag um 0:00 Uhr einen neuen Test und stoppe ihn um 24:00 Uhr.

Erlaubte Interpretationen: Nichtzufällige Abhängigkeiten

Indem ich eine Interpretation aus der Verlaufskurve ableite, unterstelle ich, dass es nichtzufällige Ursachen für die Abweichungen gibt – also warum der Montags-Test andere Ergebnisse liefert, als der Dienstags-Test.

Ich unterstelle eine Abhängigkeit des Nutzerverhaltens vom Datum. (Die Uhrzeit hingegen ignoriere ich völlig!).

Also lohnt es sich sicher, über mögliche Gründe für solche Abhängigkeiten nachzudenken:

Lernkurve wiederkehrender Nutzer im Test (zunehmende Gewöhnung an die neue Variante)
Wochentag (Rhythmus Arbeitszeit / Freizeit)
Zeitpunkt im Monat (z.B. aufgrund der Liquidität)
Besondere Ereignisse (Feiertage, Ferien, Sport- und Kulturveranstaltungen, politische Ereignisse etc.)
Wetter / Saison (man denke nur an Kleidung, Garten-, Grill- und Poolzubehör)
Eigene Marketingaktionen (Katalog, Newsletter, TV-Spot)
Aktionen von Wettbewerbern
Themen in Presse und sozialen Medien

Diese Liste ist mir recht spontan eingefallen und sicher nicht einmal vollständig, aber doch recht lang.

Achtung Fehlinterpretationen: Der Einfluss des Zufalls

Im Gegensatz zu den “realen” Einflüssen gibt es aber immer auch eine zufällige Verteilung.

Je kleiner die Samplegröße (d.h. je weniger Besucher pro Tag in den Test geleitet werden), desto größer ist der Einfluss des Zufallsfaktors auf dieses eine betrachtete Sample. Würde man also tatsächlich wie oben angedacht jeden Tag einen separaten Test durchführen – man kann das simulieren, indem man im Testing-Tool den Start- und Endezeitraum für den Report auf diesen einen betrachteten Tag reduziert – dann würde das Tool eine deutlich niedrigere Konfidenz ausgeben, als beim gesamten Testzeitraum.

Man braucht extrem viel Traffic, um einen Ein-Tages-Test valide zu bekommen. Bei den meisten Tests haben die einzelnen Tages-Werte in den Verlaufskurven also keine statistische Aussagekraft. Eine chaotisch aussehende Kurve ist daher meist einfach nur ein Indikator für wenig Traffic – dementsprechend muss natürlich der Test auch länger laufen, aber das sagt das Testing-Tool gleichzeitig auch mit dem Konfidenzniveau oder der CTBO aus.

Man sollte also hier nicht vorschnell Schlüsse ziehen. Vorsicht bei pauschalen Aussagen wie „Der Test pendelt sich nach anfänglichen Schwankungen ein“ oder „der Test lief zwar in den ersten zwei Wochen schlecht, aber danach aber jetzt fast drei Wochen stabil gut“. Ohne zumindst eine mögliche kausale Ursache parat zu haben, glaubt man dann doch lieber den Ergebnissen, die das Tool errechnet – oder lässt den Test sicherheitshalber noch ein wenig länger laufen.

Und wie gehe ich nun in der Praxis damit um?

In der Praxis hat man zwei Stoßrichtungen, die es miteinander zu vereinbaren gilt:

Einerseits hat man ja zum Ziel, allgemeingültige Optimierungen zu finden. Die Frage lautet: „Welche Variante läuft unterm Strich besser?“ – über das ganze Jahr hinweg. Bei Regen wie bei Sonne. Im Büro wie auf dem Sofa. Vor der Urlaubssaison wie im Weihnachtsgeschäft. Nur, wer seinen allgemeinen Standard beständig weiter entwickelt und an langfristige Entwicklungen anpasst, bleibt auf Kurs und gewinnt wichtige Erkenntnisse über seine Kunden. Hier hilft es, Tests länger laufen zu lassen als unbedingt nötig, und möglichst die unterschiedlichen Rahmenbedingungen in einem repräsentativen Mix in den Test zu schicken – d.h. mindestens Wochenende und Wochentage, und einen Test, der im Sommer lief, vielleicht nach einem Katalogversand im Herbst oder im Weihnachtsgeschäft noch einmal zu verproben.

Das Testingtool weiß nichts darüber, wie repräsentativ das Sample ist! Hier ist Expertise gefragt!

Andererseits kann es ja durchaus lohnend sein, auf bestimmte Nutzersegmente mit speziell zugeschnittener Ansprache zuzugehen. Nein. Bitte bemerken Sie das versteckte Augenzwinkern: Ganz sicher lohnt es sich, über das richtige Targeting nicht nur bei der Anzeigenschaltung nachzudenken, sondern es auch onsite und beim Testing konzeptionell und bei der Analyse zu berücksichtigen! Und neben vielen anderen Kriterien kann selbstverständlich auch der Faktor des richtigen „Zeitpunkts“ eine hohe Relevanz haben. Hingegen zweifle ich die Aussagekraft des Unterschieds zwischen einem zufällig aufgrund des Projektplans „gewählten“ Dienstag und dem darauf folgenden Mittwoch an – daher noch einmal die Warnung vor Überinterpretation einer Verlaufskurve im Test.

Ausblick

So sind wir von der Interpretation von Verlaufskurven über die Frage nach dem repräsentativen Sample nun doch unvermeidlich auf das Thema Segmentierung und Targeting gekommen – das natürlich noch einmal besonders spannend wird, wenn es um Personalisierung und „Big Data“ geht. Spannende Themen für zukünftige Blogposts, ich freue mich schon darauf, was ich beim Schreiben so alles lernen werde.

1 Kommentar

Markus Einfinger, 07.06.2013

Super Beitrag, danke! Genau solche Fragen sind bei uns auch schon aufgetaucht.
V.a. wenn es um längere Customer Journeys geht (wie bei einer Urlaubsbuchung), ist die punktuelle Betrachtung der CR eines Tages relativ unrelevant.

Zum Antworten anmelden

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.

Was eine Verlaufskurve mit Personalisierung zu tun hat

Interpretation

Zur Auffrischung: Wie rechnet ein Testing-Tool?

Sagt eine Verlaufskurve mehr aus, als die nackten Zahlen?

Erlaubte Interpretationen: Nichtzufällige Abhängigkeiten

Achtung Fehlinterpretationen: Der Einfluss des Zufalls

Und wie gehe ich nun in der Praxis damit um?

Ausblick

Über den Autor

1 Kommentar

Schreibe einen Kommentar Antworten abbrechen

Anmeldung abschließen

Interpretation

Zur Auffrischung: Wie rechnet ein Testing-Tool?

Sagt eine Verlaufskurve mehr aus, als die nackten Zahlen?

Erlaubte Interpretationen: Nichtzufällige Abhängigkeiten

Achtung Fehlinterpretationen: Der Einfluss des Zufalls

Und wie gehe ich nun in der Praxis damit um?

Ausblick

Über den Autor

1 Kommentar

Schreibe einen Kommentar Antworten abbrechen

Teile diesen Artikel

Mehr zum Thema (24 Artikel)

Hol dir unser Know-How direkt in dein Postfach.

Anmeldung abschließen

Über 10.000 Optimierer sind Dir jede Woche ein Stück voraus.