Umsatzvorhersagen im A/B-Testing: Die wirksamsten Regeln für planbare Uplifts
Wie verlief eigentlich dein letztes Reporting?
Sind alle Zahlen eingetreten wie vorhergesagt, oder wartet dein Chef-/der Bereichsleiter noch immer, und mittlerweile frustriert auf den Umsatz-Boost, den du bei der letzten Testauswertung als Uplift angegeben hast?
Möglicherweise war das Management so fokussiert auf den Wertbeitrag, dass es 13,11% Uplift in 4,83 Mio. mehr Umsatz umgerechnet hat, ohne darauf zu achten, dass allein der Uplift als Erfolgskennzahl für einen A/B-Test noch zu eng gedacht ist.
Der Uplift aus deinen A/B-Tests war schon immer eine Variable mit unterschiedlicher Eintritts- und höherer Fehlerwahrscheinlichkeit als einzelne Conversion-Rates.
Denn eine Aussage über den Uplift lässt sich eher als Intervall (von-bis) bei einem gewissen Konfidenzniveau ausdrücken.
Dein gemessener Uplift bezieht sich immer auf das Experiment, den Zeitraum und die Rahmenbedingungen zu diesem Zeitraum.
Tatsächlich kann der Uplift niedriger sein – aber auch höher. Der gemessene Uplift ist immer ein Mittelwert, welche gewissen Schwankungen und Unsicherheiten unterliegt. Er ist eine Größe, die du nutzen solltest, um deinen Backlog zu priorisieren, um planbares Wachstum zu erzeugen.
Dabei gibt es durchaus erprobte Methoden wie du zu validen Aussagen kommst. Aus diesem Grund haben wir Tipps zusammengestellt, die dir zeigen, wie du Resultate besser und glaubwürdiger einschätzen und präsentieren kannst.
Das Problem mit der präzisen Umsatzvorhersage
Wenn du Lotto spielst, gehst du eine Wette ein, dass du mit einer Wahrscheinlichkeit von 1:15 Millionen morgen mit sechs Richtigen Millionär geworden bist.
Ein Test ist auch eine Art “Wette”.
Du wettest auf mehr Uplift.
Da die mehrheitliche Empfehlung darin besteht, einen A/B-Test bis zu einer bestimmten erzielten statistischen Konfidenz (oft werden 95% verwendet) laufen zu lassen, ist das eine verdammt gute Wette. Jedes Mal, wenn du einen A/B-Test durchführst, sorgst du also für Planbarkeit im Output.
Aber lediglich 1:1 in Euros beim Uplift zu denken ist nicht weit genug gedacht.
Denn die Resultate und Erkenntnisse aus absolvierten A/B-Tests sorgen neben dem Invest auch für eine sehr hohe Wahrscheinlichkeit auf einen Wertbeitrag, und stellen deshalb immer eine gute Investition dar.
Nach Abschluss eines jeden Experiments weißt du zu einem hohen Prozentsatz, ob du auf dem Holzweg bist oder nicht.
Leider verlaufen im Alltag die Hochrechnungen und Annahmen oft fehlerhaft und schüren falsche Erwartungen. Auf einmal wird bis ins Management über Testlaufzeiten, Intervalle oder Umsatzschätzungen debattiert. Oder es gibt Missverständnisse oder fehlendes methodisches Wissen um mit diesen statistischen Begriffe richtig umzugehen.
Bevor man sich versieht, beeinflusst die Uplift-Annahme die Steuerung der Unternehmensziele – und fertig ist das Rezept für Frustrations-Testing mittels falscher Hochrechnungen und mangelnder Testanalyse.
Möglicherweise verschwand auch ein Uplift nach kurzer Zeit wieder und du musst nun herausfinden, was richtig ist.
Glücklicherweise existieren 3 erprobte Hochrechnungen, um Ideen für kontrolliertes Wachstum und strategisches Testing zu planen, sowie verständlich in Meetings oder bei Reportings weiterzutragen.
Der Uplift ist immer eine Breite an Eintrittswahrscheinlichkeiten
Der Uplift wird üblicherweise berechnet, indem die Mittelwerte zweier Varianten ins Verhältnis gesetzt werden.
Nehmen wir an, du rollst in deinem A/B-Test die Variante “B” aus, bei dem dir zum durchgeführten Zeitpunkt die Zahlen sagen, dass zu 95% circa 8.3 Mio. Euro Uplift in einem Jahr rausspringen können.
Zu 50% sind es sogar deutlich mehr als diese 8.3 Mio. Euro.
Solche Bandbreiten an positivem als auch negativem Uplift pro Experiment kannst du an den unten aufgeführten Beispielkurven ablesen. Dieser Darstellung liegt eine bayesianische Auswertungsmethodik zu grunde, bei der die Eintrittswahrscheinlichkeiten bestimmter Uplift-Szenarien direkt berechnet und interpretiert werden können. Anders als beim frequentistischen Ansatz, bei dem der Mittelwert stark im Fokus steht, stellt der bayesianische Ansatz die Angabe von Wahrscheinlichkeiten für den Eintritt bestimmter Mindest-Uplifts in den Vordergrund. Das macht dieses Verfahren sehr viel wertvoller und aussagekräftiger in der Interpretation von Testergebnissen.
Selbst wenn du am Ende “nur” den Umsatz hältst bedeutet das: Hättest du diese Experimente nicht live gebracht, wärst du zu 95% schlechter dran als im Vorjahr.
Na, wie klingt das?
Die konsequente Umsetzung von A/B-Testing ist die einzige Möglichkeit kontrolliertes Wachstum zu erzielen oder ein “Growth-Team” in der Produktweiterentwicklung zu etablieren.
Learnings, wenn es um Eintrittswahrscheinlichkeiten geht:
- reporte nicht nur in blanken Uplifts, sondern in Prozenten und dem jeweiligen Kontext
- denke daran, beim A/B-Testing auch das Konfidenzintervall zu kommunizieren und arbeite mit bayesiansichen Eintrittswahrscheinlichkeiten.
- erkläre auch den Wert nicht-monetäre Erkenntnisse – was wurde gelernt?
- nutze Sample Size Tools VOR JEDEM Test, um Uplifts sicher nachzuweisen
- setze die Testresultate ins Verhältnis zu bisherigen Tests
- erwähne Dämpfungsfaktoren und teile darauf basiert deine Einschätzungen lieber konservativ als zu optimistisch (wie das geht, erkläre ich dir gleich)
- nutze den Uplift/ Output als Priorisierungskriterium für den Backlog
Die Abfolge von implementierten Tests ist letztlich auch ein kompensatorischer Faktor für die „Abnutzung“ deiner derzeitigen Marktposition, sowie dem Evolutionsstatus deiner Verkaufsplattform im Vergleich zum Wettbewerb.
Zusätzlich zu den obigen Eintrittswahrscheinlichkeiten, müssen wir uns noch einen weiteren Bereich anschauen: Weiche Faktoren, die die Validität von Experimenten beeinflussen.
Weiche Faktoren der Validität: Dämpfungsfaktoren beim A/B-Testing
Grundsätzlich solltest du immer eigene Kampagnen betrachten, die deinen Test beeinflussen könnten.
Gab es während deiner Tests konkurrierende Sales-Aktionen oder Wettbewerber, die deine Optimierungsidee beeinflussen konnten?
Nehmen wir an, du produzierst T-Shirts und verkaufst sie auf deiner E-Commerce-Plattform.
In einem A/B-Test hast du für 50% des Traffics bei den Shirts mit Streichpreisen gearbeitet – bei den anderen 50% nicht.
Der Streichpreis hat super funktioniert und du setzt den Test um. Nun solltest du folgendes mit in deine Analyse ziehen.
Multiple Variablen: Dämpfungsfaktoren, die beim A/B-Testing deine Umsatzschätzungen in Euro verzerren:
- Was hat im Testzeitraum die Konkurrenz, also der Markt, an Maßnahmen parallel zu dir im “Kampf um den Kunden” durchgeführt?
- Zu wieviel Prozent haben andere Kampagnen, wie Sales-Aktionen, Einfluss auf den Umsatz?
- Gab es Multi-Channel-Aktionen wie Katalogsendungen, die deinen Test beeinflussen können?
- Welcher Saisonalität, sonstigen Ereignissen oder Zyklen unterliegst du?
- Welche Marketingaktionen hat dein härtester Konkurrent zum Zeitpunkt des Tests gefahren?
- Welche sonstigen wirtschaftlichen Faktoren haben in der Zeit deines Tests Einfluss auf die Attraktivität deiner Produktes gehabt?
Alle diese Rahmenbedingungen sind möglicherweise dämpfende Einflüsse auf die Resultate deines Tests. Berücksichtige daher beim A/B-Testing und Reporting immer deine Testumgebung und die Marktgegebenheiten, denen du ausgesetzt bist.
Berücksichtige diese multiplen Variablen immer, wenn du Experimente durchführst und Erfolgsschätzungen oder in Retros kommunizierst.
U-Modell zur Umsatzvorhersage: Wie präzise muss es sein?
Da du für deine Website ja nicht nur ein Experiment, sondern mehrere laufen lässt, generierst du für jeden Test eine Aussage über den Uplift und somit die Nutzerakzeptanz für die Veränderung auf der Website.
Wenn du es schaffst, pro Jahr 20-40 oder mehr Tests durchzuführen, dann kannst du den Wertbeitrag deines Testing-Programms sehr schön gegeneinander halten und in einem nutzerzentrierten Backlog nach dem Wert priorisieren. Hierfür kann der Uplift in Euro ein Priorisierungsfaktor sein.
Neben der Verwendung von Vorhersage Methoden mittels Dämpfungsfaktoren besteht auch die Möglichkeit eine dauerhafte Kontrollgruppe einzuführen. An dieser Stelle ist es wichtig zu erwähnen, dass Vorhersagemodelle immer mit einer gewissen Unsicherheit behaftet sind und per se mit Prognosefehlern einhergehen. Wie sich Uplifts in der Zukunft entwickeln, lässt sich nie 100% vorhersagen.
Das Einführen einer dauerhaften Kontrollgruppe ist offen gesagt, der einzig valide Weg um den mittel- bis langfristigen Effekt von Optimierungsmaßnahmen wirklich zu messen. Hier wird einem Prozentsatz der Nutzer dauerhaft die aktuelle Version der Website OHNE die implementierten Optmierungsmaßnahmen gezeigt welche gegen die neue kumulierte Variante mit den Optimierungen läuft. Diese Methodik ist allerdings mit gewissen Herausforderungen verbunden, wie z.B. hohem technischen Aufwand. Zudem verzichtet man auf Umsatz, weil ein gewisser Teil der Nutzer die Website ohne die gewinnbringenden Verbesserungen sieht. Es gibt allerdings Möglichkeiten, diese Kontrollgruppe auch in Testing Tools fest zu implementieren anstatt backend-seitig über die IT. Abhängig vom Traffic kann man außerdem die Größe dieser overall Control Group auf eine akzeptable Größe minimieren und z.B. nur 5% – 10% des Traffics dauerhaft “einfrieren”.
Dauerhafte Nullgruppen und Hochrechnungen haben beide ihre Vor- und Nachteile (Stichwort: Opportunitätskosten). Im folgenden konzentrieren wir uns auf mögliche Methoden zur Prognose von Testergebnissen mittels Hochrechnungen.
Das Problem mit dem Hochrechnen: wir wissen jetzt, das Resultate variieren – wie gehen wir damit um, wenn wir den tatsächlichen Wertbeitrag vom Experimentzeitraum auf einen größeren/ Business-Zeitraum umrechnen wollen? Wie viele Experimente sollten wir nutzen und welche Anzahl an Kontrollgruppen ergeben Sinn?
Um dies besser abwägen zu können, zeigt dir das U-Modell der Validität, wie unterschiedliche Hochrechnungen einzuschätzen sind.
Das U-Modell der Validität
Das U-Modell verfügt über zwei Achsen:
-
- Die eine Achse zeigt dir den Aufwand, den du betreiben musst, um einen gewissen Grad an Entscheidungssicherheit zu erlangen.
- Die andere Achse ist die der Validität, bezogen auf die Entscheidung und zeigt dir, wie valide die Transparenz über die Entscheidung ist.
Ziel sollte es für dich immer sein, einen Mittelweg zwischen Aufwand und Validität zu finden.
Wenn du aus dem Bauch heraus entscheidest, dann erreichst du keine Validität, weil du kein Feedback vom Kunden oder von anderen Einflussfaktoren auf deine Tests mit einbeziehst. Am Ende machst du ein halbes Jahr eine Entwicklung, danach denkst du, dass es jetzt richtig abgeht, aber es passiert nix. Deine Bauchentscheidung hat also Ressourcen verbrannt.
Nutze daher auch das U-Modell für deine Bewertung, wenn du eine Auswahl über die unten aufgeführten Hochrechnungsmethode triffst.
Wir bei konversionsKRAFT präferieren die in der Grafik abgebildeten Varianten 2 (gedämpfte Kumulierung) oder 3 (lineare Abschreibung), weil sich hier Aufwand und Nutzen in einem sinnvollen Verhältnis befinden.
Denn dauerhafte Kontrollgruppen verbrennen wichtige Ressourcen. Du schickst Nutzer bewusst in einen “alten Kontroll-Funnel”, der nachweislich eine schlechtere Leistung als deine neuen Tests an den Tag legt. Das alles kostet Umsatz, quält deine IT und sorgt am Ende für einen Aufwand, der den angestrebten Nutzen eines Experiments wieder auffrisst.
3 Hochrechnungen, um Uplifts besser einordnen zu können
Folgender Tipp gleich zu Beginn: Suche dir eine Hochrechnungsmethode, mit der du die statistische Validität des Uplifts noch weiter verbessern kannst und gleichzeitig die Vergleichbarkeit sicher stellst.
1. Hochrechnung durch die einfache Kumulation
Die einfache Kumulation deiner Ergebnisse über einen bestimmten Zeitraum ermöglicht es dir, von allen Experimenten rückschlüsse zu ziehen. Dafür summierst du den Uplift aller Experimente z.B. von Jahr A vs. Jahr B oder von Periode A vs. Periode B.
Achte dabei darauf, immer die gleiche Saisonalität zu betrachten, um bei relativ geringem Aufwand zu wissen, wie sich die Menge und der relative Uplift im Unternehmen verbessert. Der Aufwand dieser Methode ist sehr gering, aber die Aussagekräftigkeit solltest du eher niedrig einzuschätzen.
2. Hochrechnung durch gedämpfte Kumulation aller Einzelergebnisse
Du gehst wie bei Methode 1 vor. Zusätzlich legst du nun einen Dämpfungsfaktor fest.
Dieser bildet die weiter oben beschriebenen Faktoren ab, welche dazu führen das dein situativ im Experiment erzielter Uplift noch etwas valider wird. Der Aufwand bleibt auch bei dieser Vorhersage klein, aber die Validität steigt.
Zusätzlich zu den oben beschriebenen Faktoren, hat sich im E-Commerce eine Dämpfung von circa 30% als sinnvoll bewährt.
3. Hochrechnung durch lineare Abschreibung der Gesamtwirkung
Die lineare Abschreibung der Gesamtwirkung deiner Maßnahmen, basiert auf dem Gewöhnungseffekt und berücksichtigt auch den Abnutzungsgrad, dass ein neues Top-Feature mit kurzzeitigem Alleinstellungsmerkmal auch an Wirkungs- und Uplift-Potential verliert. Mit dieser Methode erreichst du eine höhere Validität, und eine bessere granulare Aufteilung des Budgets, bei akzeptablem Aufwand.
Je nach Time-to-Market musst du für deinen Anwendungsfall einen Zeitraum festlegen, in dem du prozentual immer einen Anteil des Uplifts reduzierst. In einem hochkompetitiven Markt kann die Dauer möglicherweise sechs Monate betragen, in einem sich normal entwickelndem Marktumfeld 1-2 Jahre, in einem langsamen Markt über 2 Jahre. Hier bist du mit deiner Einschätzung gefragt.
Fazit: Uplifts besser planen und intern erwartungskonform kommunizieren
Nutze Experimentation als strategischen Wachstumsplaner- und Treiber. Stell dich dem “Dilemma der Validität” und du wirst stetig kundenzentrierter und erfolgreicher werden.
- Wenn du statistisch nachgewiesen hast, dass ein Experiment bezogen auf die Laufzeit gegenüber der Kontrollgruppe eine signifikant bessere Leistungsfähigkeit aufweist, dann würde ich dieses dauerhaft online umsetzen
- Beachte, dass du die Leistungsfähigkeit verschiedener Experimente untereinander vergleichst
- Stelle sicher, dass du die Metriken in der Bewertung und Einordnung nicht veränderst
- Je mehr situativer Uplift, desto eher solltest du dein Experiment im Backlog nach “vorne” in der Priorität schieben
- Zeige dem Management transparent, wie die Bewertungen entstehen und erkläre, wenn sich Einschätzungen durch Anpassen von Metriken ändern
Gehe nie davon aus, dass jemand der Unternehmensentscheidungen treffen muss, aber sich nicht jeden Tag mit Experimenten und deren Uplift beschäftigt deine Story sofort versteht. Begleite stets das Publikum, die deine Ergebnisreports lesen und wiederhole von Zeit zu Zeit wie die Hochrechnungen zu interpretieren sind.
Sprich transparent die unterschiedlichen Dämpfungsfaktoren und Hochrechnungsmöglichkeiten bei Umsatzschätzungen an und kommuniziere lieber pessimistisch als zu optimistisch.
Unser Sample Size Tool hilft dir, deine Uplifts sicher nachzuweisen und eine bessere Einschätzung für den nachweisbaren Effekt vornehmen zu können.
Fröhliche Konversion wünscht das konversionsKRAFT Team.
1 Kommentar
Jonas,
Super geschrieben und natürlich herzlichen Dank für die wertvollen Tipps. Liebe Grüße aus Berlin