So priorisierst du dein Experimentation-Backlog (inkl. Download)
Testideen stecken in jedem Unternehmen und in jedem Optimierer-Kopf zu genüge. Doch die Praxis zeigt, dass wir große Anstrengungen aufwenden müssen, um die Fülle an Ideen in eine für uns verständliche, sichere und argumentativ fundierte Reihenfolge zu bringen.
In diesem Beitrag zeige ich dir eine Fülle an Priorisierungs-Frameworks und wie du sie für dich bei der Backlog-Priorisierung einsetzen kannst. Zudem klären wir, wie du einen der größten Kritikpunkte – die fehlende Objektivität in der Bewertung des potenziellen Impacts – auflöst.
Das erwartet dich in diesem Beitrag:
1. Warum sollte man überhaupt priorisieren?
2. Was bedeutet Priorisierung?
3. Man kann nicht nicht priorisieren
4. 3 wenig zielführende Priorisierungsprinzipien
5. Zielführende Hypothesen-Priorisierung in 3 Minuten
6. Übersicht verbreiteter Priorisierungs-Frameworks
6.1 Das TIR-Framework von Bryan Eisenberg
6.4 Das PXL-Framework von ConversionXL
7. Das konversionsKRAFT Priorisierungs-Framework
8. Faktoren zur objektiver Bewertung von Aufwand und Impact
9. iridion: konversionsKRAFT Priorisierungs-Framework
10. Priorisierung 2.0 – der Monetary-Score
11. Download: Excel-Vorlage Hypothesen-Priorisierung (xls)
1. Warum sollte man überhaupt priorisieren?
Nehmen wir mal an, du packst deinen Rucksack für die Besteigung eines Gipfels. Da dein Rucksack nicht unbegrenzt groß ist und bereits viele Dinge drin sind, musst du dich final zwischen zwei Dingen entscheiden: Spiegelreflexkamera oder einer komprimierten Sauerstoffflasche.
Also, worauf legst du größeren Wert?
Willst du schöne Bilder machen, die du Familie und Freunden nach erfolgreicher Mission stolz präsentieren kannst? Oder willst du für alle Fälle in der extremen Höhe dank des mitgeführten Sauerstoffs doch lieber dein Leben retten und im Anschluss Familie und Freunden davon berichten – dann eben ohne Fotos?
Obwohl beide Möglichkeiten gleichen Aufwand (in diesem Fall Gewicht in deinem Rucksack) verursachen, sind die möglichen Folgen sehr unterschiedlich.
Die Lösung lautet: vergiss die Fotos und nimm den lebenswichtigen Sauerstoff mit!
Das Gewicht und der verbrauchte Platz in deinem Rucksack (Aufwand) ist bei beiden Möglichkeiten ungefähr gleich. Die Folgen (Impact) hingegen könnten unterschiedlicher nicht sein. Mit der Kamera kannst du tolle Fotos schießen, allerdings könnte das ganze Unterfangen tödlich für dich enden. Mit dem Sauerstoff kannst du zwar keine Fotos machen, aber dafür dein Leben retten.
Im Berufsalltag geht es mit Sicherheit nicht um Leben und Tod – vielleicht aber um deinen Job. Auf jeden Fall geht es aber darum in der wenigen Zeit, die wir alle haben, die bestmöglichen Dinge zu tun.
Priorisierung ist der größte Hebel um zu beeinflussen, wie erfolgreich man arbeitet.
Nur durch gute Priorisierung schaffen wir den richtigen Einsatz der eigenen Zeit zu beeinflussen und unsere Kraft in die richtigen Dinge zu stecken, statt einfach nur möglichst viel zu arbeiten.
2. Was bedeutet Priorisierung?
Der deutsche Mathematiker und Wirtschaftswissenschaftler Helmar Nahr hat das präzise auf den Punkt gebracht:
“Prioritäten setzen heißt auswählen, was liegen bleiben soll.”
Der Duden sagt unter anderem „in eine Rangfolge bringen…“ – aber wie eigentlich?
3. Man kann nicht nicht priorisieren
Genau wie beim ersten Axiom der Kommunikationstheorie von Paul Watzlawick „Man kann nicht nicht kommunizieren“ verhält es sich bei der Priorisierung im Backlog: Man kann nicht nicht priorisieren! Egal wie (vogelwild) man seine Testideen auswählt, es folgt einem Prinzip, selbst dann, wenn dies jeder Logik oder kaufmännischer Denke entbehrt.
In der Praxis trennt sich bei der Priorisierung die Spreu vom Weizen. Es gibt Unternehmen, die hervorragend priorisieren und andere die – sagen wir es positiv – noch deutliches Verbesserungspotenzial haben.
So viel schon vorweg – bei der Priorisierung geht es um Geld. Je nach Unternehmensgröße um sehr viel Geld.
Wer also gut priorisiert, verschafft sich einen wichtigen Wettbewerbsvorteil.
4. 3 wenig zielführende Priorisierungsprinzipien, die leider immer noch eingesetzt werden
Bevor ich auf einige Priorisierungs-Frameworks im Detail eingehe, möchte ich auf drei typische Fehler bei der Priorisierung hinweisen, die mir leider in Unternehmen immer wieder begegnen. Unsere Digital Growth-Studie hat aufgedeckt, dass die folgenden drei Prinzipien zur Priorisierung leider immer noch Anwendung finden.
FIFO-Prinzip – First in first out
Bei Unternehmen, die nicht bewusst priorisieren, werden Ideen fahrlässiger Weise in der Chronologie ihrer Entstehung umgesetzt. Wer sich schon mal mit Lagerhaltungsprinzipien befasst hat, kennt diese Vorgehensweise unter FIFO (First In First Out).
Das FIFO Prinzip ist schon allein deshalb problematisch, da es keine echte Priorisierung ist, sondern nur eine „Schlange zur Abarbeitung”. Es häufen sich immer mehr Dinge an, die stumpf abgearbeitet werden. Auch wenn sich Rahmenbedingungen ändern, wird einfach immer weiter gemacht. Ein tolles System für Lagerhaltung, aber leider der Tod jedes Optimierungsprogramms.
Warum?
Stell dir vor, du hast die perfekte Idee gefunden. Eine kleine Änderung, die die Conversion-Rate der Seite ins Unendliche steigern wird. Aber du bekommst erst in 4 Monaten einen Slot zur Umsetzung in der IT.
Das einzige, was jetzt hilft, ist die Chef-Keule. In Unternehmen, die nach diesem Prinzip arbeiten, wird diese Keule für so einem Fall gezogen. Der Entscheider hebt die Änderung zum Chef- oder sogar Vorstands-Projekt an und schwups hat man den IT-Slot dann doch früher… kennst du so etwas?
Bauchgefühl
Sofern du bei der Umsetzungsentscheidung für einen Test lediglich ein gutes Gefühl hast, aber keinerlei Sachargumente dafür vorbringen kannst, verlässt du dich auf deinem Weg zum Wachstum auf dein Glück.
Und da Glück statistisch betrachtet ein Ausreißer ist, drücke ich fest meine Daumen für die 13 % der deutschen Unternehmen, die sich bei der Auswahl von Testideen allein auf ihre Intuition verlassen!
Entscheidung durch HIPPO
Entscheider heißen Entscheider, weil sie Dinge entscheiden. So war es schon immer und die Entscheidungen waren ja gut. Zumindest haben sie Firmen dahin gebracht, wo sie heute stehen.
Seit der Einführung der A/B-Tests sägen wir jedoch am Stuhl von Entscheidern. Plötzlich sollen sie nicht mehr sagen, was gut oder schlecht ist.
Welche Dinge auf der Website verändert werden müssen, soll jetzt der Nutzer selbst entscheiden und gewissermaßen basis-demokratisch über alle Website-Besucher hinweg entschieden werden.
Das nagt am Selbstbewusstsein vieler Entscheider der „alten Schule”. Sie klammern sich daran, dass sie die Entscheidungen treffen müssen und sehen nicht die Chancen ihre Entscheidungen durch einen Test zu validieren und somit die langfristig besseren Entscheidungen zu treffen.
HIPPO, also Highest Paid Person’s Opinion beschreibt eine Priorisierung durch eine Person, die mit der operativen Ebene eher wenig zu tun hat. Aus Erzählungen eines Kollegen ist mir der Satz seines Professors im Gedächtnis geblieben: „Gehobenes Management ist geprägt von Abwesenheit der Sach- und Fachkenntnis.”.
Diese Aussage ist sicherlich etwas überzogen, aber wenn wir überlegen, wo viele Senior Manager ihre „Inspiration“ für das hernehmen, was gerade „aktuell / trend / prio“ ist, dann ist die Implikation, dass man sich auf Themen stürzt die gerade gehyped werden, ohne kritisch den Nutzen für die (End)kunden validiert zu haben, häufig gegeben.
Kaum zu glauben, dass Unternehmen heutzutage noch auf diese Art Entscheidungen fällen. Wie geht es also besser?
5. Zielführende Hypothesen-Priorisierung in 3 Minuten
André Morys erklärt das grundlegende Prinzip der Hypothesen-Priorisierung sehr schön in nur 3 Minuten im Conversion Whiteboard Episode 5:
Alle sinnvollen Frameworks beziehen bei der Hypothesen-Priorisierung Faktoren zum Aufwand und erwartenden Impact des Tests ein, damit du eine sichere Backlog-Gewichtung erreichst.
6. Übersicht verbreiteter Priorisierungs-Frameworks
Es gibt eine Handvoll Priorisierungs-Frameworks, die im Bereich des A/B-Testings und der Produktentwicklung eingesetzt werden und die ich hier kurz vorstellen werde.
6.1 Das TIR-Framework von Bryan Eisenberg
Das TIR-Framework beruht auf 3 Faktoren, die auf einer Skala von 1 (schlecht) bis 5 (gut) bewertet und dann multipliziert werden. So ergibt sich ein Maximal-Scoring von 125.
Priorität = T ime x I mpact x R essources
T – Time: Eisenberg will hierfür wissen, wie lange es dauert, bis der Test (signifikante) Ergebnisse bringt. Dazu gehören als Größen die reine Testlaufzeit, die benötigte Zeit zur Konzeptentwicklung sowie die Zeit, die deine Entwickler zur Umsetzung benötigen.
I – Impact: Hierfür wird wie bei fast allen Frameworks (Spoileralarm!!!) der zu erwartende Uplift eingeschätzt. Zusätzlich ist wichtig zu schätzen, ob der Test Einfluss auf die gesamte Nutzerschaft hat oder nur Segmente abdeckt, und ob der Test zu einer Umsatzsteigerung führt bzw. ob Einsparungen realisiert werden können.
R – Ressources: Ein reiner Kostenfaktor. Es soll beziffert werden, mit welchem Betrag Team, Tools usw. zu Buche schlagen. Wenn du ein Fuchs bist, ist dir aufgefallen, dass bereits beim Faktor Time Aufwände des Teams berücksichtigt wurden. Dabei handelt es sich zwar nur um die Stunden ohne Verbindung der Kosten, dennoch wird dies in der Praxis der Bewertung eine Herausforderung darstellen, die Kosten trennscharf zwischen T und R aufzuteilen.
6.2 Das PIE Framework
Auch unsere Kollegen aus der Global Optimization Group von Widerfunnel haben ein einfaches Prinzip entwickelt, das auf drei Faktoren für die Bewertung deiner Idee beruht. Diese werden auf einer Skala von 0 „gering“ bis 10 „hoch“ gemessen.
P wie Potential
Die entscheidende Frage ist, wie viele Verbesserungen auf der Seite getroffen werden können. Das Potenzial lässt sich mit einer Kombination aus qualitativer und quantitativer Analyse relativ gut einschätzen.
Hierfür eignet sich zum Beispiel das LIFT-Modell bei gleichzeitiger Betrachtung deines Analytics-Tools. Mehr Informationen zu qualitativen Conversion-Analysen findest du im Beitrag 4 Conversion-Frameworks für qualitative Analysen.
I wie Importance
Wie wertvoll ist der Traffic auf den zu testenden Seiten? Das ergibt sich aus der Kombination von Traffic-Menge und Wert einer Conversion bzw. für wie viel Geld der Traffic eingekauft wurde oder wie viel es kosten würde diesen Traffic zu kaufen. Ein Indikator für eine hohe Wertung bei Importance kann allerdings ebenso ein hoher zu erwartender ROI sein.
E wie Ease
Die Frage hier: wie komplex ist eine Implementierung? Dabei werden zum einen die technischen Herausforderungen betrachtet und zum anderen Blocker wie politische Barrieren oder eine hohe Anzahl an Stakeholdern.
6.3 Der ICE-Score
Auch der ICE Score von GrowthHackers.com arbeitet mit drei Faktoren und einer Bewertung jedes Faktors von 1 (gering) bis 10 (sehr hoch).
ICE Score = I mpact x C onfidence x E ase
I wie Impact
Der Impact zeigt an, wie stark wir davon ausgehen, dass sich die gewünschte Metrik (z.B. Conversion Rate) durch den Test positiv beeinflussen lassen wird. (Hoher Wert = hoher Impact)
C wie Confidence
Dieser Wert spiegelt wider, wie sicher sie sich über die Bewertung des Impacts sind. (Hoher Wert = hohe Sicherheit)
E wie Ease
Wie einfach wird die Umsetzung. Dieser Wert gibt eine Einschätzung des Aufwands und der Ressourcen an, die für die Umsetzung des Tests nötig sind. (ACHTUNG: hoher Wert = geringer Aufwand)
6.4 Das PXL-Framework von ConversionXL
Dieses Framework ist nicht ganz so stark auf die gewohnte Kombination aus Aufwand und Impact geprägt, geht aber auch auf Faktoren bzw. Fragen ein, die genau darauf einzahlen.
Die erste Frage bezieht sich auf die Positionierung der Testidee im Seitenverlauf. Ist sie „above the fold“, also im oberen Seitenbereich und so auch sichtbar für Personen, die nicht bis ganz unten scrollen? (Dieser Wert zahlt auf den möglichen Impact ein.)
Weiter wird gefragt, ob die Veränderung der Testvariante innerhalb von 5 Sekunden erkennbar ist. Falls nicht könnte sich das negativ auf den Impact auswirken.
Ebenfalls wichtig für den zu erwartenden Impact ist aus Sicht von Conversion XL, ob Elemente entfernt und/oder hinzugefügt wurden und welches Traffic-Niveau der mit dem Test versehene Seitenbereich hat.
Das PXL-Framework bezieht in die Bewertung einer Idee außerdem die Analyse und daraus gewonnene Daten mit ein. So sollen alle Ergebnisse aus vorangegangenen Testings, Umfragen, Interviews, Heatmaps, Daten aus Eyetracking und Insights aus den Analytics Daten in die Bewertung mit eingehen.
Die einzige Frage, die im Aufwands-Kontext gestellt wird, ist die Frage nach der Einfachheit der Implementierung. Hier lassen sich allerdings abweichend vom sonst binären Bewertungssystem bei PXL noch mehr Werte eingeben als 1 oder 0. Somit ist PXL das einzige vorgefertigte Framework, das einzelne Faktoren gewichtet. So sind auch die Fragen „Noticable within 5 sec?“ und „Adding or removing an element?“ höher gewichtet, als die Übrigen (nur mit 2 oder 0 bewertbar).
Warum diese beiden Fragen, und nicht etwa das Thema „High Traffic“, höher gewichtet werden, bleibt unklar. Wer das PXL Framework testen möchte, kann sich die Tabelle hier downloaden.
7. Das konversionsKRAFT Priorisierungs-Framework
Du hast nun einige Methoden kennengelernt Testhypothesen zu priorisieren. Das grundlegende Prinzip der Priorisierung ist dir also nicht neu.
Vor jeder Investition fragen wir uns, was ist der Aufwand und was ist der zu erwartende Impact bzw. Nutzen der Veränderung.
Somit ergibt sich eine einfache Basis-Formel: Priorität ist das Resultat von Impact geteilt durch Aufwand. Je höher die Zahl, desto besser ist das Kosten-/Nutzenverhältnis der Änderung.
AI-Score: Aufwand/Impact-Score (Prio der Hypothese)
Aufwand: angenommener Aufwand für die Erstellung des Tests
Impact: angenommener Grad der Auswirkungen auf das gewünschte Conversion-Goal
Einfach ausgedrückt: je höher der Impact und je geringer der Aufwand für die Umsetzung, desto besser ist die Idee und desto höher die Priorität.
Die Herausforderung dabei:
Leider gibt es bei der Priorisierung nach Aufwand und Impact eine kleine aber gemeine Herausforderung: Woher sollen wir denn wissen, welchen Impact eine Veränderung auf die gewünschte Metrik (z.B. Conversion-Rate) hat, wenn wir es noch nicht getestet haben?
Schauen wir also einfach in die Glaskugel oder denken uns einen Impact nach dem Prinzip Hoffnung aus?
Das wäre sicher einfacher, aber ist natürlich wenig zielführend. Dies ist einer der größten Kritikpunkte an vielen Priorisierungsframeworks – die fehlende Objektivität in der Bewertung des potenziellen Impacts.
Wichtig zu verstehen ist, dass die gewünschte Veränderung der Metrik (z.B. Conversion-Rate) allein durch eine Verhaltensänderung beim Nutzer hervorgerufen wird.
Um objektiver bewerten zu können, schlüsseln wir die beiden Faktoren Aufwand und Impact noch weiter auf.
8. Faktoren zur objektiven Bewertung von Aufwand und Impact
In der Praxis hat sich zur Bewertung von Aufwand und Impact eine detaillierte Sicht auf die nachfolgenden Faktoren als nützlich erwiesen.
Wir nutzen jeweils vier Faktoren sowohl für den Aufwand als auch für den Impact und bewerten diese auf einer Skala von 1 (kaum Aufwand / Impact) bis 5 (sehr hoher Aufwand / Impact). Bei Bedarf können diese Faktoren natürlich um weitere ergänzt werden.
Aufwand
Folgende Faktoren nutzen wir, um den Aufwand eines Tests abzuschätzen. Wichtig hierbei ist, dass es in dieser Betrachtung nicht um die Aufwände für eine Live-Implementierung geht, sondern rein um die Aufwände, die entstehen, um den Split-Test durchzuführen.
1. Backend:
Wie hoch ist der Aufwand für systemseitige Entwicklungen? (Kleine Hilfestellung: 1 = keine Veränderungen am Backend nötig; 3 = Ausgabe eines bestehenden Produkt-Details auf der Kategorie-Seite; 5 = neuer Checkout)
2. Frontend:
Wie hoch ist der Aufwand der Umsetzung der Test-Varianten durch Front-End-Manipulation? (Wichtig: eventuelle Backend-Aufwände, die für die Änderung nötig sind, werden bereits im ersten Faktor berücksichtigt und werden somit hier nicht ein zweites Mal berechnet.)
3. Konzept:
Wie aufwendig wird das Konzept werden, um die Testhypothese zu Verbroben? (Bitte auch beachten: Abstimmungsrunden, nötige Prozesse, Dokumentation des Konzepts usw.)
4. Sonstiges:
Gibt es noch weitere Anforderungen, die für Aufwand sorgen? Typische Beispiele hier sind: erhöhte Aufwände durch Abstimmungen mit der Rechtsabteilung, Abstimmung mit der CI-Polizei / Branding, politische Hürden, …
Impact
Die Bewertung der zu erwartenden Auswirkungen ist in der Regel schwieriger, da wir ja nicht in die Glaskugel schauen können. In den letzten 10 Jahren unserer Arbeit haben sich vier Faktoren herauskristallisiert, die maßgeblich den Impact einer Hypothese beeinflussen und objektiver zu beurteilen sind:
1. Visueller Kontrast:
Wie stark nimmt der Besucher die optische Veränderung wahr?
2. Verhaltenskontrast:
Wie stark wird die Veränderung das Verhalten des Besuchers ändern können?
3. Behavior Patterns:
Wie stark werden konsumpsychologische Trigger (z.B. Verknappung, Social Proof etc.) in der Hypothese genutzt? Bei dem Einsatz von Behavior Patterns ist bereits durch empirische Tests nachgewiesen, dass diese das Verhalten von Menschen ändern.
4. Traffic:
Wie viele Nutzer sehen den Test?
(Achtung: eventuell ausgeschlossene Audiences / Segmente beachten)
9. iridion: konversionsKRAFT Priorisierungs-Framework und mehr
Ein kleiner Werbeblock in eigener Sache: Wenn du das konversionsKRAFT Priorisierungs-Framework in einem schicken Tool ausprobieren möchtest, empfehle ich dir doch mal einen Blick in unser Conversion-Management-Tool iridion zu werfen.
Dort kannst du den kompletten Prozess von der strukturierten interaktiven Analyse deiner Seite mit dem 7-Ebenen-Modell, über das Priorisieren des Backlogs, Roadmap-Planung bis hin zum Reporting den kompletten Prozess in einem Tool begleiten. Zusätzlich bieten wir auch ein Modul an, mit dem du die Tests direkt ausspielen und personalisieren kannst.
10. Priorisierung 2.0 – der Monetary-Score
Wer noch etwas weitergehen will, als nur den Aufwand und Impact einer Maßnahme zur Priorisierung zu nutzen, der kann zusätzlich den zu erwartenden Business-Impact abschätzen und den Monetary-Score zur Priorisierung nutzen.
Der Monetary-Score berechnet sich auf Basis der zu erwartenden mittleren Effekte auf die Wertsteigerung der Maßnahme multipliziert mit dem AI-Score.
Die Faktoren des Monetary-Score
Folgende Faktoren werden für die Ermittlung des Monetary-Score benötigt:
Primäre KPI / Goal:
Welche KPI soll der Test beeinflussen? (Hier gilt nur ein Goal bzw. nur eine KPI!)
Anzahl Conversions p.a.:
Wie hoch ist die Anzahl der Conversions im Jahr auf dem primären Goal?
Wert pro Conversion:
Wie viel ist eine Conversion wert? Hierzu ist es natürlich wichtig jede relevante KPI mit einem echten Wert zu versehen.
Uplift minimal / realistisch / maximal:
In welchem Bereich wird sich der Uplift bewegen?
Die Bewertung dieses Faktors stellt viele Optimierer vor eine große Herausforderung. Immerhin können wir ja nicht in die Glaskugel schauen und die Entwicklung eines Tests wirklich vorhersagen. Es ist jedoch so, dass man mit steigender Erfahrung entsprechend bessere Forecasts machen kann.
Bitte bei den Werten nicht Null oder negative Werte eintragen. Wir gehen immer davon aus, dass ein Test einen positiven Impact hat. Je höher der Wert ist, desto stärker die potentielle Veränderung in beide Richtungen – also positiv und negativ.
In der Praxis empfiehlt sich die nachträgliche Anpassung der Werte an die echten Uplifts, um hier ein besseres Gefühl für die Größenordnungen zu bekommen. Trag dabei bitte den echten Uplift in die Spalte „realistischer Uplift“ ein und passe die beiden anderen Werte entsprechend an.
Du möchtest noch mehr über Hypothesen-Priorisierung lernen? Keine Angst vor der Kultur des Experimentierens! Gerne kannst du dich für unser Growth Ambassador Programm bewerben, um dich mit anderen Expert:innen unserer Community in regelmäßigen Meetups über A/B-Testing auszutauschen. Es wartet zudem ein sehr interessanter Videokurs auf dich, der dir zeigt, wie du erfolgreich experimentierst.
11. Download: Excel-Vorlage Hypothesen-Priorisierung (xls)
Ich habe für dich eine Excel-Tabelle zur Hypothesen-Priorisierung erstellt, die du dir in unserer Download-Bibliothek herunterladen kannst.
Für wen Excel nicht passend oder nachhaltig genug ist, haben wir mit Iridion ein kostenloses Projektmanagement-Tool für Optimierer entwickelt, um darüber hinaus Testhypothesen zu generieren, dokumentieren und zu priorisieren.
Ich wünsche viel Spaß bei der Priorisierung und freue mich auf Erfahrungsberichte. 🙂
2 Kommentare
Sandro Brengelmann,
Ein interessanter Artikel, aber kann es sein, dass sich in die Darstellung des TIR Frameworks ein kleiner Fehler eingeschlichen hat? Zumindest ergeben die jeweils multiplizierten Zahlen in der Beispielrechnung nicht den als “Score” angegebenen Wert.
Verena,
Sehr hilfreich die Excel-Vorlage, danke!
In welchen Fällen werden denn die Multiplikatoren genutzt?
Warum geht der AI-Score nach oben wenn ich einen Aufwands-Multiplikator verwende und nach unten wenn ich einen für den Impact verwende, müsste es nicht andersrum sein?