Er: “Das müssen wir nicht testen, das ist bereits die Gewinner-Variante aus einem Test.”
Ich: “Die Probanden im Lab fanden es gar nicht gut und wollten hier aber abbrechen.”
Er: “Ja, aber wir haben es ausgetestet. Das war mit Abstand die beste Lösung.”
Ich: “OK….”
(Ich atme innerlich tief durch und überlege mir, wie ich diese Hirnverknotung wertschätzend entwirre. Weiter unten erkläre ich es.)
Diese Illustration von Matthias Henrici zeigt das Dillemma auch gut:

Deshalb möchte ich heute noch einmal auf fünf grundlegende Denkfehler beim Testing eingehen, die mir (auch bei erfahrenen A/B-Testern) immer wieder begegnen:
Testing-Tools gibt es inzwischen wie Sand am Meer und bei fast jedem Unternehmen, das online echte Wertschöpfung betreibt, werden Sie auch benutzt. Die falsche Benutzung kann jedoch viel Optimierungspotenzial brach liegen lassen.
Der Reihe nach:
1) Testen ist nicht optimieren
Der Ablauf ist doch ganz einfach, oder? 1) Problem identifizieren 2) Optimierte Lösung ausdenken 3) Testen. Das Testen dient der Verprobung, ob man richtig lag bei 1) und 2) Dabei gilt die Regel: “Man weiss nicht, was man nicht weiß.” Testergebnisse sind nur so gut wie die Hypothesen, die getestet werden. Und die Hypothesen sind nur so gut wie die Analyse der Seite.
Das ist der Unterschied zu “Ausprobieren”. Dabei hat man keinen Plan, was das wirklich Problem ist und probiert einfach alle möglichen Veränderungen – am besten in einem multivariaten Test – einfach aus.
Der multivariate Test wird dann zur Schrotflinte des Ahnungslosen. (Sorry)
So vermeiden Sie den Fehler: Missbrauchen Sie das Testing-Tool nicht zum Ausprobieren sondern bleiben Sie auf dem methodisch richtigen Pfad. Testen Sie ausschließlich Hypothesen, die Sie begründen können. Es gibt unzählige quantitative und qualitative Methoden um Hypothesen zu generieren – kombinieren Sie diese Methoden im Idealfall um eine höhere Stabilität der Hypothesen zu erhalten.
Weitere Informationen: Conversion Rate Optimization ist wie Fliegen (Schon 3 Jahre alt, stimmt aber immer noch)
2) Testergebnisse sind nicht die Realität
Ein Test, egal ob einfacher A/B Test oder komplexer multivariater Test – ist ein Experiment unter bestimmten Bedingungen. Es ist ein Experiment mit echten Nutzern und die Ergebnisse sind mit Sicherheit valide.
Aber: Wer jemals einzelne Kombinationen eines MVT im A/B-Test verprobt hat, wird schnell beobachten: Die Resultate der Siegervarianten im MVT entsprechen nie den Ergebnissen dieser Varianten AB gegeneinander.
Und ebenso wird das Endergebnis in der Webanalyse, wenn es denn ausgerollt ist, fast niemals exakt den gleichen Uplift zeigen. Zum einen gibt es dann zu viele andere Faktoren, die das Ergebnis beeinflussen, zum anderen ist der gemessene Uplift ein Durchschnittswert aus unzähligen Conversions, die man sich als Normalverteilung vorstellen kann.
Die gute Nachricht: Der echte Uplift kann rein theoretisch auch höher sein. Aber eben auch niedriger – wir werden es nie wirklich messen können.
Der Fehler liegt im Erwartungsmanagement – gerade bei größeren Unternehmen – die nach einem erfolgreichen Test die Resultate im Live-Betrieb reproduzieren wollen und dann meist enttäuscht sind.
So vermeiden Sie den Fehler: Interpretieren Sie Testergebnisse richtig (siehe nächster Fehler) und erklären Sie den Kollegen, Vorgesetzten und allen anderen Beteiligten, dass der im Test gemessene Wert das Resultat eines Experiments ist. Er kann als Indikator für die Wirksamkeit der getesteten Hypothese gelten – aber nicht als sichere Prophezeiung, was nach dem Ausrollen der Verbesserung passieren wird.
Weitere Informationen: “Cosmic Habituation” als Erklärung von Gabriel Beck
3) Der Uplift tritt nicht zu 96% ein
Leider bringen die Testing-Tools dem Anwender nicht das nötige Wissen in Statistik bei, um Testergebnisse richtig zu interpretieren. Einer der häufigsten Fehler ist die Fortsetzung des vorgenannten Problems. Das Testing-Tool zeigt bei der Siegervariante einen Uplift von 19% an – und das “bei einer Wahrscheinlichkeit von 96%”. Falsch. Unterschiedliche Tools zeigen dabei unterschiedliche Werte an, oft ist vom Konfidenzlevel die Rede oder von “Chance to beat Original”.
Das wichtigste Missverständnis: Die “96% CTBO” geben die Wahrscheinlichkeit an, mit der die Siegervariante überhaupt besser performt als das Original. Der ermittelte Uplift ist meist der Durchschnitt aller Conversions der Siegervariante im Kontrast dazu. Der Wert sagt nicht, dass mit 96% Wahrscheinlichkeit, dieser Uplift erzielt werden kann. Das geht gar nicht.
So vermeiden Sie den Fehler: Ein hoher Wert bei “CTBO” (oder wie auch immer der Wert in ihrem Tool heisst) sagt etwas über die “Robustheit” der Ergebnisse im Experiment aus, d.h. sie sagen wie belastbar aus statistischer Sicht die Resultate und der ermittelte Durchschnitspunkt für den Uplift sind. Es ist nicht die Wahrscheinlichkeit, mit der dieser Uplift in der Realität eintritt. Erklären Sie das den anderen Beteiligten bei Tests vorab – sonst ist die Enttäuschung später groß.
Weiterführende Informationen: Wikipedia “Kofidenzintervall” (Achtung, Theorie) oder: “Gefahren bei der Interpretation von A/B-Tests” von David Kuruc
4) Der Sieger ist eventuell die zweitschlechteste Lösung
Testresultate geben Shop-Verantwortlichen, Designern und Online-Marketern ein omnipotentes Gefühl der Unbesiegbarkeit.
Das ist das Gute am Testen.
Der Nachteil ist das falsche Realitätsgefühl, das daraus entsteht. Ein Test sagt nur aus, wie die getesteten Varianten im Kontrast zueinander performen. Das heißt noch lange nicht, dass auch wirklich die beste Lösung gefunden wurde. (Das ist genau der Fehler, den ich im obigen Dialog beschrieben habe). Um das wahre Optimum zu finden braucht es eine ausgeklügelte Kombination aus qualitativen und quantitativen Methoden bei der Analyse, mutige und gut umgesetzte Testkonzepte, und vor allem:
Zeit, Traffic, Test, Geduld und auch Niederlagen
So vermeiden Sie den Fehler: Wiegen Sie sich nach einem ersten guten Test nicht in Sicherheit, das Optimum wirklich gefunden zu haben. Das ist sehr unwahrscheinlich. Testen Sie weiter in dem Bewusstsein, dass der Sieger eben nur die zweitschlechteste Lösung war (so lange, bis Sie auch einmal eine noch schlechtere Variante getestet haben). Wenn Sie zu wenig Traffic haben um wirklich kontinuierlich testen zu können, kombinieren Sie mehrere Methoden bei der Hypothesengenerierung um möglichst valide Hypothesen zu verproben und nicht unnötig Zeit und Traffic zu verschenken (siehe Fehler Nr. 1)
Weiterführender Artikel: Conversion-Optimierung ist von der Venus und Web-Analyse vom Mars
5) Ein Testresultat ohne Uplift ist ein Misserfolg
Jeder, der dieses “BÄM BÄM!” Gefühl beim Betrachten eines erfolgreichen Test kennt, der kennt auch das umgekehrte Gefühl bei einem Test, bei dem die Varianten einfach nicht den gewünschten Effekt zeigen. Dieses “BLÖD BLÖD” Gefühl liegt hirntechnisch ganz in der Nähe von Misserfolgen.
Dabei gibt es noch viele Möglichkeiten, aus dem Misserfolg noch einen Erfolg zu machen.
Denn: Der insgesamt gemessene Durchschnitts-Uplift ist nicht die ganze Wahrheit. Meist zeigen sich sehr interessante Erkenntnisse, sobald man in der Lage ist, die Testresultate nach Nutzersegmenten zu filtern und genauer zu betrachten. Bei genauerer Betrachtung wird auf einmal klar, dass die eine Variation 10% besser bei Erstbesuchern performt und die andere Variante besonder gut bei Traffic, der aus organischen Suchresultaten kommt.
So vermeiden Sie den Fehler: Zerlegen Sie Testresultate in dem Sie den Test-Traffic segmentieren. Analysieren Sie, wo / mit wem Uplifts entstehen und wo nicht. Implementieren Sie genügend Conversion-Goals um zu sehen, wo der Uplift auf der Strecke bleibt. Oft sind es Inkonsistenzen im Test, eine fehlerhafte Umsetzung oder aber auch oben beschriebene Phänomene.
Im Durchschnitt ist die Schweiz flach.
Verlassen Sie sich also nicht auf den Durchschnittbrei-Wert, den (vor allem die günstigen) Tools im Reporting ausgeben.
Weiterführende Informationen: Anleitung zur Verknüpfung von Visual Website Optimizer mit Google Analytics von Gabriel Beck