Testplanung und Ergebnisinterpretation – Der Texas Sharpshooter und andere Holzwege

„Empirische Sozialwissenschaft“ – allein bei dem Begriff wird es den ein oder anderen gestandenen Ingenieur oder Betriebswirt schaudern. Und doch bedienen wir uns in der Praxis von Conversion Optimierung und Website Testing einem breiten Instrumentarium genau dieses Wissenschaftszweiges. Allen voran die Psychologie mit ihrer Kontroll- und Statistikmanie (keine Sorge, der Autor ist selbst ein halber – und meint dies durchaus positiv).

Neben zumindest Grundkenntnissen der Begrifflichkeiten Signifikanz, Konfidenzniveau, Konfidenzintervallen, Alpha-Fehler, Beta-Fehler et cetera sollte bei der Konstruktion von Testszenarien und besonders bei der Interpretation von Resultaten immer auch ein Augenmerk auf die logischen Grundlagen für ebendiese gerichtet werden.

Logische Fehlschlüsse bei Planung und Interpretation

Korrelation ist ungleich Kausalität

Eine Korrelation bezeichnet das Maß des Zusammenhangs zwischen Ereignissen, Größen, Meßwerten. Nicht jede (mehr oder minder starke) messbare Korrelation zwischen A und B beinhaltet jedoch einen kausalen (B folgt aus A) Zusammenhang. So korreliert der Konsum von Bier und die Häufigkeit von Sonnenbrand positiv. Was jedoch nicht bedeutet, dass man vom Biergenuß Sonnenbrand bekommt – die Kausalität besteht bei diesen beiden Ereignissen nicht untereinander, sonden mit einem dritten Faktor, nämlich der Intensität der Sonneneinstrahlung. Und noch einigen anderen.

Außerirdische könnten der Meinung sein, alle Deutschen trügen ständig dämliche Hüte und Schirmchen.

Außerirdische könnten der Meinung sein, alle Deutschen trügen ständig dämliche Hüte und Schirmchen.

Aufs Onlinebusiness gemünzt bedeutet dies: Ein Rückgang der Conversionrate eines Onlineangebotes kann positiv mit der Erhöhung der Exitrate auf einer bestimmten Seite des Angebotes korrelieren – es muss allerdings kein kausaler Zusammenhang zwischen diesen Ereignissen bestehen. Es ist sogar nicht unwahrscheinlich, dass diese beiden Beobachtungen Ausdruck (kausal) eines dritten, im Moment der Beobachtung nicht oder nur schwierig wahrzunehmenden Faktors sind. So kann eine emotionale Störung der Nutzer wie Frustration oder Ärger  von einem Element / einer Interaktion auf einer ganz anderen Seite ausgelöst werden und erst hier zu Tage treten.

Der texanische Scharfschütze

Stellen wir uns folgendes Szenario vor: Ein Schütze feuert möglichst viele Schüsse (Traffic) grob in die Richtung  einer Scheune ab. Sobald einige Treffer dicht genug auf dem Scheunentor beieinander liegen, malt er die Zielscheibe um diese Häufung herum – und wird als Scharfschütze gefeiert! Fertig ist die Texas Sharpshooter fallacy, zu deutsch der Zielscheibenfehler, auch Cluster-Illusion genannt.

Was bedeutet dies? Hier wird aus einer augenscheinlichen Häufung von Messwerten ein kausal falscher Schluss auf die Ursache dieser Häufung gezogen. Ein Beispiel aus der realen Welt:

Erkrankungen und Ihre Ursachen

Krank-durch-Sendemasten_-Cluster-Illusion

Macht das wirklich krank? Nein, aber wir wollen sehr fest daran glauben…

Eine klassische Cluster-Illusion ist die wahrgenommene Häufung von Krankheiten bei Katastrophen wie Chemie- und sonstigen Unfällen. Darunter fällt auch der berühmte Handy-Sendemast. Unzählige sehr genaue (und nicht von der Industrie bezahlte!) Studien widerlegen solche wahrgenommenen Effekte wieder und wieder – ohne Nutzen. Unter dem Eindruck einer Bedrohung versucht unser Gehirn verzweifelt, einen kausalen Zusammenhang (Handystrahlung erzeugt Krebs) herzustellen, um die Bedrohung einschätzen zu können und auf ihre Ursache reagieren zu können.

Fehlschätzung  aufgrund von Häufigkeiten in verfügbaren! Datenbeständen bedeutet aber auch, dass bei der Analyse und Interpretation von Webanalyse-Daten größte Vorsicht geboten sein muss! Klassisch ist das Heranziehen von Bounce- oder Exitrates zur Bestimmung von Potentialstellen, an denen eine Optimierung oder ein Testing ansetzen kann.

Hier kann der Zielscheibenfehler schnell zuschlagen: Schnell wird nach kurzer Betrachtung hemdsärmelig bestimmt, aus welchem Grund die Gesamtheit der Nutzer das beobachtete Verhalten zeigt, und dann eine Maßnahme aus dem Hut gezaubert. Bestes Beispiel: Eine hohe Anzahl von verlassenen Warenkörben im Ecommerce ist nicht zwangsläufig auf Preisniveau, Versand- oder Zahlungsarten oder einem roten „Weiter“-Button zuzuschreiben. Die wahre Ursache für eine auffällige Häufung von (in diesem Fall unerwünschten Tatbeständen wie Abbrüchen) kann an einer ganz anderen Stelle im Clickflow oder gar gänzlich extern des eigentlichen Angebotes zu suchen sein.

 Hypothese, Hypothese

Wie lässt sich nun der Zielscheibenfehler umgehen? Wohl niemand möchte später, wenn die Optimierungen nicht so greifen wie gewünscht, als blinder Scharfschütze da stehen.

Erste Maßnahme: Bildung von trennscharfen Hypothesen. Mit vergleichenden Tests kann immer nur eine Hypothese gestützt oder verworfen werden – Hypothesen im Nachhinein aufstellen bringt wenig!

Es nutzt nichts, die schönsten Farbvariationen zu testen, wenn Ihre zugrunde liegende Formel falsch sein könnte.

Es nutzt nichts, die schönsten Farbvariationen zu testen, wenn Ihre zugrunde liegende Hypothese auf subjektiven Eindrücken beruht.

Je mehr Inhalt und guten Willen in eine Hypothese  – wenn sie denn gebildet wurde – eingebracht wird, desto unschärfer wird die Aussage in Bezug auf die anfängliche Absicht. Dies führt zum nächsten Punkt:

Vermischung von mehreren Hypothesen

Bestes Beispiel auch hier wieder: Der Relaunch. Wie mit der Sense durch den Rasen werden alle möglichen Prozesse, Interaktionselemente, identitäts- und bindungsschaffende Codierungen angefasst und über den Haufen geworfen.

„Der Auftritt entspricht jetzt den aktuellen Designtrends und spricht mit seiner frischen neuen Formsprache den heutigen Nutzer perfekt an!“

Negative Auswirkungen werden als Gewöhnungseffekte abgetan, sogar Nutzerkritik gerne mit „Einen störts ja immer!“ ignoriert.

Dies soll nicht bedeuten, dass viele (vielleicht sogar die Mehrheit) von Relaunchprojekten durchaus sinnvoll und erfolgreich sind  – jedoch sollte auch einem Relaunch möglichst wenig Design- und Strategie-Voodoo anhaften. Selbst einen Relaunch kann man auf Hypothesen über die Nutzer und Ihr Verhalten aufbauen – Möglichkeiten zur Daten- und Erkenntnissgewinnung gibt es viele. Verketten Sie die Betrachtung von Webanalysedaten, klassischem Controlling, Data Mining und qualitativer Nutzerforschung. Letztgenannte sollte allerdings gut gemacht und zielführend sein. Es nutzt wenig, ein paar Fokusgruppen durchzuführen oder den Praktikanten eine willkürliche Nutzergruppe befragen zu lassen. Machen Sie es richtig!

Beispiel aus der Onlinewelt: Targeting

Ein schönes Beispiel für eine Missinterpretation von Kausalität ist (subjektiv) sehr oft im Verhalten vieler Retargeting-Engines zu beobachten: Ein Nutzer erwirbt bei einem Mitglied eines Targetingnetzwerkes beispielsweise ein Ledersofa. Nun wird diesem Nutzer die gleiche Produktgruppe wieder und wieder gefühlt netzübergreifend ausgespielt. Was glaubt der Entwickler der Enginealgorithmus,  wie viele Sofas der Durchschnittsnutzer im Monat so erwirbt?

Ein klassischer Fehlschluss aus der Bedarfsanalyse. Nicht in jedem Fall zieht das Interesse an einem Produkt oder an einer Produktgruppe zwangsläufig eine erhöhte Bereitschaft zum Kauf der selben nach sich.

Beispiel aus der Statistik: zu früh mit dem Testen aufgehört

Nutzer sind Menschen. Sie reagieren zu verschiedenen Zeitpunkten verschieden. Die Bedürfnisstruktur und die resultierende Interaktion mit einem Onlineangebot kann sich  an verschiedenen Wochentagen (Werktag – Wochenende) fundamental unterscheiden. Diese Stärke solcher Effekte ist wiederum in verschiedenen Branchen sehr differenziert ausgeprägt. Aktuell hat Kollege Max Freund ein klassisches Beispiel für diese Problematik diskutiert: Alle Jahre wieder – Die Weihnachts-Testing-Kontroverse .

Logischer Fehlschluss beim Testen: MVT

Werden multivariate Tests (Ausspielung aller Variantenkombinationen) durchgeführt, steigt der Alpha-Fehler mit steigender Anzahl der Varianten. Dies bedeutet: Je mehr Varianten ein MVT hat, desto unsicherer werden die in Testing Tools angezeigten Ergebnisse. Unschön, aber leider Mathematik.

Wichtig für den Praktiker: Wer große MVTs laufen lässt, braucht viel Traffic und Zeit. Es ist auch hier möglich, signifikante Ergebnisse zu erzielen – aber nur mit ordentlich Dampf auf dem Kessel. Alle anderen sind sehr gut beraten, ein MVT-Ergebnis immer als klassischen A/B-Test nochmals zu verifizieren. Und wundern Sie sich nicht, wenn das Ergbnis nicht übereinstimmt. Weiterführend lesen Sie bitte folgenden Artikel: Die Conversion Lüge Teil I: Multivariate Tests und Buttonschubserei.

Fazit

Sollen Ihre Optimierungsbemühungen dauerhaft und nachhaltig von Erfolg gekrönt sein (der sich nicht nur kurzfristig in Testresultaten, sondern dauerhaft in Umsatz- und Deckunsgbeitragssteigerungen und dem langfristigen Kundenwert ausdrückt), dann beherzigen sie folgendes Zitat, gefunden auf ratioblog.de :

„Eine Hypothese kann man nur dadurch bestätigen oder widerlegen, dass man sie vor einem Test formuliert und anhand neuer Daten überprüft. Bei unserem Cowboy muss also die Zielscheibe schon vorher auf der Scheune aufgemalt sein, damit seine Behauptung, ein Scharfschütze zu sein, schlüssig überprüft werden kann.“

Mit der richtigen Vorgehensweise auch wirklich ins Schwarze treffen.

Mit der richtigen Vorgehensweise auch wirklich ins Schwarze treffen.

Tun Sie das, und gut Schuss! 😉

 

  • Send to Kindle
  • https://www.konversionskraft.de/?p=19993
Alexander Staats Alexander Staats beschäftigt sich als Informationswissenschaftler mit dem interdisziplinären Blickwinkel auf Evaluationsmethoden und deren Erkenntnisgewinn für die Conversion-Optimierung. Als Google AdWords-Professional und Konzeptioner ist ihm eine ganzheitliche und prozessbezogene Sichtweise auf Optimierungsmaßnahmen wichtig. Folgen Sie ihm auf Twitter oder kontaktieren Sie ihn auf XING.

, , ,

2 Reaktionen auf  “Testplanung und Ergebnisinterpretation – Der Texas Sharpshooter und andere Holzwege”

Kommentare

  1. David Kuruc David Kuruc

    Toll geschriebener Artikel Alexander, Respekt! Die Frage nach der Kausalität kann gar nicht oft genug gestellt werden wobei die Webanalyse wie geschaffen ist um Kausalitäten zu halluzinieren aber auch um solche zu erkennen (Halluzinationen von Kausalitäten und echte Kausalitäten 🙂
    Ja Trennschärfe der Hypothesen je nach dem was das Ziel des Tests ist denke ich schon das man manchmal bewusst zu lasten der reinen Erkenntnis Kompromisse eingehen muss.
    Targeting-Netzwerke sind ein tolles Negativbeispiel, zumal der Zusammenhang zwischen EInblendung des Werbemittels und der Conversion schon gerne etwas lose erstellt wird …

    VG

    David

Trackbacks/Pingbacks

  1. […] Es ist wichtig zu verstehen, was die Daten im Testing-Tool bedeuten. > Die Testplanung und die Ergebnisinterpretation sollten gut durchdacht werden. > Testing-Ideen sollten interdisziplinär zentral gesammelt und […]

Hinterlassen Sie einen Kommentar