Trau keiner Statistik, die Du nicht selbst gefälscht hast – sagt ein Sprichwort. Wie aber kann sich der statistische Laie bei Themen um Arbeit und Gesundheit orientieren? Für die meisten von uns war Mathematik schließlich nicht das Traumfach. So ist es einfach, uns mit statistischen Taschenspielertricks zu täuschen. Manchmal sind diese Fälschungen so gut gemacht, dass auch ein erfahrener Experte eine Weile braucht, den versteckten Betrug zu erkennen. In diesem Beitrag klären wir einige der häufigsten Irrtümer.

„Statistisch hoch signifikant“ hören wir. Mit bedeutungsschwerer Geste wird uns der wissenschaftliche Artikel vor die Augen gewedelt. Um gleich zum Verkaufsgespräch zu wechseln. Wir sollten dringend die statistisch hoch signifikante Maßnahme in unserem Unternehmen mit 1000 Beschäftigten einsetzen. Wenn doch die Kosten pro Tag und Mitarbeiter nicht mehr als einen Kaffee in der Kantine kosten. Ein preiswertes Programm. Und dazu noch voll digital. Moment mal: Ein Cappuccino pro Mitarbeiter und Tag (2.20 €) mal 365 Tage mal 1000 Beschäftigte: Das Programm kostet unser mittelständisches Unternehmen also 803.000 € pro Jahr. Von wegen günstig.

Und was heißt eigentlich statistisch hoch signifikant? Das neue digitale Programm wurde angeblich in den USA von Google an 150.000 Personen wissenschaftlich getestet. Der Unterschied zwischen den Behandelten und Nicht-Behandelten war 1 Punkt in der Arbeitsfähigkeit auf einer Skala von 0 bis 100. Bei 150.000 Teilnehmern kann dieser zwar vernachlässigbare Unterschied dennoch nicht durch den Zufall zustande gekommen sein. So ein Ergebnis als Zufall wäre extrem unwahrscheinlich. Genau das besagt der Statistik-Ausdruck „hoch signifikant“.

Hingegen hat in Ihrem eigenen Unternehmen Ihr Arbeitsschutz und Gesundheitsdienst bei einem Test für eine Maßnahme im ähnlichen Themenfeld mit 15 Personen auch einen Unterschied gefunden: 15 Punkte Unterschied mehr Arbeitsfähigkeit. Der Statistiker aber sagt: Das könnte auch Zufall sein, „nicht signifikant“. Allerdings ist die Maßnahme teurer. Sie kostet 50 Cappuccino-Einheiten. Wen beauftragen Sie?

Die statistisch hoch signifikante, aber im Prinzip wirkungslose Maßnahme oder die möglicherweise sehr wirksame Maßnahme, die aber nicht abschließend wissenschaftlich untersucht ist? Helfen kann Ihnen bei diesem Entscheid eine vernünftige Risikoabwägung: Welche Verbesserung etwa auf der Arbeitsfähigkeitsskala wäre für mich und mein Unternehmen bedeutsam? 1 Punkt, 5 Punkte, 10 Punkte? Welcher Business-Vorteil entsteht daraus? Die SAP hat eine von uns 2012 entwickeltes Berechnungsverfahren, gesundheitsbedingte Produktivitätsverluste zu schätzen für seinen Business Report 2014 benutzt, um die Wirkung von 1% Verbesserung in ihrem 10-Item-Index Business Health Culture auf den Gewinn zu schätzen. 2014, so die Schätzung, hätte 1% Verbesserung auf einer Skala von 0 bis 100 die bottom-line um 65 Millionen erhöht – ausweislich der Darstellung im Online-Geschäftsbericht.

Nun zur vorgeschlagenen Maßnahme: Für wie wahrscheinlich halten Sie das Eintreffen des vorhergesagten Erfolges? 100% Prozent (gibt es nicht), 70% (haben wir noch nie gesehen), 50% (äußerst selten), 30% (kommt öfter vor), 10% (häufig), 0% (leider zu viele der Angebote) oder sogar Schaden (ebenfalls so manches Angebot)? Darüber hinaus: Wieviel wäre Ihnen wert, dass es Ihren Beschäftigten besser geht, auch ohne Effekt für die bottom-line?

Der  Anbieter sollte Auskunft geben können zu Fragen wie: Wie viele Personen müssen an der Maßnahme teilnehmen (z. B. Rauchentwöhnungskurs) damit bei einer Person der Erfolg beobachtet werden kann. In der evidenzbasierten Medizin nennt man das die Anzahl der für einen Erfolg zu behandelnden Personen oder number needed to treat. Sehr gute Maßnahmen haben eine NNT um 10, viele der Präventionsmaßnahmen zum Schutz vor Herzinfarkt eine NNT zwischen 30 und 100.

Schließlich wissen Sie vielleicht nicht genau, was denn ein bedeutsamer Unterschied ist. Vielleicht schon für eine Einzelperson, aber für Gruppen von Menschen. Statistiker haben hier, um verschiedene Maßnahmen wie etwa Verbesserung der Arbeitsfähigkeit, verbesserte Fitness, niedrigeres Körpergewicht vergleichbar zu machen die Effektstärke als ein Maß erfunden. So wie bei Automobilen der Luftwiderstandsbeiwert unabhängig von Marke und Modell etwas darüber aussagt, wie gut das Automobil durch den Fahrtwind schlüpft.

Das Beispiel eines Gesundheitsprogramms für das Gewichtabnehmen in Ihrem Unternehmen verdeutlicht die Maßzahl. Das Durchschnittsgewicht bei über 50.000 von uns untersuchten Männern lag bei 85 kg mit einer Standardabweichung von 13 kg. Die Effektstärke ist der beobachtete Unterschied geteilt durch die Standardabweichung. Hier ist wichtig zu unterscheiden, ob Sie eine Einzelperson betrachten oder eine ganze Gruppe. Wenn Sie in einer ganzen Gruppe von 100 Teilnehmern im Durchschnitt einen Gewichtsverlust von 3 kg im Vergleich zu den Nicht-Teilnehmern erzielen, dann würden Sie es wohl schon für wirksam halten. Der amerikanische Psychologe und Statistiker Jaco Cohen (1923-1998), einer der Erfinder des Begriffs Effektstärke, schlug folgende Einteilung vor: Bis 0,2 = wahrscheinlich kein Effekt. 0,2 bis 0,4 = geringer Effekt, 0,4-0,7 = mittlerer Effekt. 0,7 bis 1,0 = bedeutsamer Effekt und über 1,0 = sehr starker Effekt.

In Effektstärken wäre somit der Erfolg Ihres Programms für das Gewichtabnehmen 3 / 13 = 0,23 nach Cohen ein geringer Effekt. Würden alle Teilnehmer im Durschnitt 10 kg abnehmen, wäre das ein großer Erfolg für Ihr Programm. Cohens Effektstärke wäre 10/13 = 0,77. Bei einer Effektstärke von über 0,7 spricht man denn auch von bedeutsamen Effekten. Kennen Sie ein Programm, bei dem alle im Durchschnitt über 13 kg abnehmen? Entsprechend selten beobachten wir Effektstärken von über 1. Aber es kommt vor, gerade in der Organisationsentwicklung mit etwa Verbesserung von Führungsverhalten. Sie sehen: Jacob Cohen und Ihr gesunder Menschenverstand liegen gar nicht so weit auseinander. Vertrauen Sie in Zukunft daher weniger auf die Jünger des Statistischen-Signifikanz-Ordens hören Sie auf diejenigen, die Ihnen Effektstärken und die notwendige Anzahl zu behandelnder Personen berichten.