Über wissenschaftliche Veröffentlichungen – Das Paper und seine Ergebnisse

Veröffentlicht: 1. Mai 2014 in Allgemein
Schlagwörter:,

Das hier ist der vierte Teil meines Auseinandernehmens einer wissenschaftlichen Veröffentlichung, die mich knatschig gemacht hat. Hier ist eine allgemeine Einleitung, hier geht es um das Thema, das dort besprochen wird und hier versuche ich zu erklären, warum die Methoden, die für die Studie verwendet wurden, schwach sind.

Heute wollen wir uns dann mal mit den Ergebnissen dieser Studie beschäftigen. Das sind dann die Werte, auf denen die Autoren eine so überaus gewichtige Aussage aufbauen, die da lautet: „Das Ziehen an einem Halsband erhöht den Augeninnendruck.“ Und das ist doch mal eine Ansage, oder?

figure1Ich habe das erste Diagramm mal aus dem Paper kopiert. Es zeigt den Vergleich der Veränderung des Augeninnendrucks zwischen Halsband (blau) und Geschirr (excel-rot). Es ist die Zusammenfassung aller 32 Hunde vor dem Ziehen (die ersten zwei Säulen), während des Ziehens (die mittleren zwei) und nach dem Ziehen (die letzten beiden). Natürlich fällt der blaue Balken in der Mitte direkt auf. Da ist ja auch ein Sternchen dran. Sternchen bedeuten etwas! Die Erklärung findet man unterhalb der Grafik: Das Sternchen weist darauf hin, dass der Wert für das Ziehen am Halsband in Bezug auf die Erhöhung des Augeninnendruckes signifikant ist. Oder?

Nein. Hier wurde eindeutig mit Statistik ge-äh-spielt. Denn viel relevanter als das Sternchen ist die abgebildete Standardabweichung (standard deviation), die durch die Striche dargestellt wird. Die Standardabweichung ist so etwas wie ein Vortest für Datenerhebende. Sie sagt einem, ob der Mittelwert (mean), den man ermittelt hat, tatsächlich repräsentativ für den Datensatz ist. Wer sich noch erinnert – in der Schule hat der Lehrer immer mal den Notendurchschnitt (= Mittelwert) der Klasse zum Besten gegeben. Er soll etwas darüber aussagen, wie gut die Klasse in der letzten Arbeit war. Sagen wir – der Einfachheit halber – es wären zwölf Schüler in der Klasse und es gäbe sechs mögliche Noten, 1 bis 6… und drei fiktive Arbeiten, die von der Klasse geschrieben wurden und auf die der Lehrer mit Fug und Recht hätte behaupten können, die Klasse hätte einen Durchschnitt von 3.5, also eher schlecht als recht.

durchschnitt

Schaut man sich aber die Noten der Arbeiten an, dann ist jedem klar, dass der Notendurchschnitt nicht in allen Arbeiten viel aussagt. Allein für die dritte Arbeit repräsentiert er, was tatsächlich los war – nämlich das alle Schüler entweder mit einer 3 oder einer 4 bewertet wurden. Nur in Arbeit 3 ist der Mittelwert tatsächlich repräsentativ für die vergebenen Noten. In der ersten Arbeit hatte überhaupt nur ein Drittel der Klasse eine 3 oder eine 4, in der zweiten Arbeit gleich gar keiner. Der Mittelwert bleibt gleich. Es ist also nicht so einfach – Mittelwert ist nicht gleich Mittelwert. Und deswegen gibt es unter anderem die Standardabweichung. Sie stellt dar, in gleichen Werten wie der Mittelwert (also in dem Fall des hier besprochenen Papers in mm Hg), wie sehr die gemessenen Werte des Datensatzes vom errechneten Mittelwert abweichen. Je mehr sie das tun, desto weniger aussagekräftig ist der Mittelwert. Ich habe dafür mal ein kleines Programm bemüht, das man als Wissenschaftler hin und wieder ganz gerne verwendet, um festzustellen, welche Werte denn nun tatsächlich für die Grafik verantwortlich sind und um gegebenenfalls zu überprüfen, wie aussagekräftig sie sind. Datathief (ich finde den Namen aus Marketinggründen ja nicht so schlau) hat mir annähernde Werte für Grafik 1 geliefert. Die habe ich dann mal in eine eigene Grafik gepackt und habe die Darstellung umgedreht: Der Mittelwert ist der unscheinbare rote Punkt – der Balken repräsentiert die Standardabweichung… also die Werte, die sonst noch so gemessen wurden:

ioc_stabw_fig1Hm! Die blauen Balken ist die Testphase mit dem Halsband (vor, während und nach dem Ziehen), die grünbeigelichenolivepastell-farbigen die mit Geschirr. Ich erwähne hier ausserdem noch mal, dass die Hunde immer zuerst mit Halsband gemessen wurden und dann nach fünf Minuten mit Geschirr… und dann lesen wir ein wenig über Habituation (den Gewöhnungseffekt). Auf der x-Achse (also der unten) ist die Änderung des Augeninnendruckes angegeben. Wenn wir uns zurücklehnen und uns die Grafik anschauen, wird eine Sache ganz deutlich: bei Werten, die derart gleich sind und – in bestimmten Fällen – derart variieren, kann bei 32 Hunden nie und nimmer ein signifikanter Wert entstanden sein. Das geht nur, wenn im Falle des Halsbandes unter Zug Werte als „Ausreisser“ entfernt wurden, um dem Statistikprogramm vorzugaukeln, es gäbe tatsächlich einen Unterschied. Es gibt keinen. Da bin ich mir sicher.

Was dieser sehr breite Balken in Bezug auf das Ziehen am Halsband aber auch wiederspiegeln könnte, ist die nicht anonymisierte Messung durch die Forscher… und im übertragenen Sinn den moralischen Konflikt, der bei der Aufnahme der Werte entstand. „Ich glaube fest daran, dass das Ziehen am Halsband voll schädlich ist.“ kann Berge versetzen, wenn es um den Moment nach den zehn Sekunden geht, in dem der Wert abgelesen wurde und wie er abgelesen wurde. Wer sich mit dieser unglaublich wichtigen Problematik auf populärwissenschaftlicher Ebene mal befassen will, der lese Stephen Jay Goulds „Der falsch vermessene Mensch„. Ein ganz hervorragendes Werk, das verdeutlicht, warum es so unglaublich wichtig ist, dass der Wissenschaftler sich bei seinen Experimenten so gut wie möglich als Fehlerfaktor ausschliesst.

Eigentlich könnte ich an diesem Punkt mit dem Schreiben aufhören. Es wird deutlich genug, wie wenig diese Daten aussagen. Aber ich dachte mir, es wäre vielleicht doch noch interessant, sich auch die anderen Grafiken genauer anzuschauen – einfach nur, um zu erläutern, wie manipulativ man mit der Präsentation von Ergebnissen umgehen kann. Die Diagramme 2 und 3 sollen folgendes darstellen: Aufgeteilt nach Rassen wird hier gezeigt, wie viel Zugkraft diese Hunde auf Halsband bzw. Geschirr bringen und wie sehr sich derweil der Augeninnendruck verändert. Oh, krass, voll der Unterschied! Bei dem Geschirr sind die blauen Balken für den Augeninnendruck fast nicht zu sehen… uiuiui… Äh, nein, Moment! Die Y-Achse hat ja ganz andere Werte? Beim Halsband geht sie nur bis 40 mm Hg, aber beim Geschirr bis 50 mm Hg. Nanu? Da sind doch beim Geschirr gar keine Werte zwischen 40 und 50 mm Hg? Nein, ehrlich gesagt, habe ich das alles nicht gedacht. Wenn man Manuskripte begutachtet, ist das eines der ersten Dinge, auf die man schaut: Ist die Skalierung gleich oder „angepasst“? Solche kindischen Tricks werden gerne verwendet, um Eindruck zu schinden und Werte wertiger erscheinen zu lassen, als sie tatsächlich sind. Man lernt im Grundstudium, dass so etwas inakzeptabel ist.

zugkraft_rassenIch habe mir den Spass gemacht und habe die Werte mal neu arrangiert – vor allem habe ich die zusammengehörenden Werte auf eine Skala gebracht. Wir behalten im Hinterkopf, dass die Werte teilweise total unterschiedlich sind und sich in zwei Fällen (bei Chinook und Cocker) auf jeweils einen einzigen Hund bzw. seine zwei Augen beziehen. Was wir sehen?

Hunde ziehen am Geschirr stärker als am Halsband. 

Witzig – das entspricht genau meinen Beobachtungen. Habe ich Anti an einem Geschirr, kann ich diesen 40 kg-Allradochsen im Notfall kaum halten. Ich glaube zwar nicht, dass die Forscher das bestätigen wollten (tun sie ja auch nicht, wenn man es genau nimmt) und bei der Streuung der Werte wäre diese Schlussfolgerung so wenig richtig wie alle anderen… aber wenn ich wollte, könnte ich mich jetzt tatsächlich bestätigt fühlen. Im Übrigen sagt das nichts darüber aus, warum sie am Geschirr mehr ziehen als am Halsband. Reflexartig davon auszugehen, dass sie es tun, weil das Halsband so schlimm ist, wäre genauso wenig bewiesen, wie die Annahme, dass der Hund durch das Halsband besser erkennt, dass er in einen Widerstand läuft.

Dann können wir auch annehmen, dass man eigentlich American Staffordshire Terrier vor den Hundeschlitten spannen sollte – die ziehen deutlich besser als Huskys und sogar als Malamutes. Eines verstehe ich allerdings noch nicht… „force of pull“ wäre doch eigentlich Zugkraft? Im Text nennen sie es „tension“. Eine Kraft kann man mit der Einheit Newton angeben oder mit Newtonmeter für den Drehmoment, weil es eben eine Kraft und kein Gewicht (kg) ist. Tension oder Spannung wird in Pascal angegeben. Seltsam… hat wohl keiner der Gutachter gesehen.

augeninnendruck_rassenUnd nun kommen wir zum Augeninnendruck. Da habe ich dann herzlich gelacht. Die humorvolle Schlussfolgerung hieraus wäre:

Halsbänder saugen Huskys die Augen aus!

😀

Für Cocker (also… den einen) ist es total wurscht, ob er am Geschirr oder einem Halsband geführt wird. American Stafford und Chinook zeigen einen höheren Augeninnendruck am Halsband als am Geschirr (oder sind vor dem Test aufgeregter oder, oder, oder…). Wobei gerade beim American Stafford die Standardabweichung enorm ist: 12 mm Hg nach oben und unten vom Mittelwert entfernt. Am Geschirr ist die Standardabweichung immer noch 5 mm Hg bei einem Mittelwert von 6 mm Hg. Und was will man beim Chinook schon sagen, wo es sich doch um zwei Augen des gleichen und einzigen Hundes handelte. Ich rolle die Augen. Echt jetzt.

Hat euch das jetzt auch so viel Spass gemacht wie mir? Dann versucht es doch mal selbst! Noch kommt im Paper ja die grosse Erkenntnis, dass Halsbänder gefährlicher für Hunde werden je älter die Tiere sind.

Hier die Grafik dazu:

ico_age

Und weil ich so nett bin, habe ich als Hilfe noch ein Diagramm erstellt, dass die tatsächliche Anzahl der Hunde pro Alter wiedergibt. Na? Fällt euch was auf?

Ich beende damit diesen Abschnitt. Meiner Ansicht nach sind diese Ergebnisse ihren Namen nicht wert. Umso schlimmer ist es, dass diese Studie publiziert wurde und sich nun Leute darauf berufen, um zu argumentieren, dass Halsbänder Hunden schaden. Aber was soll man auch denken, wenn die Zusammenfassung – bekanntlich einer der beliebtesten Abschnitte, weil schnell durchgelesen – mit den folgenden Worten beginnt:

„Der Augeninnendruck war signifikant erhöht, wenn Kraft über eine Leine auf ein Halsband übertragen wurde, während das bei den Hunden dieser Studie am Geschirr nicht der Fall war.“

Das stimmt einfach nicht. Genauso wenig wie der Saugeffekt auf Husky-Augen. Aber dieser Teil ist schon sehr lang geworden – ich werde das Thema also in einem weiteren Abschnitt abschliessen. Wer bis hier hin durchgehalten hat, schafft den letzten Teil auch noch. 😉

edit [18. Juli 2014]: Dieser Artikel macht gerade eine kleine Runde durch die Netzwelt. Um es den Lesern einfacher zu machen, sich durch die verschiedenen Teile zu robben, ist hier eine kleine Übersicht mit Verlinkungen zu den weiteren Teilen.

Teil 1 – Einleitung
Teil 2 – Halsband vs. Geschirr
Teil 3 – Das Paper und seine Methoden
Teil 4 – Das Paper und seine Ergebnisse (diese Seite)
Teil 5 – Ein Fazit

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s