Wie vermisst man die Gesellschaft? Fünf Fragen an Nicole Holzhauser über Maßbänder, Messmethoden und Transparenz

Messen ist Wissen, heißt es. Überall in der Wissenschaft fallen Messdaten an. Mit ihnen werden Beobachtungen und experimentelle Ergebnisse beschrieben. Sie ermöglichen erst den wissenschaftlichen Austausch über Forschungsergebnisse und die Prüfung wissenschaftlicher Theorien. Die Frage, wie man zu Messungen kommt, ist daher für jede empirisch arbeitende Wissenschaft von zentraler Bedeutung, so auch für die Soziologie und Psychologie. Es verwundert also nicht, dass es in beiden Wissenschaften eine lange Tradition gibt, sich mit dieser Frage in der quantitativen und in der qualitativen Forschung auseinanderzusetzen.

Nicole Holzhauser zeigt die Tafel, die am Altstadtmarkt auf die historische Braunschweiger Elle hinweist. Bildnachweis: Nicole Holzhauser/TU Braunschweig.

In vielen Fällen ist die Messung von Merkmalen auch in Soziologie und Psychologie ohne größere Probleme möglich, etwa, wenn das Verhalten von Menschen registriert wird oder objektive Daten wie das kalendarische Alter oder das Bruttomonatsgehalt erhoben werden. In anderen Fällen ist es nicht ganz so einfach. Gerade in der Psychologie, aber auch in Theorien der Sozialwissenschaften, spielen nicht direkt erfassbare Merkmale eine große Rolle, etwa, wenn es um Einstellungen zu anderen Menschen (z.B. zu Migrantinnen und Migranten) oder gesellschaftliche und kulturelle Entwicklungen geht. Um auch solche Merkmale erfassbar zu machen, sind in diesen Wissenschaften vielfältige formale Modelle und Methoden entwickelt worden.

Die Soziologin Dr. Nicole Holzhauser hat sich mit dem Psychologen Professor Frank Eggert die unterschiedlichen Ansätze angeschaut, denen man folgen kann, um Merkmale messbar zu machen. Beide sind dabei insbesondere der Frage nachgegangen, wie das Zusammenspiel von theoretischen Entwicklungen und Fortschritten in der Messbarkeit in ihren Wissenschaften aussieht.

Frau Holzhauser, in der Physik beschäftigt man sich mit materialen Dingen in der Welt. Ein Gegenstand hat, zum Beispiel, bestimmte Ausmaße. Um die Maße mehrerer Gegenstände zu vergleichen, nutzen wir Messinstrumente wie ein Maßband. Das ist doch ein ganz normaler Vorgang, der auch auf andere Wissenschaften übertragbar sein sollte. Aber wie misst man gesellschaftliche oder psychologische Phänomene und Entwicklungen?

Im Alltag nutzen wir häufig Messinstrumente, die uns Auskunft über physikalische Verhältnisse geben, sei es unsere Waage im Badezimmer, die irgendwie immer verstellt zu sein scheint, oder etwa das Tachometer, das uns (in der Regel) eine etwas zu hohe Geschwindigkeit anzeigt. Diese Messinstrumente haben eine lange Tradition – man denke nur an die bereits 400 Jahre alte „Braunschweiger Elle“. Sie wurde benutzt, um Stoffe zu vermessen und indirekt Preise zwischen verschiedenen Händlern vergleichbar zu machen, und das mehr als 100 Jahre vor der Konstruktion des Urmeters. Wir alle wachsen mit dem kulturellen Selbstverständnis bestimmter Maßeinheiten, beispielsweise Meter oder Zoll, auf. Die Messinstrumente basieren auf physikalischen Theorien und den in ihnen definierten Merkmalen. Wie diese Theorien genau aussehen und warum die Messinstrumente, so wie sie konstruiert sind, geeignet sind, die in ihnen vorkommenden Merkmale zu messen, hinterfragen wir im Alltag meistens nicht. Für ihre praktische Alltagsnützlichkeit ist das auch gar nicht nötig.

In gleicher Weise gibt es in der Psychologie und den Sozialwissenschaften viele etablierte Erfassungsmethoden, etwa auf der Basis von Fragebögen, psychometrischen Tests oder Verhaltensbeobachtungen. Sie sind ebenso nützlich für eine Vielzahl von interessanten und wichtigen Fragestellungen. Und ab und zu kommt man auch als Nicht-Soziologin oder Nicht-Psychologe mit diesen Erfassungsmethoden in Kontakt, wenn man zum Beispiel im Rahmen von Eignungsuntersuchungen ganze Testbatterien absolvieren muss oder wenn bei sozialwissenschaftlichen Erhebungen nach Einstellungen und Meinungen gefragt wird.

Wie in der Physik auch, sind diese Erfassungsmethoden jeweils in einem theoretischen Kontext verankert und die Art und Weise, wie wir Merkmale definieren, wirkt sich auf die Art und Weise aus, wie wir versuchen, sie messbar zu machen. Dieses Zusammenspiel haben wir uns angeschaut und versucht, es etwas genauer zu beschreiben. Dabei kommt man relativ schnell zu dem Ergebnis, dass – genau wie in der Physik – die Messung solcher Merkmale keineswegs ein trivialer Vorgang ist. Hier sind praktische Probleme zu lösen (wie konstruiere ich ein Messinstrument?), deren Lösung direkt mit der Frage verknüpft ist, was für ein Merkmal genau denn da eigentlich gemessen werden soll, und wie dieses Merkmal definiert werden kann.

Aber in den Sozialwissenschaften und der Psychologie gibt es etablierte Messmethoden?

Die gibt es. Und sie werden nach denselben Gütekriterien beurteilt wie in den Naturwissenschaften. Etwa, indem die Objektivität der Messungen sichergestellt wird. Das heißt, die Ergebnisse der Messungen sollen nur von den Ausprägungen des Merkmals und nicht von anderen Faktoren abhängen. Wie in den Biowissenschaften, wo ebenfalls sichergestellt werden muss, dass die Ergebnisse nicht davon abhängen, wer die Messungen vorgenommen hat, werden auch in den Sozialwissenschaften und der Psychologie Methoden entwickelt, um die Objektivität sicherzustellen.

Im Rahmen der aktuellen Replikationskrise wird in verstärktem Maße analysiert, inwiefern zum Beispiel die Ergebnisse von Experimenten oder nicht-experimentellen Untersuchungen Gültigkeit beanspruchen können, wenn sich Bedingungen der Untersuchung ändern, wenn etwa Menschen unterschiedlicher Kulturen, zu anderen Zeiten oder unter unterschiedlichen Lebensbedingungen untersucht werden. Solche Fragen sind natürlich gerade für die Sozialwissenschaften (aber nicht nur für diese, denken wir nur an die Frage individualisierter Medizin) von elementarer Bedeutung.

Ein besonderes Problem stellt die Erfassung sogenannter latenter Konstrukte, wie zum Beispiel Intelligenz oder kulturelle Werte, dar. Diese können nicht direkt beobachtet werden und sind deshalb einer direkten Messung nicht zugänglich. Hier gibt es – gerade in der Psychologie – sehr ausgefeilte formale Modelle. Sogenannte Skalierungsmodelle schlüsseln die Zusammenhänge solcher nicht direkt messbarer Merkmale mit beobachtbaren Anzeichen (Indikatoren) auf. Sie eröffnen damit einen Weg, auch solche Merkmale zu erfassen , selbst wenn die messtheoretische Fundierung solcher Erfassungen mit erheblichen Schwierigkeiten verbunden bleibt.

Messungen sind praktisch immer mit – zum Teil nicht unerheblichen – Messfehlern verbunden. Und so ist es kein Wunder, dass die Analyse der Fehler, die mit Messungen verbunden sind, ein wichtiges Thema ist. Reliabilität ist ein zentrales Gütekriterium von Messungen. Sie gibt an, wie stark die jeweiligen Messwerte durch die tatsächlichen Unterschiede bedingt sind und wird oft auch als Zuverlässigkeit des Messinstruments bezeichnet. Methoden zur Schätzung der Reliabilität und der Größe des mittleren Fehlers, den man bei einer Messung erwarten kann, wurden entwickelt, werden weiterentwickelt und finden ihre standardmäßige Anwendung gerade auch bei Messungen in den genannten Wissenschaften.

Messen die Sozialwissenschaften bisher nicht genau genug?

Das würde ich nicht sagen. Zwar sind Messfehler ein gewisses Problem (und dieses Problem ist zum Teil auch ausgeprägter als bei rein physikalischen Messungen). Aber zum einen gibt es sehr viele Messungen, bei denen der Messfehler – bei wissenschaftlich angemessener Praxis, ähnlich wie bei vielen physikalischen Messungen – vernachlässigbar ist. Man denke nur an die am Anfang erwähnten objektiven bzw. objektivierbaren Merkmale (wie Anzahl der Nachkommen oder Einkommenscharakteristika) oder an Verhaltensbeobachtungen mit wohldefinierten Beobachtungskriterien (zum Beispiel, wie viele Worte eine Person in einem Gespräch verwendet, wie oft sie lächelt, wie lange sie etwas anschaut). Hier ist der Messfehler oft tatsächlich unbedeutend.

Die Analyse von überindividuellen, gesellschaftlichen Prozessen ist dann noch einmal eine Stufe komplizierter, weil hier zum einen das individuelle und soziale Verhalten vieler Berücksichtigung finden muss und der Einfluss gesellschaftlicher Institutionen und kultureller Konstruktionen zum Teil viel schwieriger zu qualifizieren und zu quantifizieren ist.

Was bedeutet es eigentlich, soziale Systeme zu „vermessen“? Und was benötigt man dazu?

Messen bildet Unterschiede in der Welt in Zahlen ab, so dass die Unterschiede in den Zahlen uns etwas sagen über die Unterschiede in der Welt. Die Fragen in jeder Wissenschaft lauten deshalb: Welche Unterschiede können wir feststellen? Welche davon sind theoretisch relevant? Und wie können wir diese Unterschiede in Messwerten repräsentieren? Mit diesen Fragen, mit denen das Zusammenspiel zwischen Messung und Theoriebildung direkt angesprochen ist, haben wir uns in unserem Aufsatz auseinandergesetzt. Wir gehen hierbei vor allem auf die repräsentationale Messtheorie ein. Bei der folgt die Konstruktion des Messinstruments aus der messtheoretischen Definition des Merkmals über die Art und Weise, wie wir verschiedene Merkmalsausprägungen vergleichen.

Eine große Frage ist, wie wir mit Merkmalen umgehen sollen, für die der repräsentationale Ansatz nicht realisierbar ist, weil wir Unterschiede in ihnen nicht direkt vergleichen können (weil sie z.B. als latente Konstrukte gedacht werden und wir keine sinnvolle Vergleichsprozedur definieren können, die uns zu befriedigenden Messwerten führt), von denen wir aber dennoch glauben, auf sie theoretisch nicht verzichten zu können.

Wie kann man damit umgehen?

Es gibt verschiedene Lösungsansätze. Zum einen kann man versuchen, durch das Zusammenspiel von fortschreitender Theorieentwicklung und Verbesserung der Erfassungsmethoden zu neuen Merkmalsdefinitionen zu kommen, die eine direkte Messung ermöglichen.

Zum anderen könnte man auch überlegen, die Theoriebildung auf direkt messbare Merkmale zu beschränken, ohne für die Erklärung auf latente Konstrukte zurückgreifen zu müssen. Diese Herangehensweise findet sich in behavioristischen Ansätzen in der Psychologie, in der modernen Verhaltensbiologie und zum Beispiel auch in Überlegungen des frühen Braunschweiger Soziologen Theodor Geiger.
Schließlich gibt es auch die Position, dass es sich hier gar nicht um ein Problem handelt, da die untersuchten Phänomene, seien es nun psychische Zustände und Funktionen oder seien es gesellschaftliche Systeme und Prozesse, gar nicht sinnvoll numerisch repräsentierbar seien (also ohnehin nicht messbar) und deshalb prinzipiell andere Formen des Zugangs, wie etwa verstehende Methoden, die eher den Geistes- und Kulturwissenschaften entlehnt sind, gewählt werden müssten.

Wir glauben, dass das Problem nicht eine Lösung hat. Es gibt viele theoretisch relevante Merkmale, für die es praktisch kein Messproblem gibt. Es gibt Merkmale, für die pragmatische Methoden der Erfassung existieren, die für die Lösung praktischer, (sozial)technologischer Probleme äußerst nützlich sind (selbst, wenn sie im strengen Sinne messtheoretisch vielleicht nicht messbar sein mögen); es gibt Merkmale, die sich einer begründeten Quantifizierung entziehen und die dennoch in manchen theoretischen Kontexten als relevant erachtet werden. Und es gibt Methoden, die eine nicht-numerische qualitative Repräsentation solcher Merkmale und damit eine nicht-formale Theoriebildung erlauben.

Wenn die Gegenstandsbereiche so vielfältig sind, wie dies bei unseren Wissenschaften der Fall ist, ist ein gewisser Methodenpluralismus – wenn denn die Methode dem untersuchten Gegenstandsbereich angemessen sein soll – unausweichlich. Gleichzeitig (und dies scheint uns kein Widerspruch zu sein) sollte auch hier das Galileo zugeschriebene Diktum gelten: „Man muss messen, was messbar ist, und messbar machen, was noch nicht messbar ist.“