Was bedeuteut Test-Validität?

Wenn ein Test reliabel ist, dann weiß man, dass es genau misst und dass diese Messung wiederholbar ist. Man redet von unterschiedlichen Arten der Validität:

  • Inhaltsvalidität
  • Konstruktvalidität
  • Kriterienbezogene Validität
  • Vorhersagevalidität
  • Differenzielle Validität

Inhaltsvalidität

Wichtig ist dann auch zu fragen, für welche Zwecke ein Test valid ist. Die Testitems sollten nämlich den relevanten Sachverhalt bilden. Zum Beispiel, ein valider Intelligenztest wird eine Aussage über den Ausmaß der Intelligenz des Probanden erlauben. Ein Intelligenztest, der fluide Intelligenz bemessen soll, ist beispielsweise nicht valid, wenn er Ergebnisse liefert, die von dem Ausmaß der Übung der Probanden mit Tests hat, sehr betroffen ist. Hier wird keine fluide Intelligenz bemessen, sondern die Leistungssteigerung des Probanden korreliert mit Übung.

Man redet auch von der Augenscheinvalidität, wenn Testitems ihre Validität via unmittelbare Evidenz erkennen lassen, d.h. die Gültigkeit des Verfahrens ist offensichtlich.

Vorhersagevalidität und Kriterienbezogene Validität

Wenn ein Test valid ist, soll es möglich sein, eine Vorhersage über die von dem Test bemessene Fähigkeit in Situationen, in denen die Fähigkeit wichtig ist, zu machen. Zum Beispiel, soll ein Test Schulleistung messen, dann soll es möglich sein, eine Vorhersage über Schulerfolg machen zu können. So hat man dann auch eine Einschätzung der Validität eines Testes, in dem man die Werte, die Personen in dem Test erreichen, mit anderen gesicherten Außenkriterien vergleicht. Im Falle des Testes für die Schulleistung könnte man die Werte des Testes mit Schulnoten oder anderen anerkannten Tests vergleichen. Ist die Korrelation zwischen den Testergebnissen und den Schulnoten groß, so kann man sagen, dass der Test über Vorhersagevalidität und Kriterienbezogene Validität verfügt.

Konstruktvalidität

Es existiert allerdings oft kein ideales Vergleichskriterium für ein zu bemessendes Persönlichkeitsmerkmal. Will man zum Beispiel testen, welche Auswirkung Filme mit Gewaltszenen auf Aggressionsbereitschaft eines hat, gibt es keine einzelne Verhaltensbeobachtung oder objektives Kriterium, womit man vergleichen kann, um eine genaue Information darüber zu geben, wie aggressiv der Proband nach dem Test ist. Solche Sachverhalte, die nicht direkt beobachtbar sind, heißen Konstrukte. Konstrukte sind gedanklicher bzw. theoretischer Natur.

Bei der Bemessung von Konstrukten müssen sich Psychologen auf Theorien und Erfahrungswerte stützen. Hier können sie zum Beispiel auf den Ergebnissen andere Tests, Fremdbeurteilungen (Ratings) und Verhaltungsmessungen zurückgreifen, die bereits als valide Indikatoren akzeptiert sind. Ist die Korrelation eines Testes mit diesen Indikatoren hoch, so kann sagen, dass der Test über Konstruktvalidität verfügt. Im Falle eines Testes, der Aggressionsbereitschaft messen soll, könnte man, um Konstruktvalidität einzuschätzen, Indikatoren benutzen, die angeben, wie oft Kinder bzw. Erwachsene miteinander streiten, wie aggressiv sie laut Experten (z.B. Lehren, Klinikpersonal) sind usw.

Differentielle Validität

Differentielle Validität beschreibt, wie zuverlässig ein Test zwischen klar definierten Personengruppen, z.B. Hochbegabten und Unterbegabten Schuler, unterscheiden kann. Eine Überlegung hier wäre, ob es genug herausfordernde und leichte Aufgaben bei der Testkonstruktion gibt, damit eine klare Differenzierung zwischen diesen zwei Gruppen zu beobachten ist.

Reliabilität und Validität

Es ist wichtig, dass man auf beide Reliabilität und Validität achtet, da es möglich ist, dass ein Test völlig reliabel ist, aber nicht valid. Zum Beispiel, die Hawthorne Experimente haben sich eine konsistente Leistungssteigerung der Mitarbeiter gezeigt. In diesem Sinne war der Test völlig reliabel aber nicht valid: man konnte die Beleuchtung hinauf und herunterdrehen, wie man wollte, die Leistung der Mitarbeiter ist immer gestiegen. Aussagekräftig war eine andere Variabel – das Ausmaß der wahrgenommenen Wertschätzung von den Mitarbeitern. Wäre Ziel des Tests die Bemessung von wahrgenommener Wertschätzung korreliert mit Performance gewesen, dann wäre er auch reliabel gewesen.