Die Reliabilität eines Testverfahrens

Die Reliabilität eines Verfahrens bedeutet wie genau ein Verfahren genau misst. Dies kann man feststellen, in dem man ein Untersuchungsverfahren wiederholt und dann die Ergebnisse vergleicht. Ein Verfahren, das 100% Reliabilität aufweist wird immer die gleichen (konsistenten) Ergebnisse erbringen, egal wie oft es angewendet wird, z.B. misst man der Winkel von der Reflektion eines Lichtstrahls in einem Spiegel, wird man immer wieder 90° messen können. Das Ergebnis ist immer konsistent.

Es gibt zwei Reliabilitätsarten:

  • Konsistenz (der Ergebnisse), z.B. wenn ein Proband zwei mal den gleichen Test macht, sollten (innerhalb gewissen Rahmen) die gleichen Ergebnisse zustande kommen
  • Standardisierung der Testsituation, d.h. der Test wird in der gleichen Art und Weise und unter den gleichen Bedingungen angewendet und es gibt genormte (standardisierte) statistische Vergleichsdaten, die auch für Konsistenz geprüft wurden.

Konsistenz

Diese absolute Konsistenz ist natürlich bei den meisten diagnostischen Verfahren nicht gegeben. Deswegen versucht man das Ausmaß der Reliabilität zu quantifizieren, damit man eine Aussage machen kann, wie zuverlässig ein Verfahren ist. Es gibt einige Verfahren, die man anwenden kann, um Reliabilität zu bestimmen:
  • Retesting: Konsistenz von Ergebnissen zwischen wiederholten Anwendung desselben Tests an der gleichen Gruppe Personen wird gemessen.
  • Parallele Tests: Hier wird eine gleichwertige (Alternativ-)Form des Tests angewendet, statt den gleichen Test zu wiederholen. Dieses Verfahren bietet die Vorteile an, dass es die Auswirkungen von Übung, Erinnerungsvermögen und Verfälschungen des Probanden (wegen dem Wünsch „das richtig“ zu machen bzw. konsistent zu wirken) reduziert.
  • List item
  • Analyse der inneren Konsistenz von Testergebnissen: Ein Beispiel, wie sich die innere Konsistenz analysieren lässt, ist die anhand einer Split-half Reliabilty (Testhalbierungs-Reliabilität) Analyse. Hier vergleicht man die Ergebnisse der Items mit geradezahliger Nummerierung mit den Ergebnissen der Items mit ungeradezahliger Nummerierung. Sind die beiden Ergebnishälfte identisch, dann ist das Beweis für einen völlig reliablen Test.
  • Interrater-Reliabilität: In welchem Ausmaß verschiedener Beurteiler zum gleichen Ergebnis kommen.

Der Korrelationskoeffizient

Bei allen dieser vorher beschriebenen Verfahren muss man die Konsistenz zwischen (mindestens) zwei Gruppen von Ergebnissen bemessen. Dafür gibt es einen statistischen Wert, ein so genanntes Korrelationskoeffizient, die man anwenden kann. Es gibt auch verschiedene Methoden in der Statistik, wie man diesen Wert, r (ein Koeffizient wird in der Statistik mit dem Buchstaben „r“ bezeichnet) rechnen kann. Das Prinzip worauf alle Methoden beruhen ist, dass der Wert r den Grad des linearen Zusammenhangs zwischen zwei (oder mehr) Variablen misst, d.h. er weist auf die Kausalität zwischen den zwei Variablen. Werte von r zwischen 1 und -1 sind möglich, wo 1 und -1 eine perfekte (positive bzw. negative) Korrelation (d.h. Zusammenhang bzw. Reliabilität) bedeutet und 0 heißt, dass es keinen Zusammenhang (bzw. Reliabilität) gibt. Die Richtung der Korrelation, positiv oder negativ macht eine Aussage über die Beziehung zwischen den Variablen. Das lässt sich am Besten anhand eines Beispiels erklären: Gibt es eine negative Korrelation zwischen IQ und Bereitschaft zu rauchen, dass heißt das, dass je niedriger das IQ um so mehr steigt, die Bereitschaft zum Rauchen. Eine positive Korrelation zwischen IQ und Rauchen würde heißen, dass umso höher das IQ desto mehr steigt die Bereitschaft zum Rauchen.

Reliabilitätskoeffizienten

Es gibt, wie erwähnt verschiedene Formel zur Errechnung der Korrelation. Die Reliabilität ist eine spezielle Form bzw. Errechnung der Korrelation und wird durch eine so genannte Reliabilitätskoeffizienten. Spearman-Brown, Cronbach Alpha und Kappa sind alle Beispiele für Formel, die Reliabilitätskoeffizienten errechnen. Die Auswahl einer Formel hängt von verschiedenen Kriterien ab, am wichtigsten ist allerdings, die Art des Reliabilitätverfahren (Retest, Split-Test, Parallel-Test), die man verwendet. Die Formel bzw. das Errechnungsprozess sind oft sehr komplex und aufwendig und deswegen werden öfters Software, wie SAS und SPSS, dafür eingesetzt.

Ein einfaches Beispiel für ein Retest-Verfahren mit einem Test mit 150 Testitems und wo jedes Testitem ist eine Multiple Choice Aufgabe mit einer Auswahl von 4 möglichen Antworten:

Kappa = (Übereinstimmung – Erwartet) / Anzahl – Erwartet

Wo

  • Übereinstimmung = die Anzahl Ergebnisse die übereinstimmen zwischen Retests
  • Erwartet = das Ergebnis, das zu erwarten wäre, wenn der Proband alles geratewohl antworten würde, d.h. hier 150 / 4 = 31
  • Anzahl = die Anzahl von Testitems innerhalb eines Testlaufes
Wenn 120 Testitems übereinstimmen, ergibt das r = 120 – 31 / 150 – 31 = 0,75

Das heißt, dass das Verfahren eine 75% Reliabilität aufweist. Bei den besten psychologischen Tests gibt es eine Korrelationskoeffizient, r=0,7. Die meisten Leistungstests, so wie sie von Lehrern entwickelt werden haben eine Reliabilität zwischen r=0,3 und r=0,7.

Der Standardmessfehler

Eine Reliabilität von r=0,7 heißt, dass das Testverfahren nicht perfekt ist und enthält 30% Messfehler. In der Statistik heißt dies Standardfehler. Eine Schlussfolge ist, je höher die Reliabilitätskoeffizient, umso niedriger der Standardmessfehler und umso höher die Reliabilität.

Man weiß dann, dass ein erhobener Testwert nicht der exakte „wahre“ Wert ist, sondern enthält auch Messfehler (da kein psychologisches Testverfahren eine Reliabilität von r=1,0 hat). Der wahre Wert ist dann der getestete Wert plus/minus den Standardmessfehler, z, der als Standardeinheit auf der Testverfahrenskala ausgedruckt wird, z.B. bei einem IQ-Test, eine Einheit ist gleich eins. Da der Standardmessfehler eine Schätzung der Abweichung von dem wahren Wert ist, kann man nur mit einer gewissen Wahrscheinlichkeit sagen, in welchem Bereich der wahre Wert liegen wird. Diese Wahrscheinlichkeit heißt ein Vertrauensintervall (Konfidenzintervall) und man nimmt meistens 95% (90% und 99% sind auch oft benutzte Werte) an. Zum Beispiel, ein bestimmtes IQ Test hat einen Standardmessfehler von 1 IQ-Punkt und es wird ausgerechnet, dass sich eine 95% Konfidenzinterval ein Bereich von 4 IQ-Punkten ergibt, d.h. man kann mit 95% Sicherheit sagen, dass ein im Test bemessenen Wert, der „wahre“ Wert plus/minus 4 IQ-Punkte sein wird. Schafft ein Proband bei dem Testverfahren einen IQ-Wert von 102, heißt dies, dass man mit 95% Sicherheit sagen kann, dass sein echtes IQ zwischen 98 und 106 liegt.

Es lässt sich folgern, dass he größer die Reliabilitätkoeffizient, desto höher ein Konfidenzintervall man nehmen kann, bzw. um so kleiner der Standardmessfehler sein wird und desto größer die Messgenauigkeit des Verfahrens.

Will man auf Zufälligkeit zwischen zwei Testwerten überprüfen, wenn die zwei Testwerte zu zwei verschiedenen Zeitpunkten bemessen wurden, d.h. will man die Reliabilität zwischen zwei verschiedenen Zeitpunkten überprüfen, so kann man so genannte kritische Differenzen bedienen. Man kann hier wieder das Prinzip der Konfidenzintervalle bedienen. Hat man ein Konfidenzintervall von 95% und liegen beide Werte innerhalb dieses Bereiches, so kann man (mit 95% Sicherheit) sagen, dass die Werte nicht per Zufall zustande gekommen sind.

Standardisierung des Testverfahrens (Objektivität)

Objektivität spielt natürlich eine große Rolle bei der Reliabilität von einem Test und ein Test, das sich objektiv bewerten lässt, wo der Proband unter 2 oder mehr Alternativantworten wählen hat natürlich eine höhere Reliabilität verglichen mit einem Test, wo der Proband freie Antworten geben muss und wo für die Bewertung der Antwort eine subjektive Bewertung bzw. eine Interpretation der Antwort notwendig ist.

Wenn man Inkonsistenzen bzw. abweichende Resultaten zwischen Tests entdeckt, heißt dies nicht unbedingt, dass der Test nicht reliabel ist: es kann sein, dass die Variable, die man messen möchte, sich tatsächlich verändert haben. Will man zum Beispiel Motivation messen, dann kann es natürlich sein, dass sich das Motivationsniveau des Probanden zwischen Wiederholungen geändert hat und diese Veränderung ist genau das, was man zu messen versucht. Es kann aber auch sein, dass andere Variable, die man nicht messen will, sich ändern und diese Änderung verzerrt dann das Bild von den Fähigkeiten des Probanden, z.B. man will Konzentration messen und der Proband ist bei einer Wiederholung müde. Ein durchdachtes Testdesign ist daher notwendig um solche Verzerrungen zu vermeiden und um die Reliabilität des Tests zu gewährleisten.

Vom Standpunkt der Objektivität und dementsprechend auch Reliabilität sind kritisch anzusehen Tests, wo das Konstrukt bzw. der Sachverhalt zu bemessen, sehr vage oder komplex ist. Solche Konstrukte, wie „Sensibilität“ oder „Charisma“ sind sehr offen für Interpretationen und persönliche Eindrucken. Stattdessen ist es besser, wenn sich womöglich ein Test auf direkt beobachtbare Verhaltensweisen bezieht. Zum Beispiel, statt auf einen Konstrukt, „ist offen für neue Erfahrungen“ zu beziehen, ist es günstiger auf ein Verhalten, „nimmt Augenkontakt auf und lächelt“ zu beziehen.

Die Aufstellung von statischen Vergleichsdaten (Normen) ist auch wesentlich für die Reliabilität und Objektivität eines Testverfahrens. Statistische Vergleichsdaten ermöglichen es einen spezifischen Testwert eines Probanden mit den Resultaten von anderen Personen einer definierten Gruppe (z.B. erwachsene Männer zwischen 20 und 30 Jahre alt) zu vergleichen. Damit sind Aussagen möglich wie, „Proband X hat einen IQ-Wert von y und dies liegt über 70% der Werte von anderen Probanden in der Vergleichsgruppe“. Normdaten sollten anhand eines Mittelwerts und der Standardabweichung für die Stichprobe (bzw. Vergleichsgruppe) gegeben werden. Die Standardabweichung ist ein statistischer Wert, der beschreibt wie sich einzelne Datenwerte in der Stichprobe gestreut sind bzw. wie variabel die Daten sind. Je größer die Standardabweichung, umso mehr streuen die Werte. Der Mittelwert und die Standardabweichung sind eine Aussage über die Reliabilität von den Daten. Hat man zum Beispiel wie bei der HAWIE-R ein IQ-Testverfahren mit einem Mittelwert von 100 und eine Standardabweichung von 15, dann heißt dies bei einer Normalverteilung, dass ca. 95% der Daten in dem Bereich 70-130 liegen. Dass heißt wiederum, dass man (ausschließlich) gute Vergleichsdaten in diesem Bereich hat.

Bei der Auswahl eines Testverfahrens ist es deswegen wichtig Fragen über die Qualität der Testkonstruktion zu stellen: Wie groß ist die angewendete Normgruppe? Wie sind die Attributen (Alter, Geschlecht usw.) der Normgruppe? Wie hoch ist die Korrelation (r-Wert) des Testverfahrens mit der Normgruppe? Wie ist das Fähigkeitsniveau der Stichprobe an der der Test entwickelt wurde? Um zum Beispiel Intelligenz zu messen ist es nämlich wichtig zu versichern, dass eine adäquate Vergleichsgruppe mit gesicherten Gütekriterien vorhanden ist. Will man zum Beispiel sehr intelligente Probanden (IQ=130+) untersuchen, dann muss man einen Test mit entsprechenden Normierungsstichproben (d.h. genug Vergleichspersonen, die eine IQ von 130+ haben) auswählen.