Qualitätssicherung: Gütekriterien bei der Fragebogen-Erstellung

Ein Fragebogen wird zunächst anhand der Zielsetzung der Befragung entwickelt und umfasst die Fragen und Items die später ausgewertet werden sollen. Aber ist der Fragebogen dann auch schon 'gut'?

Um den Fragebogen zu optimieren, werden Gütekriterien wie Objektivität, Reliabilität und Validität überprüft.

Objektivität:

Hier geht es um die Unabhängigkeit der Testergebnisse vom Testanwender im Hinblick auf:
  • Durchführungsobjektivität:
    Konstanz der Untersuchungsbedingungen - Durch eine möglichst hohe Standardisierung können Störfaktoren wie Interviewereffekte, Item-Reihenfolge, Fragebogen Unterbrechung, etc. vermieden werden.
  • Auswertungsobjektivität:
    Die Reaktion des Befragten auf eine Frage kann oft nur unzureichend als "Kreuzchen" im Fragebogen abgebildet werden. Vor allem die Codierung offener Fragen ist fehleranfällig. Fehler in der Dateneingabe stellen ebenfalls eine Beeinträchtigung der Auswertungsobjektivität dar.

    Um die Auswertungsobjektivität quantitativ zu bestimmen kann man Interviews von 2 verschiedenen Auswertern codieren lassen. Die mittlere Korrelation kann dann als Maß der Auswertungsobjektivität interpretiert werden.
  • Interpretation der Ergebnisse
    Hier ist eine hohe Objektivität gewährleitet, wenn verschiedene Interpretatoren mit vergleichbarem Wissensstand zum selben Ergebnis bei der Beurteilung der Befragungsergebnisse kommen.
    Interpretationshinweise und Untersuchungsdetails müssen dafür zur Verfügung gestellt werden, Normwerte oder Benchmarks ermöglichen eine quantitative Interpretation der Ergebnisse.

Die Objektivität kann und sollte man vor der Testanwendung sicher stellen.

Reliabilität

Die Reliabilität bezeichnet die Messgenauigkeit bzw. Zuverlässigkeit eines Verfahrens, also bspw. die Genauigkeit, mit der eine Skala ein Merkmal misst. Eine Reliabilität von 1 ist erreicht, wenn die Messergebnisse exakt repliziert werden können.

Die Reliabilität wird über die Berechnung von Korrelationen zwischen Messwerten ermittelt. Je nachdem, welche Messwerte man miteinander korreliert, unterscheidet man verschiedene Arten von Reliabilitäten:

  • Paralleltest-Methode: Die Ergebnisse zweier parallel konstruierter Fragebögen, die man denselben Personen vorgegeben hat, werden miteinander korreliert.
    Korrelation 1Korrelation 2
    Person APerson A
    Zeitpunkt 1Zeitpunkt 1
    Fragebogen 1Fragebogen 2

    Durch die Vorlage des Fragebogen 2 werden Erinnerungseffekte und tatsächliche Veränderungen im Merkmal vermieden. Der Fragebogen 2 entspricht dem Fragebogen 1 indem für jedes Item ein vergleichbares abgefragt wird.

  • Retest-Reliabilität: Die Korrelation zwischen zwei wiederholten Messungen bei den gleichen Personen zu unterschiedlichen Zeitpunkten.
    Korrelation 1Korrelation 2
    Person APerson A
    Zeitpunkt 1Zeitpunkt 2
    Fragebogen 1Fragebogen 1

    Durch den zeitlichen Abstand der 2 Untersuchungen sollen Erinnerungseffekte bei der befragten Person gemindert werden. Dieses Verfahren kann man anwenden, wenn sich die Einstellung des Probanden im Untersuchungszeitraum vermutlich nicht ändert. Wertvorstellungen und generelle Einstellungen sind hier abfragbar, die Frage nach Stimmungen dagegen ist für diesen Test ungeeignet.

  • Split-half-Reliabilität: Hier teilt man die Items eines Fragebogens in zwei Gruppen und korreliert die Ergebnisse beider Testhälften. Die beiden Teile beleuchten das selbe Merkmal mit unterschiedlichen Items. Würde man im zweiten Teil ein anderes Merkmal einschätzen, würde es zu geringen Korrelationen kommen.
    Korrelation 1Korrelation 2
    Person APerson A
    Zeitpunkt 1Zeitpunkt 2
    Fragebogen 1, Teil 1Fragebogen 1, Teil 2

    Bei der Aufteilung der Items auf die beiden Teile kann man verschiedene Strategien wählen. Neben einer einfachen Halbierung der Items und Verteilung auf die 2 Teile kann auch eine Aufteilung nach Itemkennwerten erfolgen.

    Hier werden Itempaare anhand von Mittelwert, Streuung und Korrelation mit dem Gesamtindex gebildet und dann auf die beiden Fragebogenteile verteilt.

    Beim Split-half-Verfahren fällt die Reliabilität im Vergleich zum Paralleltestverfahren geringer aus, da weniger Items korreliert werden. Dies kann mit der Spearman-Brown-Formel für Testverdoppelung korrigiert werden.

  • Interne Konsistenz: Man kann einen Fragebogen nicht nur in zwei Hälften teilen, sondern jede Itemantwort als Messwert betrachten und die Reliabilität auf diesem Weg schätzen.

Wann ist eine Reliabilität als gut zu bewerten?

Bei angenommener grosser Merkmalsstabilität können Reliabilitätskoeffizienten in der Grössenordnung um .80 bereits als gut gelten, ein Wert von 0.70 ist befriedigend.

Eine generelle Antwort kann hier nicht gegeben werden, da viele Faktoren Einfluss halten. Da sind Untersuchungszeitpunkt (Retest-Design), inhaltliche Vergleichbarkeit der Items sowie die Anzahl der Items und Skalenwerte zu nennen.

Validität

Unter der Validität versteht man das Ausmass, in dem der Test das misst, was er messen soll.

  • Logische Validität meint so etwas wie eine triviale Gültigkeit eines Erhebungsverfahrens. Sie wird auch inhaltliche Validität oder Augenschein-Validität genannt und ist nicht sehr brauchbar.
  • Externe Validität: dies setzt voraus, dass eine andere Messung dessen, was der Fragebogen messen soll verfügbar ist. Die Validität wird über die Korrelation der Testergebnisse mit dieser anderen Messung desselben Merkmals berechnet.

    Ein Beispiel ist hier der Vergleich von Wahlprognose und Wahlergebnis.

  • Interne Validität: die Ergebnisse einer Testkonstruktion müssen letztlich mit dem Gesamtwissen zum Konstrukt übereinstimmen. Ein Verfahren zur Bestimmung der internen Validität ist die Faktorenanalyse.

Abgrenzung Validität und Reliabilität

Einführung in die Test- und
Fragebogenkonstruktion
von Markus Bühner

Jetzt bestellen
Die Abgrenzung der Validität gegenüber der Reliabilität verdeutlicht das nachfolgende Beispiel: Angenommen, Gegenstand der Befragung sei die individuelle Aufnahme an alkoholischen Getränken. Eine hohe Alkoholzufuhr gilt als sozial unerwünscht und wird daher ungern preisgegeben, insbesondere dann, wenn diese Information mittels eines persönlichen Interviews eingeholt wird. Ein Teil der Befragten kann aus diesem Grund dazu neigen, in einer Befragung stets die Alkolholzufuhr auf ein bestimmtes Maß zu beschränken, egal wie oft die Befragung durchgeführt wird. Dadurch kann das Instrument zwar eine hohe Reliabilität besitzen (weil stets die gleiche Alkoholzufuhr gemessen wird), aber es besitzt keine Validität, denn die gemessene Alkoholzufuhr weicht unter Umständen erheblich von der wahren Alkoholaufnahme ab. Es ist folglich möglich, daß Meßwiederholungen stets dasselbe Ergebnis erbringen, aber die Messungen etwas anderes messen, als beabsichtigt ist, und daher keine Validität besitzen. Umgekehrt ist es nicht möglich, daß ein Instrument valide Daten liefert ohne gleichzeitig zuverlässig zu sein. Ein Instrument ist um so valider, je weniger systematische Fehler vorkommen.

(Ingo Friepörtner, 27.01.2009)

Doku-Tipp / Quellen: