Forschungsmethoden in der Fremdsprachendidaktik

Tekst
Loe katkendit
Märgi loetuks
Kuidas lugeda raamatut pärast ostmist
Šrift:Väiksem АаSuurem Aa

4.3 SamplingSampling

Urška Grum/Michael K. Legutke

4.3.1 Begriffsklärung und Einführung

Empirisch arbeitende Fremdsprachendidaktiker müssen im Forschungsprozess Auswahlentscheidungen treffen, die wesentlichen Einfluss auf die Datenerhebung, die Datenauswertung sowie die Präsentation der Ergebnisse haben und damit nicht zuletzt den Erfolg und die Aussagekraft der Studie bestimmen. Den Prozess der Auswahlentscheidungen, der im folgenden Kapitel skizziert werden soll, nennt man Sampling. So geht es u.a. um die Frage, von welchen Personen, Gruppen, Objekten oder Merkmalen (StichprobeStichprobe) in welcher Anzahl Daten erhoben werden sollen (StichprobenziehungStichprobenziehung). Entschieden werden muss ferner, welche der erhobenen Daten im Detail zu analysieren sind (DatensamplingDatensampling) und welche Ergebnisse der Analyse prominent diskutiert und dargestellt werden müssen (PräsentationssamplingPräsentationssampling).

Unter Sample versteht man eine Stichprobe, also eine Gruppe von Menschen oder Objekten, die einer GrundgesamtheitGrundgesamtheit (Population) entnommen wurde, um diese auf bestimmte Merkmale hin zu untersuchen, sprich um von dieser Daten zu erheben. In der qualitativen Studie von Steininger (2014), die die Modellierung literarischer Kompetenz für den Englischunterricht am Ende der Sekundarstufe I versucht, setzt sich die Stichprobe aus jeweils zwei 10. Gymnasialklassen, zwei 10. Realschul-, zwei 10. Gesamtschul- und schließlich zwei 9. Hauptschulklassen zusammen (Steininger 2014: 99). Sie besteht demnach aus acht Fällen bzw. Teilstichproben. Die Grundgesamtheit bildet hier die Gruppe aller Schülerinnen und Schüler mit Englischunterricht am Ende der Sekundarstufe in Hessen.

Da Forschungsvorhaben, die einem quantitativen Paradigma verpflichtet sind, sich in den grundlegenden Zielsetzungen von denen unterscheiden, die qualitativen Designs folgen, differieren auch die Auswahlentscheidungen und -prozesse. Aus diesem Grund wird nachfolgend Sampling in der quantitativen (Abschnitt 2) und der qualitativen Forschung (Abschnitt 3) getrennt erörtert. Trotz der Unterschiede zwischen quantitativen und qualitativen Forschungsarbeiten sind empirisch arbeitende Forschende in der Regel mit den Herausforderungen des Zugangs zum Forschungsfeld konfrontiert, den Schlüsselpersonen und Institutionen (gatekeepersgatekeepers) regulieren. Für Arbeiten im schulischen Bereich sind dies u.a. die Kultusministerien der Länder, die Schulleitungen, die Schulkonferenzen und die Lehrkräfte. Gatekeepers spielen häufig eine zentrale Rolle bei der Konkretisierung der Auswahlentscheidungen (Merkens 2012: 288). Forschende können oftmals gar nicht anders, als ein aus forschungsstrategischen Überlegungen als ideal eingestuftes Sampling zu modifizieren, weil die Anforderungen der gatekeepers Einschränkungen mit sich bringen (s. auch Kapitel 4.6). Auswahlentscheidungen sind deshalb häufig Ergebnisse von Kompromissen, ohne die das jeweilige Forschungsprojekt gefährdet wäre, wie unten an Beispielen noch verdeutlicht wird.

4.3.2 Sampling in der quantitativen Forschung

Quantitative Forschung strebt vom Grundsatz her RepräsentativitätRepräsentativität der Ergebnisse an. Diese wäre vollständig gegeben, würden alle für die Beantwortung der Forschungsfrage zu untersuchenden Personen, Merkmale oder Objekte untersucht. Da dies jedoch aus Praktikabilitätsgründen meistens nicht möglich ist, muss aus der Grundgesamtheit eine Stichprobe gezogen werden, die das zu untersuchende Phänomen möglichst genau abbildet, sprich repräsentiert. Mit anderen Worten: quantitative Forschung ist daran interessiert, Ergebnisse zu gewinnen, die nicht nur für die Stichprobe selbst, sondern für die gesamte Population gültig sind. Die zugrunde gelegte Population, die anhand einer Stichprobe genauer untersucht werden soll, kann dabei sehr groß (z.B. alle 15-jährigen Schülerinnen und Schüler weltweit) oder auch sehr klein sein (z.B. alle Schülerinnen und Schüler einer Klasse). Welche StichprobengrößeStichprobengröße in Relation zur Grundgesamtheit angemessen ist, wird in Abschnitt 2.3 erläutert. Zunächst soll jedoch diskutiert werden, welche Sampling-Strategien (Stichprobenziehungsverfahren) dafür zum Einsatz kommen können (Abschnitt 2.2) und welche a priori Entscheidungen getroffen werden müssen, um eine größtmögliche Repräsentativität der Stichprobe zu gewährleisten (Abschnitt 2.1). Zur Verdeutlichung möglicher Sampling-Strategien werden ausgewählte Forschungsarbeiten aus den Fremdsprachendidaktiken herangezogen.

1 Vorabentscheidungen

Um die mit Hilfe statistischer Verfahren gewonnenen Analyseergebnisse einer Stichprobe später auf die gesamte PopulationPopulation verallgemeinern zu können, müssen vorab genaue Überlegungen angestellt werden, wie die Repräsentativität der Stichprobe sichergestellt werden kann. Vollständige Repräsentativität ist gegeben, wenn alle Mitglieder der Grundgesamtheit untersucht werden, so dass Population und Stichprobe deckungsgleich sind. Diese Total-Totalerhebung oder VollerhebungVollerhebung stellt die einfachste Sampling-Strategie dar. In diesem Fall ist die gesamte Population erhebungsrelevant und kann mit den gegebenen Ressourcen in ihrem Umfang auch erfasst werden. Beispielsweise ließen sich über eine Vollerhebung alle Schülerinnen und Schüler einer Schule zu ihrer Zufriedenheit mit dem kulinarischen Angebot der Schulmensa befragen, wohingegen es ein hoffnungsloses Unterfangen wäre, mit dieser Sampling-Strategie die Lesekompetenz aller 15-jährigen Schülerinnen und Schüler weltweit messen zu wollen. Hier empfiehlt es sich, von einer Vollerhebung abzusehen und die erhebungsrelevante Grundgesamtheit in ihrer Anzahl (Umfang der Grundgesamtheit: N) im Rahmen einer Teilerhebung auf eine Stichprobe geringerer Zahl (Stichprobenumfang: n) zu reduzieren. Um jedoch die aus der Analyse der über die Stichprobe gewonnenen Befunde auf die Grundgesamtheit (alle 15-Jährigen weltweit) beziehen zu können, bedarf es einer Stichprobe, die die Grundgesamtheit repräsentiert. Eine repräsentative Stichprobe stellt ein unverzerrtes Miniaturabbild der Grundgesamtheit in Bezug auf die zu untersuchenden Personen, Objekte oder Merkmale dar. Ist die Miniatur nicht deckungsgleich mit dem Original, entsteht ein Zerrbild, was die Grundgesamtheit nicht zuverlässig darstellt. Repräsentativität ist

in der Forschungspraxis eher eine theoretische Zielvorgabe als ein Attribut konkreter Untersuchungen […] Die meisten Laien […] glauben, dass große Stichproben (z.B. 1000 Befragte) bereits die Kriterien für Repräsentativität erfüllen. […] Es ist ein weit verbreiteter Irrtum, dass mit wachsender Stichprobengröße die Repräsentativität der Stichprobe generell steigt. Dies trifft nur bei unverzerrter Auswahl zu. Bei einer verzerrten Auswahl hilft auch ein großer Stichprobenumfang nicht, den Fehler zu beheben, er wiederholt sich nur in großem Stil. (Bortz/Döring 2006: 398)

Repräsentativität ist eine Grundvoraussetzung für schließende bzw. inferenzstatistische Verfahren, die auf die Daten der Stichprobe angewendet werden. Ist die Stichprobe nicht repräsentativ für die Grundgesamtheit, lassen sich formal-statistisch die Studienergebnisse nicht auf die Grundgesamtheit verallgemeinern und die Aussagekraft der Studie reduziert sich auf die Stichprobe selbst. Es lassen sich zur Beschreibung der Stichprobe lediglich Verfahren der deskriptiven Statistik verwenden. RepräsentativeStichproberepräsentative und nicht-repräsentative Stichprobenicht-repräsentativeStichproberepräsentative Stichproben unterscheiden sich also in ihrer Aussagekraft und in der Art statistischer Verfahren, die auf sie angewendet werden können. Damit empfiehlt es sich, vorab festzulegen, welche Aussagekraft die Ergebnisse einer Studie haben sollen und Stichprobe und Sampling-Verfahren entsprechend zu wählen.

Es gibt verschiedene Sampling-Strategien, die eine größtmögliche Repräsentativität der Stichprobe anstreben. Sampling-Strategien geben einen Stichprobenplan vor, nach dem die Stichprobenziehung erfolgt. Dieser legt genau fest, welche Elemente in welcher Anzahl in die Stichprobe aufgenommen werden. Es gibt probabilistische wie nicht-probabilistische Sampling-Strategien. Erfolgt die Auswahl aus der Grundgesamtheit so, dass die ausgewählten Elemente die gleiche bzw. bekannte Auswahlwahrscheinlichkeit haben, entstehen probabilistische Stichproben; ist die Auswahlwahrscheinlichkeit unbekannt, ergeben sich nicht-probabilistische Stichproben (vgl. z.B. Bortz/Döring 2006: 402).

2 Sampling-Strategien

Probabilistischen Sampling-Sampling-StrategienprobabilistischeStrategien (ZufallsstichprobenauswahlZufallsstichprobenauswahl) liegt die Annahme zugrunde, dass sich Zufallsstichproben, die von einer Grundgesamtheit gezogen werden, zwar unterscheiden, aber alle Elemente der Grundgesamtheit qua Zufall eine ähnliche Wahrscheinlichkeit haben, genauso verteilt zu sein wie in der Grundgesamtheit. Statistisch betrachtet ist somit eine ausreichend große Wahrscheinlichkeit gegeben, dass eine einzelne Zufallsstichprobe dem Mittel der Grundgesamtheit ähnelt. Aus probabilistischen Stichproben gewonnene Ergebnisse erlauben daher populationsbeschreibende Rückschlüsse. Aus den gängigsten probabilistischen Sampling-Strategien resultieren u.a. folgende Stichprobentypen:

 ZufallsstichprobeZufallsstichprobe: Eignet sich für Untersuchungen, bei denen noch nichts über die untersuchungsrelevanten Merkmale bekannt ist. Per Zufallsauswahl werden die Probandinnen und Probanden (oder Objekte) direkt aus der GrundgesamtheitGrundgesamtheit gezogen. Dazu muss die Grundgesamtheit bekannt sein und die Auswahl nachweislich zufällig stattfinden (vgl. z.B. Bortz/Döring 2006: 480, Bortz/Schuster 2010: 80, Cohen/Manion/Morrison 2011: 153). Dies kann z.B. dadurch gewährleistest werden, dass jedes Mitglied der Grundgesamtheit eine Nummer erhält. Die Auswahl der zur Stichprobe gehörigen Nummern erfolgt dann über einen Zufallsgenerator. Hier wird statistisch unterschieden zwischen einfacher Zufallsstichprobe (die gezogenen Nummern werden zurückgelegt und können erneut ausgewählt werden) und Zufallsstichprobe (hier kann jedes Mitglied der Grundgesamtheit nur einmal in die Stichprobe gewählt werden).

 

 Geschichtete StichprobeStichprobegeschichtete: Um die Verteilung der zu untersuchenden Merkmalsausprägung in einer Stichprobe analog zu ihrer Verteilung auf verschiedene Schichten innerhalb der Grundgesamtheit replizieren zu können, muss diese Verteilung (z.B. aus Vorstudien) bekannt sein. Die Mitglieder aus den Schichten der Grundgesamtheit werden zufällig in die entsprechende Schicht der Stichprobe gewählt (vgl. z.B. Bortz/Döring 2006: 425, Bortz/Schuster 2010: 81, Cohen/Manion/Morrison 2011: 154). Ist beispielsweise bekannt, dass sich Leistungskurse in der Fremdsprache Französisch im Mittel aus 20 % männlichen und 80 % weiblichen Jugendlichen zusammensetzen, dann sollte sich diese Quote auch in der Stichprobe einer entsprechenden Studie wiederfinden. Gleiches gilt für alle Merkmale, die Einfluss auf die im Forschungsfokus stehende Eigenschaft haben könnten.

 KlumpenstichprobeKlumpenstichprobe: Als Klumpen werden natürliche Teilkollektive oder bereits bestehende Gruppen bezeichnet, wie etwa Schulklassen und Schulen. Analog zur Zufallsstichprobenziehung ist auch hier eine Liste aller studienrelevanten Klumpen notwendig, aus der per Zufall eine bestimmte Anzahl an Klumpen in ihrer Gesamtheit für die Stichprobe ausgewählt wird (vgl. z.B. Bortz/Döring 2006: 435–6, Bortz/Schuster 2010: 81, Cohen/Manion/Morrison 2011: 154). Es ist beispielsweise nicht möglich, im Rahmen einer Klumpenstichprobenziehung, für die ganze Schulklassen ausgewählt werden, nur einige Schüler aus einer gewählten Schulklasse in die Stichprobe aufzunehmen.

 Mehrstufige StichprobeStichprobemehrstufige: Klumpenstichproben können oftmals zu umfangreich werden, wenn die Klumpen selbst schon sehr groß sind. In diesen Fällen bieten sich zwei- oder mehrstufige Stichprobenziehungen an. Dabei wird in einem ersten Schritt eine Liste aller untersuchungsrelevanten Klumpen erstellt, aus der per Zufall eine bestimmte Anzahl an Klumpen ausgewählt wird (Klumpenstichprobe). In einem zweiten Ziehungsschritt wird wiederrum per Zufall eine bestimmte Anzahl an einzelnen Untersuchungsobjekten für die Stichprobe ausgewählt. Diese Schritte können mehrfach wiederholt werden (vgl. z.B. Bortz/Döring 2006: 440–1, Cohen/Manion/Morrison 2011: 155). Die Stichprobenziehungen der PISA-Studien folgen annäherungsweise einer zweistufigen Sampling-Strategie: Zuerst werden per Zufall aus einer vollständigen Liste infrage kommender Bildungseinrichtungen Schulen ausgewählt (Klumpenstichprobe), aus denen dann in einem zweiten Schritt zufällig die 15-jährigen Probandinnen und Probanden gezogen werden.

Um größtmögliche Repräsentativität der Stichprobe zu gewährleisten, muss in der Forschungspraxis oft auf mehrstufige Sampling-Verfahren zurückgegriffen werden. Dies lässt sich beispielhaft an der Studie von Grum (2012) darstellen: Untersucht wurde das Leistungsspektrum mündlicher englischer Sprachfähigkeit von Schülerinnen und Schüler der zehnten Jahrgangsstufe mit und ohne Bilingualem Sachfachunterricht in Berlin. Da es zum Erhebungszeitpunkt eine überschaubare Menge an Schulen mit bilingualem Sachfachunterricht gab (drei Gymnasien und drei Realschulen), wurden alle Schulen in die Studie aufgenommen. Anschließend wurden zu gleichen Anteilen aus den bilingualen wie regulären Klassen per Zufall, stratifiziert nach Geschlecht und Leistung, 84 Schülerinnen und Schülern gezogen, die an einem mündlichen Test teilnahmen. Der Stichprobenplan stellt somit eine Kombination aus Vollerhebung und geschichteter Stichprobe dar. Als weiteres Beispiel aus der Sprachlehr-Lernforschung sei hier die Studie von Özkul (2011) zur Berufs- und Studienfachwahl von Englischlehrenden genannt. Auch hier wurde auf eine Mischform der Stichprobenziehung zurückgegriffen. Die GrundgesamtheitGrundgesamtheit lässt sich folgendermaßen beschreiben: alle Lehramtsstudierende mit Anglistik/ Amerikanistik an deutschen Hochschulen im Wintersemester 2008, die an studieneinführenden Veranstaltungen teilnahmen. An 19 von 40 möglichen Hochschulen wurden Fragebögen verschickt, die von den Studierenden beantwortet wurden. Dieses Verfahren scheint zu einer Klumpenstichprobe in Kombination mit einer Zufallsstichprobe zu führen. Allerdings kann dieses Verfahren nicht als probabilistisch beschrieben werden, da sich Hochschulen und Studierende selbst für die Teilnahme an der Fragebogenergebung entschieden haben (SelbstauswahlSelbstauswahl) und nicht per Zufall ausgewählt wurden. Somit ist die Stichprobe nicht zufällig, sondern willkürlich entstanden und als nicht-probabilistisch einzustufen.

Bei nicht-probabilistischen Sampling-Strategien (QuotenauswahlstrategienQuotenauswahlstrategien) spielt der Zufall keine Rolle, sodass ein höheres Risiko besteht, Auswahlfehler zu begehen, die zu einem verzerrten Abbild der Grundgesamtheit führen. Aus nicht-probabilistischen Stichproben gewonnene Ergebnisse erlauben daher keine verallgemeinernden Aussagen über die Grundgesamtheit, gleichwohl lässt sich aber die Stichprobe beschreiben. Daher sind nicht-probabilistische Stichprobenverfahren dann sinnvoll, wenn beispielsweise die Grundgesamtheit unbekannt ist oder eine Studie zu rein deskriptiven oder explorativen Zwecken durchgeführt wird. Zu nicht-probabilistischen Sampling-Strategien gehören u.a. folgende Stichprobentypen:

 Ad-hoc-Ad-hoc-StichprobeStichprobe (BequemlichkeitsauswahlBequemlichkeitsauswahl oder GelegenheitsstichprobeGelegenheitsstichprobe): Eine bereits bestehende Personengruppe bildet die Stichprobe (z.B. eine Schulklasse oder Lerngruppe, Passanten). Es ist meist nicht zu rekonstruieren, welche Grundgesamtheit eine Ad-hoc-Stichprobe abbildet (vgl. z.B. Bortz/Döring 2006: 723, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 155–6).

 QuotenstichprobeQuotenstichprobe: Die Zusammensetzung der Stichprobe erfolgt nach Merkmalsquoten, die analog zur Zusammensetzung dieser in der Population erfolgt. Es werden gezielt vermeintlich passende Untersuchungsobjekte in die Stichprobe aufgenommen, um die Quote für bestimmte Merkmalskategorien zu erfüllen. Die Erfüllung der Quoten spielt dabei eine größere Rolle als die zufällige Auswahl der Stichprobe und erfolgt nicht per Zufall, sondern nach subjektiven Kriterien der Datenerhebenden (vgl. z.B. Bortz/Döring 2006: 483, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 156). Von einer Quotenauswahl kann beispielsweise dann gesprochen werden, wenn die Vorgabe ist, je vier Englischlehrerinnen und -lehrer zu befragen und der Interviewer sich in den Schulpausen im Lehrerzimmer solange passende Interviewpartner sucht, bis die Quote erfüllt ist.

 Theoretische StichprobeStichprobetheoretische: Nicht zufalls-, sondern theoriegeleitet werden für eine Forschungsfrage besonders typische oder untypische Fälle ausgewählt, mit dem Ziel, deren Verteilung in der Grundgesamtheit in der Stichprobe widerzuspiegeln (vgl. z.B. Bortz/Döring 2006: 742–3, Bortz/Schuster 2010: 82, Cohen/Manion/Morrison 2011: 156–7). Dieses Verfahren wird auch bei quantitativen Studien eingesetzt, findet aber primär in der qualitativen Forschung Anwendung (s. Kapitel 4.3).

3 StichprobengrößeStichprobengröße

Um eine möglichst hohe Repräsentativität für die Aussagekraft der Ergebnisse einer Studie zu erzielen, ist neben der Genauigkeit, mit der eine Stichprobe die Grundgesamtheit abbildet, und dem Grad an Zufälligkeit, mit der die Elemente der Grundgesamtheit in die Stichprobe gewählt werden, auch die Größe der Stichprobe von Bedeutung. Prinzipiell lassen sich statistische Kennzahlen mit jedem ‚irgendwie‘ erhobenen Datensatz jeglicher Größe berechnen – jedoch lassen sich weder die Qualität der Ergebnisse noch die Aussagekraft der Studie nachvollziehen. Wird ein quantitativ-empirisches Forschungsdesign mit auf die Grundgesamtheit schließenden inferenzstatistischen Verfahren angestrebt, lässt sich a priori der Umfang für die probabilistisch zu erhebende Stichprobe berechnen. Dabei wird ein möglichst optimaler Stichprobenumfang angestrebt, denn zu kleine Stichproben verringern die TeststärkeTeststärke und zu große Stichproben erhöhen den Erhebungsaufwand unnötig. „Stichprobenumfänge sind optimal, wenn sie einem Signifikanztest genügend Teststärke geben, um einen getesteten Effekt bei vorgegebener Effektgröße entdecken und auf einem vorgegebenen Signifikanzniveau absichern zu können“ (Bortz/Döring 2006: 736). Statistisch gesehen hängen Teststärke, EffektgrößeEffektgröße, α-Fehlerniveau und Stichprobenumfang voneinander ab. Dies bedeutet, dass sich die Stichprobengröße berechnen lässt, wenn man Teststärke, Effektgröße und α-Fehlerniveau festlegt. Diese Berechnung ist auch abhängig vom gewählten statistischen Verfahren, das auf die Daten angewendet werden soll. Das α-Fehlerniveau wird oftmals auf 5 % oder 1 % festgelegt und die Teststärke (1-β) auf .80. Die Effektgröße hingegen ist stark abhängig vom Forschungszusammenhang und wird oft in kleinere, mittlere und größere Effekte unterteilt. Der optimale Stichprobenumfang lässt sich für spezifische statistische Tests beispielsweise mit der Software G*Power berechnen oder in Tabellen nachschlagen (vgl. z.B. Cohen/Manion/Morrison 2011: 147–8, Bortz/Döring 2006: 627–8).

Zusammenfassend lässt sich für die Planung eines quantitativen Samplings folgender Ablaufplan erstellen: Zuerst wird entschieden, ob es nötig ist, eine Stichprobe zu ziehen oder ob eine Vollerhebung durchgeführt werden kann. Danach wird die Population in ihrer Größe und ihren erhebungsrelevanten Merkmalen definiert. Anschließend erfolgt die Festlegung auf eine für die Studie passende Sampling-Strategie. Zum Schluss wird überprüft, ob Zugang zur Stichprobe besteht (gatekeepersgatekeepers) oder ggf. die Sampling-Strategie geändert werden muss.