Die Forschungsliteratur zu Testen und Bewerten von Fremdsprachen kann bislang nur wenige Arbeiten nennen, die sich systematisch mit der geschichtlichen Entwicklung dieses Bereichs auseinandersetzen. Dabei verweisen die meisten AutorInnen zunächst auf die allgemeine Geschichte des Testens und Bewertens, die bereits in der Zeit der kaiserlichen Dynastien Chinas vor über 2000 Jahren, und damit sehr früh, einsetzte. Die damals etablierten Testverfahren dienten dem Zweck, die Bestqualifizierten – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Klasse oder Familie – für den Staatsdienst auszuwählen (vgl. Spolsky 2008, 445; s. auch Fulcher 2010, 1ff.; Kunnan 2008, 135; O’Sullivan 2012). Dieses Chinesische PrinzipNormorientierte Bewertung bei der Auswahl der Besten nach dem Chinesischen Prinzip (Macaulay 1853; Spolsky 1995) machte in anderen asiatischen Ländern, wie Korea oder Japan, ebenfalls Furore. Nach Europa gebracht wurde das Prinzip der Auswahl der Besten von den Jesuiten, die es geschickt mit dem hier im Mittelalter vorherrschenden Treviso-Prinzip (Spolsky 2008, 444) verbanden. Diesem ging es nicht um das Feststellen der Bestqualifizierten, sondern um den Nachweis der Leistung von SchülerInnen am Ende eines Lernjahres: Je nach Erfolg der SchülerInnen bezahlte die Stadt das Gehalt der verantwortlichen Lehrperson. Damit standen der curriculare Inhalt und dessen Umsetzung im Mittelpunkt: Erfüllten die SchülerInnen die Vorgaben zu den Lehrinhalten, hatten sie bestanden. Aus heutiger Sicht kann vermutet werden, hier einen Vorläufer kriterienorientierterkriterienorientierte BewertungTreviso-Prinzip als Vorläufer kriterienorientierter Bewertung, inhaltsvalider Verfahren vorzufinden, bei dem die Testkriterien auf dem Curriculum basieren und die gelehrten Inhalte mit jenen der Prüfungen übereinstimmen sollten. Demgegenüber wäre die chinesische Art des Überprüfens wohl als normorientiertnormorientierte Bewertung zu charakterisieren: Die Leistung des Einzelnen wurde vermutlich zur Leistung der Gesamtheit der TestteilnehmerInnen in Beziehung gesetzt. War ein Jahrgang leistungsschwächer, konnte eine Person mittlerer Leistung eher zu den Besten zählen als in einem Jahrgang mit einer leistungsstarken Gruppe. Im weiteren Lauf der Geschichte bleiben beide Zugänge zum Testen und Bewerten erhalten. Sie finden sich auch in aktuellen Debatten und begleiten die Auseinandersetzungen insbesondere in Zeiten von Änderungen und Umbrüchen in einem Prüfsystem. Grundsätzlich ging es jedoch im Chinesischen Prinzip wie im Treviso-System darum, Günstlingswirtschaft durch Fähigkeits- und Leistungsnachweise zu ersetzen und damit einer subjektiv gehaltenen oder auf sozialen Faktoren beruhenden Auswahl eine Objektivierung der Leistungsbewertung gegenüber zu stellen. Diese zielte letztendlich auf Chancengleichheit ab (vgl. O’Sullivan 2012, 9). Historisch gesehen gelang es damit in China, den Einfluss der Aristokratie zurückzudrängen und eine kaisertreue Beamtenschaft zu etablieren (vgl. Kunnan 2008, 136). Auch das Auftreten einer

education industry

, die die verschiedenen Tests erstellte, war – inklusive negativer Rückkoppelungen (

Washback

) (s. Abschnitt 4.2.2) – schon zu beobachten (vgl. O’Sullivan 2012, 9f.).

Aufgaben zur Überprüfung bestimmter sprachlicher Fertigkeiten waren in den chinesischen Tests bereits inkludiert. So musste nachgewiesen werden, dass man in der Lage war, einen politischen Essay zu schreiben oder Gedichte anhand formaler Vorgaben wie Reimbildung zu verfassen (vgl. Kunnan 2008, 136).

In Europa trugen vor allem die Universitäten zur Verbreitung von Tests und Prüfungen beiVerbreitung von Tests und Prüfungen durch Universitäten und neu etablierte staatliche Bildungssysteme. Die Umgestaltung respektive Neuetablierung staatlicher Bildungssysteme, wie in Frankreich, Preußen und Österreich insbesondere im 18. Jahrhundert, und die damit einhergehende Ausweitung und Öffnung der Schulsysteme zogen ähnliche Effekte nach sich. Interessanterweise hinkte das britische System hier zeitlich gesehen hinterher, wie O’Sullivan ausführt:

Testing became a bigger issue in Britain in the 19th century when the establishment realized they needed to select people according to capability and end the practice of patronage (the French and Germans had already come to that conclusion almost half a century earlier). The introduction of competitive examinations to the civil service in the UK was preceded by the Oxford University Commission, which led to the introduction of examinations within the education system in 1850, . (O’Sullivan 2012, 10)

In Großbritannien wurden Anfang des 20. Jahrhunderts Tests für Englisch als Fremdsprache für Personen eingeführt, die aus den Kolonien stammten und eine Ausbildung im britischen Bildungssystem anstrebten (vgl. O’Sullivan 2012, 11). In den USA reichen erste Vorläufer von

large-scale language

tests

large-scale test

respektive Sprachtests für eine hohe Anzahl an TestteilnehmerInnen in die zweite Hälfte des 19. Jahrhunderts zurück (vgl. Kunnan 2008, 136f.)Vorläufer von

large-scale language tests

ab der 2. Hälfte des 19. Jahrhunderts in den USA. Diese Sprachtests waren Kinder ihrer Zeit und nutzten Prüfformate, die die damals vorherrschende Fremdsprachenvermittlung, also die Grammatik-Übersetzungs-Methode, widerspiegelten. An dieser Art der Überprüfung von Sprache kam bereits früh Kritik auf, sodass neue Aufgabenformate wie ‚Richtig/Falsch‘-, ‚Einfach- oder Mehrfachwahl‘- und ‚Bemerke den Fehler‘-Aufgaben entwickelt wurden (vgl. Kunnan 2008, 137), von denen man sich eine objektivere Beurteilung der Fremdsprachenkenntnisse erhoffte. Übersetzungsaufgaben wurden dennoch beibehalten. Einen deutlichen Wendepunkt in der Geschichte des Sprachentestens setzte der Zweite WeltkriegZweiter Weltkrieg als Wendepunkt in der Entwicklung der Sprachtestung. Insbesondere in den USA wurde nun in einem großangelegten Programm, dem

Army Specialized Training Program

, wissenschaftlich an der Entwicklung von Sprachtests gefeilt (vgl. Kunnan 2008, 138). Diese Arbeit ging einher mit der Etablierung der Audiolingualen Methode als neuem Sprachlehr- und -lernansatz. Dieser war ebenfalls wissenschaftlich begründet und basierte auf einer engen Kooperation zwischen hochangesehenen Linguisten des Strukturalismus, wie Bloomberg und Fries, und exzellenten Psychologen der behavioristischen Schule, wie B.F. Skinner.

In der Entwicklung des Testens und Bewertens von Sprache muss an dieser Stelle auf die erste Systematisierung der Geschichte von Sprachtests verwiesen werden, die von Spolsky (1976) vorgelegt wurde und uns gleichzeitig in die Gegenwart des Sprachentestens führt. Spolsky unterscheidet drei Perioden des SprachentestensDrei Perioden des Sprachentestens:

das vorwissenschaftlichevorwissenschaftliches Sprachentesten

das psychometrisch-strukturalistischepsychometrisch-strukturalistisches Sprachentesten

das psycholinguistisch-soziolinguistischepsycholinguistisch-soziolinguistisches Sprachentesten Sprachtestparadigma

Diese Unterteilung kann einerseits als geschichtliche Entwicklung und damit als Abfolge auf globaler Ebene gesehen werden. Je nach lokal-nationalen Bedingungen können sich die drei Perioden andererseits aber auch überlappen und/oder gleichzeitig und nebeneinander existieren (vgl. Spolsky 1976, 11). Auch wenn Spolsky zum einen zwar darauf verweist, dass es sich bei seiner Einteilung um eine grobe Generalisierung handelt (vgl. ebd.), und er zum anderen mittlerweile von seiner zunächst getroffenen Einteilung mit sehr differenzierten Begründungen abrückt (vgl. Spolsky 2017), erscheint es im Folgenden doch nützlich, die Charakterisierung der drei Perioden etwas näher zu betrachten.

Das vorwissenschaftliche SprachentestenSubjektive Bewertung von mündlichen und schriftlichen Performanzen im vorwissenschaftlichen Sprachentest-Paradigma zeichnet sich durch einen subjektiven Zugang zur Bewertung von sprachlichen Leistungen aus. Die Bewertung kommt ohne statistisch begründbare Auswertungsverfahren aus. Benotet wird die Sprachleistung beispielsweise anhand schriftlicher Performanzen der Lernenden oder nach einer kurzen mündlichen Äußerung. Sprachprüfungen liegen eindeutig in der Hand der Lehrpersonen und erfordern keine weitere Expertise: Wenn jemand eine Sprache lehren und unterrichten kann, dann wird davon ausgegangen, dass er/sie die Sprachleistungen der Lernenden auch bewerten kann (vgl. Spolsky 1976, 11f.).

Demgegenüber setzt die psychometrisch-strukturalistischeMöglichst objektive Bewertung vor allem rezeptiver Fertigkeiten durch geschlossene Aufgabenformate im psychometrisch-strukturalistischen Sprachtestparadigma Periode des Sprachentestens auf Expertentum. Nun gilt es, Sprachleistungen objektiv, zuverlässig und wissenschaftlich begründbar zu überprüfen und zu bewerten. ExpertInnen in der Testtheorie sind verantwortlich für das Entwerfen adäquater Prüfformate und für deren statistische Auswertung, LinguistInnen geben die zu überprüfenden Sprachbereiche vor. Ausgangspunkt ist die Kritik an den zuvor subjektiv ausgerichteten Sprachprüfungen. So wird erstmals anhand von Untersuchungen gezeigt, dass die vorherrschende Bewertung schriftlicher Aufsätze subjektiv ausgeprägt und nicht reliabel ist (vgl. Hartog & Rhodes, 1936; Pilliner, 1952, zitiert in Spolsky 1976). Diesem Problem wird vor allem durch das Entwickeln geschlossener Aufgabenformategeschlossenes AufgabenformatGeschlossene (vorgegebene Antwortmöglichkeiten), halb-offene (keine vorgegeben Antwortmöglichkeiten, erwartbare Antworten) und offene (keine vorgegebenen Antwortmöglichkeiten, freie Antworten) Aufgabenformate wie

multiple

choice

multiple choice-Aufgabe

- oder EinfachwahlaufgabenEinfachwahlaufgabe und halb-offenerhalb-offenes Aufgabenformat Formate wie KurzantwortenKurzantwort versucht entgegenzuwirken, da deren Ergebnisse statistisch berechenbar sind und objektiv ausgewertet werden können. Damit wird der Fokus jedoch deutlich auf die Überprüfung der rezeptiven Fertigkeiten – Lesen, Hören – und der sprachlichen Mittel – Wortschatz, Grammatik – gelegt. Da die zu überprüfenden Sprachbereiche von der strukturalistischen Linguistik eingebracht werden, verwundert es nicht, dass diese auf der Basis kontrastiver Sprachvergleiche zwischen Ausgangs- und Zielsprache festgelegt werden und vor allem jene Strukturen überprüfen, die keine Gemeinsamkeiten in den betreffenden Sprachen aufweisen. Auf der Strecke bleiben eine umfassende Sicht von Sprache und ein adäquates Einbeziehen der produktiven Fertigkeiten Schreiben und Sprechen. Nichtsdestotrotz findet in der psychometrisch-strukturalistischen Sprachtestperiode die erste gezielte Zusammenarbeit zwischen den nach wie vor wesentlichen Bezugswissenschaften des Sprachenlernens, -lehrens und -testens, nämlich der Sprachwissenschaft und Psychologie, statt.

Während Morrow (1979, 144) die erste Periode, also das vorwissenschaftlichevorwissenschaftliches Sprachentesten Sprachentesten, metaphorisch als „Garten Eden“ bezeichnet, in dem jeder/jede frei ist, zu tun und zu lassen, was ihm/ihr beliebt, nennt er die eben skizzierte psychometrisch-strukturalistische Sprachtestperiode das „Tal der Tränen“: In diesem scheint alles reglementiert zu sein und die Messbarkeit überdeckt als wesentlichstes Ziel das tatsächliche Beherrschen und Sich-Ausdrücken-Können in einer Zielsprache.

Morrow zufolge wird mit der dritten Sprachtestperiode, dem psycholinguistisch-soziolinguistischen SprachentestenValidität als wesentliches Testprinzip im psycholinguistisch-soziolinguistischen Sprachtestparadigma, das „verheißene, gelobte Land“ betreten. Nun rückt das Gütekriterium der ValiditätValidität, also der Übereinstimmung zwischen einer umfassenden Konzeption von Sprache, wie sie im Unterricht vermittelt wird, und der Auffassung von Sprache, wie sie Sprachtests als theoretisches KonstruktKonstrukt (s. Abschnitt 5.2) zugrunde liegt, in den Mittelpunkt. Sprachtestergebnisse sollen zwar weiterhin so objektiv und reliabel wie möglich sein, angestrebt wird nun aber, diese Kriterien auch auf die produktiven Sprachfertigkeiten zu übertragen. Dieses Unterfangen sollte beispielsweise durch die Bewertung von mündlichen oder schriftlichen Sprachleistungen anhand der Überprüfung festgelegter Kriterien gelingen. Diese kriterienorientierte Bewertung soll an die Stelle einer subjektiven Notenvergabe treten und transparent gestaltet sein, indem die Bewertungskriterien auch den Lernenden zugänglich gemacht werden. Zudem sollte das Augenmerk auf IntraIntrarater-Reliabilität- und Interrater-ReliabilitätInterrater-Reliabilität gelegt werden (s. Abschnitt 4.1.2).

Sprachwissenschaftlich gesehen findet die Periode des psycholinguistisch-soziolinguistischen Sprachentestens in der sog. pragmalinguistischen Wende ihre Begründung. Diese setzt in den 60er Jahren des 20. Jahrhunderts ein und bedingt circa zehn Jahre später die kommunikative Wende im Fremdsprachenunterricht. Damit rücken die sprachliche Handlungs- und Kommunikationsfähigkeit in den Mittelpunkt des Unterrichts. Spolsky trägt diesem Paradigmenwechsel in Sprachwissenschaft und Sprachunterricht mit dem Adjektiv „soziolinguistisch“ Rechnung. Die Bezeichnung „psycholinguistisch“ lässt sich demgegenüber mit direkten und indirekten Auswirkungen des

cognitive turn

in der Sprachwissenschaft erklären. Dieser erlaubt insofern ein Abweichen vom Strukturalismus als Basis der Bewertung von sprachlichen Äußerungen, als er eine Grundlage für die empirische Auseinandersetzung mit realen Lerneräußerungen schafft und damit von einer kontrastiven Betrachtung sprachlicher Elemente in Ausgangs- und Zielsprache absieht. Die Betrachtung der tatsächlichen Sprachäußerungen von Lernenden wird nun postuliert und die Analyse der sich entwickelnden Lernersprache –

interlanguage

nach Selinker (1972) – ermöglicht.

Auf den Plan tritt somit die Psycholinguistik, die sich mit der mentalen Verarbeitung von Sprache beschäftigt. Auch wenn heute mittlerweile interessante theoretische Modellansätze vorliegen, sind wir nach wie vor weit von umfassenden, psycholinguistisch begründ- und beschreibbaren Entwicklungen des Sprachenlernens entfernt. Der Fremdsprachenunterricht kann also nur bedingt auf mögliche Handlungsanweisungen zurückgreifen, die lernersprachenbasiert sind (s. Kapitel 2 und 3). Die Forderungen, den Fremdsprachenunterricht und das Überprüfen von Leistungen in der Fremdsprache lernersprachensensibel auszurichtenForderung nach lernersprachensensiblem Testen, werden jedoch immer stärker (vgl. u.a. Larsen-Freeman 2009; Van Moere 2012) und weisen in eine anstrebenswerte Richtung. Bei entsprechender Vorlage ausreichender empirischer Forschungsergebnisse aus der Spracherwerbs-, Sprachlehr- und Sprachtestforschung könnte Spolskys psycholinguistisches Paradigma des Sprachentestens auch erfüllt werden und möglicherweise den Zugang zum „gelobten Land“, im Sinne Morrows, eröffnen, in dem Fremdsprachenunterricht und das Bewerten fremdsprachlicher Leistungen von Lernenden an einer realistischen Lernersprachentwicklung ausgerichtet sind.

In Anbetracht dessen erscheint es daher unter Einbeziehung des aktuellen Forschungsstandes adäquater, Spolskys dritte Periode des Sprachentestens nicht als „psycholinguistisch-soziolinguistisch“, sondern als „kommunikativ-handlungsorientiertkommunikativ-handlungsorientiertes Sprachentesten“ zu bezeichnen. Damit kann auch auf die richtungsweisenden Sprachmodelle von Canale (1983), Canale & Swain (1980), Bachman (1990) sowie Bachman & Palmer (1996) verwiesen werden, die kommunikative Sprachkompetenzen umfassend definieren und Kriterien für ihre Überprüfbarkeit vorlegen. Das Einbeziehen aller sprachlichen Fertigkeiten und das Bemühen um eine adäquate Überprüfungintegriertes Aufgabenformat von Wortschatz und Grammatik (s. Abschnitt 8.1) stehen aktuell im Mittelpunkt der Sprachtestforschung. Mit Davies (2014, 12) kann darauf verwiesen werden, dass die folgenden Fragen nach wie vor wesentlich für das Sprachentesten sind:

Wie wird getestet?

Was wird getestet?

Wer sind die PrüferInnen?

Der hier knapp skizzierte Abriss einer historischen Entwicklung des Sprachentestens leitet über zu Fragen der sozialen und politischen VerantwortungSoziale und politische Verantwortung im Umgang mit Sprachtests, die in Bezug auf den Umgang mit Sprachtestergebnissen und den Zweck von Sprachtests gestellt werden müssen. Diese Forderung gilt in besonderem Maße für

large-scale

Sprachprüfungen, auf die sich die hier vorgelegten Beschreibungen grosso modo auch beziehen. Die Geschichte des Testens und Bewertens von Fremdsprachen, wie sie im schulischen Alltag in Form von schriftlichen Klassen-/Schularbeiten, mündlichen Prüfungen, Mitarbeitsüberprüfungen oder Hausübungen erfolgen, muss nämlich erst geschrieben werden. Dieses Desiderat in Bezug auf das schulische Überprüfen fremdsprachlicher Leistungen gilt sowohl hinsichtlich seiner geschichtlichen Aufarbeitung als auch hinsichtlich der aktuellen Forschungslage. Erste Ansätze einer eingehenderen, forschungsbasierten Beschäftigung mit schulischem Sprachentesten fokussieren im Moment eher auf Definitionsversuche der sog.

Assessment literacy

von Lehrpersonen als aktuelles Desiderat der Sprachtestforschung

assessment

literacy

assessment literacy

von Sprachlehrpersonen und grenzen diese von Erfordernissen für professionelle SprachtesterstellerInnen ab (s. Kapitel 10 und 11). Dabei spielt jedenfalls im österreichischen Kontext die Etablierung der neuen SRDP für die Fremdsprachen insbesondere im Hinblick auf den

Washback

-Effekt für den schulischen Sprachunterricht eine entscheidende Rolle, in Deutschland kommt diese Rolle vor allem den Bildungsstandards zu (vgl. u.a. Rossa 2016). Das Überprüfen und Testen sprachlicher Leistungen sollte sich generell in den Dienst demokratischer Chancengleichheit für die TestteilnehmerInnen auf der Basis kriterienorientierterkriterienorientierte Bewertung und transparenter Bewertungsverfahren stellen, die Lernende dabei unterstützen, ihr Potential sichtbar zu machen (s. u.a. Spolsky 1976, 21ff.).

Arbeitsaufträge und Diskussionsfragen

1 Haben Sie Erfahrungen in einem der drei genannten Sprachtestparadigmen gesammelt? Wenn ja, welches Paradigma trifft eher auf Sie als Sprachlernende, welches eher als Sprachlehrende zu? Nennen Sie jeweils mögliche Gründe dafür.

2 Finden Sie sich vielleicht in mehr als einem dieser Sprachtestparadigmen wieder? Wenn ja, welche Gründe können Sie dafür anführen?

3 Denken Sie an Ihre eigene Praxis als Prüfende: Erkennen Sie Grundlagen, anhand derer Sie mündliche Prüfungen und schriftliche Klassen-/Schularbeiten b

Eelmine 123 4 5 6 Järgmine

Testen und Bewerten fremdsprachlicher Kompetenzen

Selle raamatu lugejad loevad ka