Geschichte von Multiple-Choice und Test-Maschinen

Der untenstehende Gastbeitrag ist die deutschsprachige Übersetzung des Artikels "Multiple Choice and Testing Machines: A History", der am 27.01.2015 im Blog "Hack Education" von Audrey Watters erschien. Audrey Watters ist eine Edubloggerin und Technologie-Journalistin aus dem kalifornischen Hermosa Beach. Auf ihrer Webseite, die täglich etwa 5.000 Aufrufe verzeichnet (Quelle: mysitestats, 01/2015), thematisiert sie seit 2010 den Einsatz von Technologien in der Bildung. Zuvor war sie als Programm-Managerin bei der "International Society for Technology in Education (ISTE)" und als Dozentin und Koordinatorin an der University of Oregon tätig.

Quelle: qperello, Alberto G [CC BY 2.0] Wikimedia Commons

Von Audrey Watters, aus dem Englischen von Matthias Wolf

Warum Multiple Choice?

Das ist eine Frage, die mich seit langer Zeit beschäftigt, vor allem, weil ich mit einem Fuß im amerikanischen und mit dem anderen im britischen Bildungssystem aufgewachsen bin. Ersteres setzt auf eine Menge Multiple-Choice-Tests; letzteres nutzt fast gar keine.

Wo und in welcher Zeit liegen die Ursprünge von Multiple-Choice-Assessment? Wer hat entschieden, dass es ein gutes Messinstrument für das Lernen wäre? Wie kam es dazu, dass Multiple-Choice-Tests so aussehen wie sie heute aussehen? Warum, frage ich mich, gibt es nur vier oder fünf Antwortmöglichkeiten im typischen Multiple-Choice-Test? Warum nicht drei? Warum nicht dreißig?

Warum wurden Multiple-Choice-Fragen zur vorherrschenden Methode, um amerikanische Schulkinder abzufragen? Und für meine Arbeit vielleicht am Wichtigsten: Wie ist das Verhältnis zwischen Multiple-Choice-Tests und Technologie?

Die Ursprünge des Multiple-Choice-Tests

„Man kann die Geschichte der Bildung in den Vereinigten Staaten während des 20. Jahrhunderts nur verstehen, wenn man sich bewusst ist, dass Edward L. Thorndike gewonnen und John Dewey verloren hat” – Ellen Condliffe Lagemann

Frederick J. Kelly wird oft als „Vater” des Multiple-Choice-Tests bezeichnet. Es sollte allerdings angemerkt werden, dass Edward Thorndike – der Begründer der Pädagogischen Psychologie – seine Theorie über Lernvorgänge bei Tieren teilweise auch dadurch entwickelte, dass er ihnen verschiedene Optionen beim Lösen eines Problems oder einer Situation bot und deren Reaktionen auswertete.

Wähle die beste Antwort aus einer Reihe von Optionen. Das ist das alte Prinzip, nach dem sich Bildung und Bildungstechnologie noch immer richten müssen. Das ist das Paradigma, nach dem wir immer noch handeln.

Aus Anya Kamenetz’s wunderbarem neuen Buch "The Test": „Die Multiple-Choice-Frage war eine wichtige Methode zur Vereinfachung und Massenproduktion von Tests. Frederick Kelly stellte 1914 seine Doktorarbeit am Kansas State Teacher’s College fertig. Er erkannte, dass verschiedene Lehrer dazu neigten, die Leistungen der Schüler unterschiedlich zu beurteilen. Und das sah Kelly als ein großes Problem in der Bildung an. Er schlug vor, diese Schwankungen durch den Einsatz standardisierter Tests mit vorgegebenen Antwortmöglichkeiten zu beseitigen. Sein „Kansas Silent Reading Test” war ein zeitlich begrenzter Lesetest, der gleichzeitig an Schülergruppen ausgehändigt werden konnte, von ihnen nicht einen einzigen geschriebenen Satz verlangte und so einfach zu bewerten war, wie das bloße Überfliegen der Seite.

Abbildung 1 (vergrößern)

Digital-Humanities-Wissenschaftlerin Cathy Davidson schreibt in ihrem Buch "Now You See It": „Um Tests gleichermaßen messtechnisch objektiv und effizient in Bezug auf den Arbeitsaufwand zu machen, beharrte Kelly darauf, Fragen so zu stellen, dass sie keinerlei Zweideutigkeit zuließen. Es musste komplett richtige oder komplett falsche Antwortmöglichkeiten geben, ohne unterschiedliche Arten der Auslegung. Das Format wird jedem Leser bekannt sein. Das sind die Wurzeln der heutigen auf Standards ausgerichteten Bildungsreform, welche die Jugend vollkommen auf das Maschinenzeitalter vorbereitet.”

Abbildung 1 zeigt Frederick J. Kellys Original-Artikel in der Ausgabe des „Journal of Educational Psychology”, die im Februar 1916 erschien.

Standardisierte Tests und der erste Weltkrieg

Warum Multiple Choice? Kellys Argumenten folgend ist es „objektiver”. Es nimmt den einzelnen (zu dieser Zeit häufig weiblichen) Lehrern die Bewertungshoheit. Multiple Choice ermöglicht Standardisierung, was bedeutet, dass Tests schnell bewertet und auch skaliert werden können. Gerade Letzteres war ein enorm wichtiger Aspekt zu einer Zeit, in der die Einschreibungszahlen in öffentliche Bildungseinrichtungen in den Vereinigten Staaten schnell anstiegen. Zudem versprach Multiple-Choice-Assessment mehr Effizienz. In Verbindung mit dem Futurismus des 20. Jahrhunderts war es ein Schritt in Richtung eines zunehmend automatisierten Bildungssystems.

Als sich das US-Militär massiv um die Rekrutierung von Soldaten für den Ersten Weltkrieg bemühte, brauchte es ein System, das genau dies leisten würde: Bewertung, möglichst standardisiert, effizient und in großem Stil. Der Rekrutierungsprozess war zweifellos bemerkenswert: Zwischen 1917 und 1918 wurden circa 1,7 Millionen Männer durch standardisierte Tests geprüft, die (angeblich) darauf ausgelegt waren, festzustellen, wer für die Offiziersausbildung geeignet sein könnte und wer für den Schützengraben. Doch dieser Prozess wies Mängel in seiner Konzeption auf und bestätigte oft rassistische Erwartungen, zum Beispiel in Hinblick darauf, was afro-amerikanische Rekruten leisten konnten.

Das öffentliche Schulsystem der Vereinigten Staaten entschied sich dafür, genau diese Vorgehensweise zu kopieren – sowohl in Bezug auf das Design als auch den Technologieeinsatz .

Der Erste Weltkrieg war ein Katalysator für die Prüfungsformen
– und Bildungstechnologien – wie wir sie heute kennen.

Die Erfindung der Test-Maschine

Wie testet man Millionen von Menschen? Natürlich maschinell. Das frühe 20. Jahrhundert brachte die Entwicklung verschiedener Testmaschinen und -technologien mit sich.

„Mark Sense” – frühe Formen der Zeichenerkennung

Abbildung 2 (vergrößern)

Das Patent des „Scoring Apparatus”, eines Bewertungsapparats, wurde erstmals 1937 von Raymond Johnson eingereicht und einige Jahre später aktualisiert.

Johnson, selbst Physiklehrer an einer High School, experimentierte in den frühen 1930er Jahren mit dem Einsatz von Maschinen, um die Arbeit seiner Schüler zu bewerten. Er entwickelte eine Maschine, die Bleistift-Kreuze auf einem Blatt Papier erkennen konnte und sie mit einem Lösungsschlüssel verglich. Diese Technologie bot die Grundlage für die Testbewertungsmaschine „805“ von IBM, die 1937 auf den Markt gebracht wurde. Auch der Educational Testing Service (ETS) verwendete anfangs diese Technologie.

Abbildung 3 zeigt einen Auszug aus der IBM-Broschüre „Prüfungen elektronisch bewerten”.

Versprochen wurden: Geschwindigkeit. Genauigkeit. Effizienz. Die neue Technologie sei kostensparend und vor allem arbeitssparend.

Abbildung 3 (vergrößern)

„Optical Mark Recognition” – optische Zeichenerkennung

Pädagogik-Professor Everett F. Lindquist von der University of Iowa hatte eine andere Idee – zumindest in Hinblick auf die Technologie. Anstatt die Bleistift-Kreuze elektronisch zu erfassen, erkannte sein 1955 patentiertes System die Zeichen optisch.

Optische Zeichenerkennung ist auch die Technologie, auf die das 1972 gegründete Unternehmen Scantron setzte, dessen Name im Laufe der Jahre zu einem Synonym für Multiple-Choice-Papierformulare wurde.

Hier ein Zitat aus  Lindquists Patentanmeldung:

Abbildung 4 (vergrößern)

„Wenn die Methoden und das Gerät gemäß den Anweisungen zur vorliegenden Erfindung verwendet werden, ist es möglich, die gewünschten Bewertungs-, Umwandlungs-, Analyse- und Berichtsvorgänge innerhalb von Tagen, sogar Stunden, anstatt Wochen vorzunehmen. Mit anderen Worten, es ist nicht nötig einen Mitarbeiterstab von 50 bis 100 Personen zu haben. Des Weiteren sind die Fähigkeiten der Methoden und des Geräts gemäß der vorliegenden Erfindung so beschaffen, dass weitaus mehr Umwandlungs-, Analyse- und Berichtsvorgänge anhand der reinen Auswertungsdaten vorgenommen werden können, ohne dass in nennenswertem Umfang Einbußen bei der Geschwindigkeit der gewünschten Berichte gemacht werden müssen. Denn bei der Ausführung der gewünschten Vorgänge sind relativ wenige Bediener nötig; das Problem regelmäßiger Mitarbeitereinstellung wird somit effektiv beseitigt.”

Lindquists Arbeit an standardisierten Tests führte schließlich zu den „Iowa Tests of Basic Skills” und dem amerikanischen College-Testing, kurz ACT. Er trug außerdem zur Entwicklung des „General Educational
Development-Tests” (GED) bei.

All dies sind standardisierte Multiple-Choice-Tests. Alle lassen sich maschinell auswerten.

Was sich heute durchgesetzt hat

Fünf Antwortmöglichkeiten. Beide Patente scheinen nahezulegen, dass fünf Antwortmöglichkeiten die optimale Anzahl ist, auf deren Auswertung ihre Maschinen ausgerichtet sind. In Lindquists Patentanmeldung ist zu lesen, es sei „offensichtlich, dass gewisse Tests bis zu fünf Antwortmöglichkeiten für eine bestimmte Testfrage umfassen können. Die Ausrüstung könnte, falls erwünscht, ohne weiteres so gestaltet werden, dass sie eine größere Anzahl von Antworten pro Frage zulässt.” Aber das wurde sie nie. Uns werden typischerweise vier bis fünf Antwortmöglichkeiten geboten.

Ich würde sehr gerne mehr zu der Frage „Warum fünf?” sagen können. Ist es so, weil sich das Vielfache von Fünf leicht errechnen lässt? Ist es so, weil sich Vielfache von Fünf noch hübsch auf einem Blatt Papier anordnen lassen? Oder ist es so, weil fünfmal mehrere hundert Fragen mal mehrere tausend Studenten die Grenzen der maschinellen Rechenkapazität im frühen 20. Jahrhunderts erreicht? Ich weiß es noch immer nicht...

Aber was ich weiß: Das Prinzip „Multiple Choice – mit vier oder fünf Antwortmöglichkeiten – ist mittlerweile fest verankert in unseren Bildungstechnologien, -Praktiken und -Grundsätzen. Wir könnten anders prüfen. Aber selbst neue Technologien, die hundert Jahre nach Frederick Kellys Arbeit entwickelt werden, neigen dazu, Multiple Choice zu reproduzieren.

Zur englischen Originalversion des Artikels

Letzte Änderung: 08.04.2015