Lehr:Radar - KI im universitären Lehr- und Lernkontext - Potentiale und Gefahren
Im Vorfeld des vom ZFH angebotenen Zertifikatsworkshops „KI in der Lehre“ am 25. April 2024 hatte das Team Digitale Lehre die Gelegenheit, den Referenten Jonas Leschke von der Ruhr-Universität Bochum zu einem Gespräch einzuladen. Jonas Leschke ist seit 2023 Leiter der Stabsstelle für strategische Lehrprojekte am Zentrum für Wissenschaftsdidaktik der Universität Bochum, davor koordinierte er an der RUB die Projekte KI:edu.nrw und AIStudyBuddy.
Hinweis: Das Interview wurde per Videokonferenz geführt. Zur besseren Lesbarkeit wurde die schriftliche Version deutlich gekürzt und teilweise auch im Wortlaut – nicht jedoch im Sinn bzw. im Inhalt – verändert.
KI im universitären Lehr- und Lernkontext - Potentiale und Gefahren
Ein Gespräch mit Jonas Leschke von der Ruhr-Universität Bochum
Wie beeinflusst KI-Software jetzt bereits die traditionellen Lehr- und Prüfungsmethoden an den Hochschulen? Es werden neue Anforderungen gestellt. Entsprechend müssen Lehrende neue Formen finden.
Leschke: Der Möglichkeitsraum des Lehrens und Lernens hat sich an den Hochschulen durch die freie Verfügbarkeit entsprechender Tools sehr verändert. Ich beobachte, dass die Hochschullehre nach der Coronazeit, in der sie große Aufmerksamkeit erfahren hat, jetzt durch generative KI wieder sehr in den Mittelpunkt gerückt ist. Ich sehe das aus dieser Perspektive sehr positiv, dass wir uns wieder viel mit Hochschullehre, hochschul- und prüfungsdidaktischen Fragen auseinandersetzen und überlegen, wie praktische Umgangsformen aussehen können. Ich möchte noch voranstellen: KI ist nicht gleich KI. Neben generativer KI, die Medien wie Texte, Bilder usw. produzieren, existieren natürlich auch andere KI-Systeme, wie zum Beispiel für die Lerndatenanalyse. Auch dort liegt ein erhebliches Potenzial für die Hochschullehre. Die technische Hürde ist hier erheblich höher als bei den verfügbaren generativen KI-Tools.
Aktuell sehe ich, dass generative KI die Hochschullehre dahingehend beeinflusst, dass wir im Zuge ihrer Umsetzung in der Lehrveranstaltung kritisch prüfen müssen, ob sie zu den zu erreichenden Lernzielen passen. Ich sehe allerdings nicht, dass klassische Lehrmethoden obsolet werden. Es wird sich zeigen, ob unsere bisherigen Angebote als Hochschullehrende weiterhin in den aktuell verfügbaren Möglichkeitsraum passen.
Ich glaube auch, dass wir ein großes Potenzial zur Individualisierung der Hochschullehre auch in großen Kohorten insbesondere durch generative KI haben, aber eben auch durch lerndatenanalysierende KI. Wichtig ist, dass alle betroffenen Personen dafür einen reflektierten Umgang erlernen. Das sind einerseits natürlich die Studierenden, die wissen müssen, wie man solche Tools einsetzt und wie die Ausgaben kritisch zu reflektieren sind. Auf der anderen Seite sind da auch die Lehrenden, die eben auch hier eine neue Technologie nutzen können, die sie so vielleicht noch nicht kennen. Lehrende müssen Expertise aufbauen, um mit den Tools reflektiert umgehen zu können.
An welcher Stelle ergäben sich für Studierende in diesem Zusammenhang weniger Probleme, generell generative Systeme im Rahmen des Erlaubten einzusetzen?
Leschke: Wir haben durch entsprechende Systeme eine unerschöpfliche Menge an Lerngelegenheiten, die Studierende durch entsprechende Prompts erzeugen können. Zu beachten ist, dass solche Systeme zunächst grundsätzlich keine perfekten Lernaufgaben ausgeben, da sie didaktische Modelle nicht systematisch verarbeiten, sondern eine didaktische Verarbeitung didaktischer Modelle suggerieren. Was sie aber tun, ist eigentlich nur eine statistische Wahrscheinlichkeit dieser didaktischen Modelle zu bestimmten Begriffen zu nutzen. Auch wenn dort Operatoren hervorragend in den Lernaufgaben verwendet werden, heißt dies keinesfalls, dass diese sinnvoll für den Lernstand oder das Lernziel der Lernenden passen. Sie sind erst einmal nur statistisch wahrscheinlich. Das birgt natürlich die Gefahr einer Überinterpretation der Qualität der Lernaufgaben.
Aus Prüfungsperspektive kann durch solche Systeme eine Individualisierung der Prüfungsaufgaben stattfinden, beispielsweise durch individuelle Anpassung des Kontextes oder Anpassung von Prüfungsaufgaben entsprechend der Aufgabenschwierigkeit. Hier geht es um einen Forschungsbereich, weil die Qualität der Prüfungsaufgaben noch nicht systematisch durch die Systeme gewährleistet werden kann. Vor hochschulweitem praktischen Einsatz ist noch erhebliche Entwicklungs- und Forschungsarbeit notwendig.
Aktuell sind die statistisch angenäherten ausgegebenen Ergebnisse noch nicht ausreichend, um in aktuelle Lehrszenarien eingebunden zu werden?
Leschke: Zumindest nicht unreflektiert. Die Lehrperson sollte in jedem Fall noch mal sehr kritisch prüfen, ob die Ergebnisse zu den Lehrveranstaltungszielen passen und die gewünschte didaktische Qualität gegeben ist.
Als etwas informierterer Laie kann man natürlich schon den Eindruck bekommen, dass die Antworten durchaus fundiert sind und von hoher Qualität sind.
Leschke: Das ergibt sich ja auch aus der Entwicklung dieser Tools, die im erheblichen Dokumentenfundus trainiert wurden. Und in diesen Fundus sind sehr wahrscheinlich auch Operatorlisten in Bezug auf verschiedene didaktische Modelle mit eingeflossen. Das heißt, wenn ich prompte: „Entwickle eine Lernaufgabe zum Thema XY für die Aufgabenschwierigkeit Z“, dann kann eine generative KI schon suggerieren, dass sie einen Operator für diese Lernstufe systematisch richtig einfügt. Das heißt aber nicht, dass dies dann didaktisch fundiert ist. Es wurde nur ein Operator gewählt, der zu dieser Stufe passt. Das didaktische Design muss jedoch vollständig geprüft werden.
Liegt das Problem darin, dass KI-Systeme ein gewisses Lernniveau nicht ermessen können, oder worin sehen Sie diesbzgl. aktuell die Probleme der KIs?
Leschke: Es gilt das Niveau abzuschätzen, welchen Kompetenz- oder Leistungsstand die Lernenden erreicht haben. Das funktioniert im Moment noch gut durch standardisierte Aufgabensets. Daher betreiben wir auch diverse Forschungsprojekte, die einfach “nur“ (das ist nicht wertend gemeint) Aufgabensets zu Themen entwickeln, um valide Kompetenzen und Wissen zu erfassen. Das Erfassen des Lernstandes ist aufwendig. Hier muss man wieder zwischen generativer KI und Lerndatenanalyse unterscheiden. Wenn wir über Lerndatenanalyse sprechen, dann kann man mit diesen standardisierten Aufgabensets ganz gut arbeiten und die KI ausgeben lassen, in welchem Bereich die lernende Person gut ist und in welchem nicht. Ob man dafür jetzt wirklich KI braucht oder einfach eine systematische statistische Auswertung, ist dann sicherlich die nächste Frage. Wenn man über generative KI spricht, gibt es keine systematische Analyse des Lehrstandes, sondern eine Überführung in eine Wahrscheinlichkeitsanalyse.
Ein anderes Beispiel macht es vielleicht deutlicher: Man kann eine Prüfungsaufgabe in eine generative KI einspeisen und dieser auch einen Erwartungshorizont mitgeben. Anschließend gibt man Lösungen für diese Aufgabe an und lässt diese bewerten. Daraufhin wird eine statistische Nähe zwischen dem Erwartungshorizont und der eingegebenen Aufgabenlösung ermittelt. Es wird aber nicht systematisch der Sachzusammenhang verglichen. Nicht Inhalt des Erwartungshorizonts und der Abgabe werden verglichen, sondern die eingegebenen Wörter. Hier geht es um eine Wortwahrscheinlichkeit und nicht um Inhalt des Erwartungshorizontes.
Es macht oft den Anschein, inhaltlich träfe alles zu.
Leschke: “Den Anschein machen“ beschreibt es sehr gut. An dieser Stelle müssen wir lernen, mit solchen Systemen umzugehen. Denn nur weil sie uns suggerieren, dass sie eine passende Lösung ausgeben, heißt das keinesfalls, dass diese Lösung auch wirklich gut ist.
Leschke: Ich sehe das ehrlicherweise nicht zwingend problematisch. Ich persönlich finde es gut, dass die Studierenden die Tools nutzen, weil das ihre berufliche und lebensweltliche Realität abbildet. Und warum sollten wir das aus dem Lernen in der Hochschule ausblenden? Sicherlich ist die große Herausforderung, dass Studierende und Lehre statt einer naiven eine sehr kompetente und reflektierte Nutzung der Systeme erreichen und so auch keine Überinterpretation der Ergebnisse stattfindet. Bei den Lehrenden verstehe ich diese Sorge natürlich. Die Frage „Wie kann KI-resistent geprüft werden“ muss aus meiner Sicht aber eigentlich lauten: Wie muss die didaktische und nicht die leistungsbemessende Funktion dieser Prüfungsleistung aussehen, die wir abverlangen? Und welche Prüfungsmöglichkeiten gibt es noch, um diese didaktische Funktion adäquat zu erzielen? Dann erreichen wir eine gewisse Auswahl an Prüfungsleistungen, die wir auswählen können, primär im Sinne des Lernens und nicht im Sinne des Bewertens. Und hier ist dann sicherlich ein Präsenzformat vorzuziehen, wenn man auch die korrekte Leistungsbewertung sicherstellen will.
Die Frage ist auch, inwiefern die Universitäten flexibler in ihrer Prüfungsordnung und den Möglichkeiten werden müssen, welche Prüfungsformate zulässig sind. Eine Prüfung muss im Sinne des Constructive Alignment sinnvoll ausgewählt werden. Es ist aus didaktischer Perspektive nicht sinnvoll pauschal zu sagen, nur weil ich die Gefahr sehe, dass Leistungen in unbeaufsichtigten Prüfungsleistungen erschlichen werden, führe ich diese nicht mehr durch. Damit stellen wir Studierende unter Generalverdacht und erkennen nicht an, dass sie sich auch selbst motiviert mit Studium und Studieninhalten auseinandersetzen wollen. Sicherlich sollte man nicht naiv sein, aber ich denke, hier muss man ein vernünftiges Maß finden, um den Studierenden die Verantwortung auch zu übertragen, die sie im Rahmen von Prüfungsleistungen erbringen müssen.
Kurz: Die Lehrenden sollten nicht bei der Prüfungsleistung, sondern zunächst bei ihren Lernzielen anfangen, die sie erreichen wollen und überlegen, welche didaktische Funktion die Prüfungsleistung in Bezug ihrer Lehrveranstaltungen übernehmen soll. Im Resultat bleibt eine gewisse Anzahl Prüfungsleistungen, aus der man diese filtert, welche eine Leistungserschleichung möglichst sinnvoll ausschließen.
Es gibt bereits Ansätze, mittels sogenannter AI- Detektoren einen KI-Einsatz bspw. in Prüfungen zu erkennen. Viele sind aktuell allerdings noch so schlecht, dass einzelne Universitäten in den USA aufgrund der hohen False Positive-Resultate diese KI-Detektoren nicht weiter einsetzen. Wie bewerten Sie aktuell die Möglichkeiten des Einsatzes dieser Detektoren?
Leschke: Bei den KI-Detektoren besteht das Hase-Igel-Problem, d.h. die Modelle, die Inhalte generieren, müssen immer als Maßstab der Detektion genommen werden. Das bedeutet, die Detektion können immer erst nachgelagert an die Entwicklung der Modelle entwickelt werden. Die großen Tech-Unternehmen stellen sogar teilweise eigene Detektoren zur Verfügung, oft mit dem expliziten Hinweis, dass die Funktion noch nicht ausgereift ist.
Die meisten Systemanbieter solcher Detektoren stellen ja meistens auch direkt den Antidetektor zur Verfügung – zur Verschleierung des Einsatzes.
Leschke: Daher helfen diese Detektoren sachlich schon nicht, weil sie KI-Generierungen nicht gut erkennen. Hinzu kommt die prüfungsrechtliche Konsequenz aus einem solchen Detektor, siehe die Plagiatsdiskussionen. Es wird dort ja ein eindeutiger Nachweis zur unmarkierten Textübernahme benötigt, um nachweisen zu können, das ist ein Plagiat. Bei Plagiaten selbst funktioniert das, weil wir dort im Zweifel den Vergleichstext recherchieren können. Das wird bei den Detektoren aber niemals möglich sein, da Inhalte neu generiert worden sind. Entsprechend werden wir immer nur Wahrscheinlichkeiten ableiten können, die niemals bei 100 % liegen werden. Ich rate immer gerne, Detektor-Systeme auf ihre Funktion hin zu testen, um ein besseres Verständnis der Sachverhalte zu erhalten. Aus prüfungsrelevantem Interesse würde ich es nicht tun, alleine schon aus den Gründen, dass sie zu ungenau sind und wir gar keine rechtliche Konsequenz daraus ziehen können. Wenn wir über einen Workaround reden, welche Möglichkeiten es gäbe, trotzdem zu erkennen, was KI-generiert wurde, bleibt meiner Ansicht nach tatsächlich nur, stärkere formative Formate mit einzubinden, das heißt prüfungsleistungsähnliche Dokumente bereits während des Semesters einzufordern. Dies kann auch der Erfassung des Leistungsstandes der Studierenden dienen und diese Dokumente dann entsprechend im Rahmen der Prüfungsleistung hinsichtlich der Passung miteinander zu vergleichen. Aber auch hier ist Vorsicht geboten, da natürlich im Zuge der Vorbereitung auf eine Prüfung eine Leistungssteigerung der Studierenden auftreten kann.
Zusammenfassend: Ich sehe sicherlich Gefahren bzgl. des Lernens an Hochschulen durch die Verfügbarkeit und Nutzung insbesondere generativer KI-Systeme. Ein unreflektierter Umgang und möglicherweise auch naives Vertrauen in diese Systeme können dazu führen, dass die Ausgaben überinterpretiert werden und ihnen zu viel Qualität zugemessen wird. Die Gefahr sehe ich sowohl bei Studierenden wie auch bei Lehrenden. Ich sehe eine weitere Gefahr durch Systeme, die sehr einfach und schnell “Lernprodukte“ erzeugen können. Diese “Lernprodukte“ sind nicht im Lernen entstanden, sondern durch diese Systeme. Dadurch bleiben Lerngelegenheiten aus. Gleichzeitig sehe ich auch die Gefahr für Lehrende, wenn sie Lernenden unter Verwendung solcher Systeme Feedback geben, das, bezogen auf die Lern- und Prüfungsprodukte, weder reflektiert noch geprüft wurde. Dann bekommen die Lernenden Feedback in die ganz falsche Richtung.
Andererseits sehe ich aber auch, dass die Potenziale in der Zukunft weiter überwiegen werden, bspw. die Individualisierung des Lehrens und Lernens. Ich nenne sie aber bewusst “Potenziale“, weil hier durchaus noch technische Entwicklungsarbeit geleistet werden muss. Die Qualitätssicherung muss jedoch technisch abbildbar sein, sonst wird der Aufwand zum Betrieb solcher Systeme größer als das Ermöglichen einer guten Lernumgebung.
Wie sähe Ihr persönliches Fazit aus?
Leschke: Lernenden steht ein unerschöpfliches Lernangebot zur Verfügung. Auch das sehe ich als Potenzial, indem sich beliebig viele Lernaufgaben generieren lassen. Daher habe ich die Hoffnung, dass sich auch das Lernangebot für die Studierenden verbessern wird, weil Lehrende angehalten sind, sich erneut intensiv mit ihrer Lehre auseinanderzusetzen.
Ganz kurzfristig sehe ich auch das motivationale Potenzial dieser Systeme. Ich glaube schon an einen Impuls für Studierende, sich aktiv mit diesem lebensweltlichen und beruflichen Thema aktiv auseinanderzusetzen. Das wird zukünftig wieder ein wenig abebben, weil solche Systeme selbstverständlicher werden. Aber ich glaube, aktuell ist das ein super-motivationaler Motor. Und diese Potenziale überwiegend durchaus für mich. Wir müssen Aufklärungsarbeit leisten und Lerngelegenheiten und Räume für Lehrende und Studierende schaffen, mit solchen Systemen umzugehen. Aber diese Systeme werden uns im Kontext des Lernens wirklich gut unterstützen können.
Wir danken Ihnen herzlich für das Gespräch!