Automated Essay Scoring mit Large Language Models: Potenziale, Grenzen und ein verantwortungsvolles Einsatzmodell
Was LLM-gestützte AES-Systeme bereits leisten
![]() |
Mensch und Maschine – Herausforderungen durch Künstliche Intelligenz Illustration von Hannah Robold – Berliner Ideenlabor 20.03.2023 Deutscher Ethikrat |
-
Style-over-Substance-Bias: LLMs tendieren dazu, stilistisch elegante, aber inhaltlich schwächere Texte überzubewerten (Ishida et al., 2024).
-
Variabilität & Over-Scoring: Die Ergebnisse sind zwischen einzelnen Durchläufen nicht stabil und fallen systematisch höher aus als menschliche Bewertungen (Seßler et al., 2024).
-
Goldstandard-Problem: Auch menschliche Gutachter:innen bewerten nicht völlig konsistent – ein einzig „richtiger“ Score existiert selten (Herm et al., 2022).
-
Datenlücken: Für weniger verbreitete Sprachen fehlen validierte Korpora, was die Generalisierbarkeit und Fairness einschränkt (González-Calatayud et al., 2021; Yavuz et al., 2024).
-
Unklare Feedback-Wirkung: Ob automatisch generierte Kommentare tatsächlich zu besseren Überarbeitungen führen, ist bislang nur teilweise belegt (Anjum et al., 2023).
Leitplanken für einen verantwortungsvollen Einsatz
-
Human-AI-Co-Grading: Die KI liefert Erstbewertungen, Lehrende treffen die finale Entscheidung – eine Kombination der Stärken beider Seiten (Chiang & Lee, 2023; Xiao et al., 2025).
-
Transparenz & Explainable AI: Offengelegte Bewertungsrubriken, Metriken und Modellentscheidungen fördern das Vertrauen aller Beteiligten (Herm et al., 2022; Anjum et al., 2023).
-
Domänenspezifisches Feintuning: Angepasste Trainingsdaten, strukturierte Prompts und klar definierte Parameter reduzieren Fehlbewertungen (Seßler et al., 2024; Ishida et al., 2024).
-
Mehrdimensionale Bewertungsansätze: Sprachform, Argumentationslogik und inhaltliche Tiefe sollten separat gewichtet werden, um Verzerrungen zu vermeiden (Bai et al., 2022).
-
Didaktische Kompetenz aufbauen: Nur wer die Grenzen von AES kennt, kann es sinnvoll in die Lehre integrieren und Fehlanreize vermeiden (Gantikow et al., 2024; Zawacki-Richter et al., 2019).
Fazit
LLM-gestützte AES-Systeme bieten ein großes Potenzial zur Reduktion von Korrekturaufwand und zur Steigerung der Feedbackqualität. Ohne klare Qualitätsmaßstäbe, transparente Prozesse und die aktive Einbindung menschlicher Expertise bleiben technische Effizienzgewinne jedoch didaktisch unvollständig. Ein hybrides Modell, in dem menschliche Verantwortung und KI-Unterstützung Hand in Hand gehen, bietet den besten Kompromiss aus Entlastung, Fairness und Lernwirksamkeit – heute und in Zukunft.
Ressourcen:
Meine Kollektion zum Thema Automated essay scoring (AES) systems bei researchrabbit https://www.researchrabbitapp.com/collection/public/MLP3K3E9ZG- Was ist der aktuelle Stand des Automated Essay Scoring (AES) mit Large Language Models (LLMs)?
- Welche primären Vorteile und Motivationen für den Einsatz von LLMs im AES werden in den Quellen genannt, insbesondere im Hinblick auf die Effizienz bei der Textverarbeitung von studentischen Arbeiten?
- Welche spezifischen Herausforderungen oder Bedenken bezüglich der Ermüdung und des Lesevergnügens bei der manuellen Korrektur studentischer Arbeiten werden in den Quellen angesprochen?
- Wo können Bias in KI auftreten?
- Wie beeinflusst der Einsatz von LLMs im AES die Lernprozesse und die Entwicklung von Schreibkompetenzen bei Studierenden?
- Welche Rolle spielt die Transparenz der LLM-Bewertung für die Akzeptanz durch Lehrende und Studierende?
- Welche ethischen Richtlinien oder Frameworks werden in den Quellen für den verantwortungsvollen Einsatz von LLMs im AES vorgeschlagen oder diskutiert?
- Welche Risiken ergeben sich aus der möglichen Standardisierung oder Homogenisierung von Schreibstilen durch den Einsatz von LLM-Feedback?
Quellen
- Anjum G, Choubey J, Kushwaha S and Patkar V (2023), "AI in Education: Evaluating the Efficacy and Fairness of Automated Grading Systems", International Journal of Innovative Research in Science Engineering and Technology. [BibTeX] [DOI] [URL]
- Bai JYH, Zawacki-Richter O, Bozkurt A, Lee K, Fanguy M, Sari BC and Marin VI (2022), "Automated Essay Scoring (AES) Systems: Opportunities and Challenges for Open and Distance Education", Tenth Pan-Commonwealth Forum on Open Learning. [BibTeX] [DOI] [URL]
- Calatayud VG, Espinosa MPP and Vila RR (2021), "Artificial Intelligence for Student Assessment: A Systematic Review", Applied Sciences. [BibTeX] [DOI] [URL]
- Chen D, Hebert M and Wilson J (2022), "Examining Human and Automated Ratings of Elementary Students’ Writing Quality: A Multivariate Generalizability Theory Application", American Educational Research Journal. [BibTeX] [DOI] [URL]
- Chiang C-H and Lee H-y (2023), "Can Large Language Models Be an Alternative to Human Evaluations?", Annual Meeting of the Association for Computational Linguistics. [BibTeX] [DOI] [URL]
- Gantikow A, Durski S, Isking A, Libbrecht P, Müller W, Ostermann S and Rebholz S (2024), "KI-basierte Analyse von E-Portfolios", Fachtagung "e-Learning" der Gesellschaft für Informatik. [BibTeX] [DOI] [URL]
- Herm L-V, Janiesch C and Fuchs P (2022), "Der Einfluss von menschlichen Denkmustern auf künstliche Intelligenz – Eine strukturierte Untersuchung von kognitiven Verzerrungen", HMD. Praxis der Wirtschaftsinformatik. [BibTeX] [DOI] [URL]
- Ishida T, Liu T, Wang H and Cheung WK (2024), "Large Language Models as Partners in Student Essay Evaluation", arXiv.org. [BibTeX] [DOI] [URL]
- Seßler K, Fürstenberg M, Bühler B and Kasneci E (2024), "Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring", International Conference on Learning Analytics and Knowledge. [BibTeX] [DOI] [URL]
- Wang EL, Matsumura LC, Correnti R, Litman D, Zhang H, Howe E, Magooda A and Quintana R (2020), "ERevis(ing): Students' Revision of Text Evidence Use in an Automated Writing Evaluation System", Assessing Writing. [BibTeX] [DOI] [URL]
- Wu M and Aji AF (2023), "Style Over Substance: Evaluation Biases for Large Language Models", International Conference on Computational Linguistics. [BibTeX] [DOI] [URL]
- Xiao C, Ma W, Song Q, Xu SX, Zhang K, Wang Y and Fu Q (2025), "Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs", In Proceedings of the 15th International Learning Analytics and Knowledge Conference., March, 2025. , pp. 293-305. ACM. [BibTeX] [DOI] [URL]
- Yavuz F, Çelik Ö and Çelik GY (2024), "Utilizing large language models for EFL essay grading: An examination of reliability and validity in rubric-based assessments", British Journal of Educational Technology. [BibTeX] [DOI] [URL]
- Zawacki-Richter O, Marín VI, Bond M and Gouverneur F (2019), "Systematic review of research on artificial intelligence applications in higher education – where are the educators?", International Journal of Educational Technology in Higher Education. [BibTeX] [DOI] [URL]
Blog: , Seite:
Version: 1.4 April 2025, Kontakt: E-Mail Martin Wölker
Pirmasens, Germany, 2018-,
ausgelesen am: , Licence
CC BY
Kommentare
Kommentar veröffentlichen