In go K no pf Dazu müssen die informatischen Methoden mit linguisti schem Wissen verknüpft werden An dieser Schnittstelle zwischen Sprachwissenschaft und Informatik liegt die Computerlinguistik Uns interessierte ob Rechtschreib fehler in Texten von Grundschulkindern so systematisch auftreten dass sie sich mittels maschineller Lernverfah ren vorhersagen lassen Aus dieser Fehlerwahrschein lichkeit die das Vorhersagemodell einem Wort zu schreibt ließe sich seine Schwierigkeit ableiten und warum es schwierig ist Unsere Datengrundlage bestand aus knapp 2000 Texten Rund 250 Kinder hatten die Aufgabe bekommen eine Bildergeschichte in Worte zu fassen Diese Aufgabe mussten sie zwischen der 2 und 4 Klasse mit jeweils anderen Geschichten mehrfach wiederholen Die Kindertexte haben wir zunächst digitalisiert und manuell korrigiert Die weitere Verarbeitung übernahm dann der Computer Zunächst codierte er jedes Wort mit einer Reihe von Merkmalen wie der Zahl der Buchstaben wie man es ausspricht wie häufig das Wort in einer Samm lung von digitalisierten Kinderbüchern auftritt oder welche Rechtschreibhürden es enthält Hinzu kamen Informationen zum Kind wie Klassenstufe oder bisherige Rechtschreibleistung Im nächsten Schritt fütterten wir einen maschinellen Lernalgorithmus mit diesen Daten Dieser besteht aus einer Reihe von Entscheidungsbäu men die so etwas lernen wie sehr vereinfacht darge stellt wenn ein Wort mehr als 7 Buchstaben lang ist und seltener als 30 mal in der digitalisierten Kinder buchsammlung vorkommt dann wird es von einem Kind in der 3 Klasse mit unterdurchschnittlicher Recht schreibleistung wahrscheinlich falsch geschrieben Um diese Brücke zwischen Recht schreibforschung und Informatik zu schlagen mussten wir einige Hinder nisse überwinden So untersuchten wir keine Modelltexte mit vorselektierten Wörtern sondern echte Texte Die Zahl der Rahmenparameter war also vergleichsweise hoch Man kann sich das so vorstellen als würden chemi sche Experimente nicht unter Labor bedingungen sondern draußen auf der Wiese durchgeführt wo Tempera turen und Luftdruck schwanken Im Fall unserer Studie bedeutete dies dass unterschiedliche Textlängen zu berücksichtigen waren und unter schiedlich schwere Wörter unterschied lich häufig vorkamen Darüber hinaus haben die meisten maschinellen Lernverfahren einen großen Nachteil Sie liefern zwar gute Vorhersagen aber niemand weiß was sich in ihrem Inneren abspielt Was genau lernt das Modell worauf stützt es seine Vorher KLARTEXT 2021 Sprachwissenschaft trifft auf Informatik Ronja Laarmann Quante nutzt Methoden der Computer linguistik um die Wahr scheinlichkeit von Schreib fehlern abzuschätzen 20

Vorschau KlarText Preis 2021 - 4 Seite 22
Hinweis: Dies ist eine maschinenlesbare No-Flash Ansicht.
Klicken Sie hier um zur Online-Version zu gelangen.