Zum Inhalt springen
Startseite/Glossar/Multimodalität
Technik

Multimodalität

Multimodalität bezeichnet die Fähigkeit von KI-Systemen, verschiedene Medientypen wie Text, Bild, Audio und Video gleichzeitig zu verarbeiten und zu erzeugen.

Multimodalität in der KI bedeutet, dass ein System nicht nur eine Art von Daten verarbeiten kann, sondern mehrere Modalitäten gleichzeitig — also Text, Bilder, Audio, Video und teilweise sogar Code. Multimodale KI-Modelle wie GPT-4o, Google Gemini oder Claude können zum Beispiel ein Bild analysieren und darüber in Text berichten, oder aus einer Textbeschreibung ein Bild erzeugen. Diese Vielseitigkeit macht sie besonders nützlich für den Bildungsbereich.

Für Grundschullehrkräfte eröffnet multimodale KI spannende Möglichkeiten. Sie können ein Foto eines Arbeitsblattes abfotografieren und die KI bitten, den Inhalt zu analysieren, Fehler zu finden oder eine angepasste Version zu erstellen. Sie können ein Bild aus dem Sachunterricht hochladen und sich Erklärungen auf Grundschulniveau generieren lassen. Auch die Kombination aus Text und Bild bei der Materialerstellung wird durch multimodale KI erheblich vereinfacht — erstellen Sie einen Text und das passende Bild in einem Arbeitsschritt.

Multimodale KI spiegelt dabei wider, wie Grundschulkinder natürlich lernen: durch die Verknüpfung verschiedener Sinneseindrücke. Texte mit Bildern, Hörbeispiele mit visuellen Darstellungen — multimodale Materialien fördern das Verständnis besonders bei jüngeren Kindern. KI-Tools, die mehrere Modalitäten beherrschen, können Lehrkräften helfen, solche vielfältigen Materialien effizient zu erstellen.

Weitere KI-Begriffe entdecken

Stöbern Sie durch unser komplettes KI-Glossar mit über 30 Begriffen — verständlich erklärt für den Schulalltag.

Alle Begriffe ansehen