top of page

Transformer

🧠 Grundprinzip der Transformer-Architektur:

Ein Transformer ist vollständig symmetrisch und nicht-hierarchisch aufgebaut. Das heißt:
➡️ Jeder Token ist gleichberechtigt, unabhängig davon, ob es sich um ein Verb, ein Substantiv, ein Artikel oder ein Interpunktionszeichen handelt.
➡️ Jeder Token ist sowohl Informationskonsument als auch Informationsanbieter.

Das Modell entscheidet nicht im Voraus, was wichtig ist – sondern lernt es dynamisch durch Attention.

⚕️ Visite-Analogie, vertieft:

Stell dir eine Visite vor, bei der jede Person gleichzeitig drei Rollen erfüllt:

RolleBedeutungVisitenbild

QueryWas will ich wissen?Ich stelle eine Frage („Was sagen die Laborwerte über die Niere?“)

KeyWorum geht es bei mir?Mein Thema ist „Nierenfunktion“ oder „Vitalzeichen“

ValueWas kann ich beitragen?Ich habe konkrete Informationen aufgeschrieben

Das Entscheidende:
Alle Beteiligten stellen gleichzeitig Fragen, bieten ihre Themen an und halten Wissen bereit.
Die Selbst-Attention im Transformer macht genau das: jeder Token interagiert mit jedem anderen – gleichzeitig.

💡 Beispiel

„Der Patient erhält Amoxicillin wegen einer akuten Tonsillitis.“

Tokens:
[Der, Patient, erhält, Amoxicillin, wegen, einer, akuten, Tonsillitis, .]

Jetzt betrachten wir exemplarisch den Token: „erhält“

Was passiert im Modell?

  1. „Erhält“ stellt eine Query:
    „Welche anderen Tokens geben mir Kontext, damit ich meine Bedeutung verstehe?“

  2. Alle anderen Tokens (inkl. „erhält“ selbst!) stellen Keys bereit:

    • „Patient“ → Key = „Akteur / Subjekt“

    • „Amoxicillin“ → Key = „Therapie / Substanz“

    • „Tonsillitis“ → Key = „Indikation / Diagnose“

  3. Jeder dieser Tokens hat auch einen Value, z. B.:

    • „Amoxicillin“ → Value = „Antibiotikum, ATC-Code, orale Gabe“

    • „Tonsillitis“ → Value = „Infektion, HNO, akut“

  4. Das Modell berechnet:

    • Wie gut passt der Query von „erhält“ zu den Keys der anderen Tokens?

    • Entsprechend gewichtet es die Values → Ergebnis: ein neuer Vektor, der die Bedeutung von „erhält“ im Kontext reflektiert.

🔍 Warum braucht jeder Token Q, K und V?

1. Kontextualisierung:

Nur durch die Interaktion mit allen anderen Tokens kann ein Wort seine volle Bedeutung im Satz entfalten.
➡️ „Erhält“ alleine ist neutral. Erst durch „Patient“, „Amoxicillin“ und „Tonsillitis“ ergibt sich:
„Patient erhält ein Antibiotikum wegen einer Diagnose“

Ohne diese gegenseitige Kontextualisierung wäre keine Semantik möglich.

2. Parallele Verarbeitung:

Transformer verarbeiten alle Tokens gleichzeitig (kein sequentielles Vorgehen wie bei RNNs).
Das geht nur, wenn alle Tokens vollständig ausgestattet sind:
→ Jeder mit Q, K und V.

3. Flexibilität & Skalierbarkeit:

Im Gegensatz zu „harten“ syntaktischen Regeln lernt der Transformer fließende Bedeutungsräume, in denen semantische Beziehungen über Q–K–V entstehen.

📐 Didaktische Visualisierungsidee:

Ein Klassenzimmer, in dem alle Schüler:innen gleichzeitig:

  • Fragen stellen (Query)

  • Schild hochhalten mit Fachgebiet (Key)

  • Arbeitsblatt mit Lösung (Value)

Dann läuft eine Moderation (Softmax + Multiplikation), die entscheidet:
➡️ Welche Schüler:innen reden dürfen
➡️ Mit welchem Gewicht ihre Info in die Gesamtentscheidung eingeht

🔬 Fazit:

Jeder Token erhält Q, K, V, weil:

  • Bedeutung erst durch Kontext entsteht

  • alle Tokens gleichberechtigt in der Kommunikation sind

  • das Modell lernen soll, dynamisch Wichtigkeit zu erkennen

  • die Architektur vollständig parallelisiert und symmetrisch ist

bottom of page