Glossar: Wichtige Begriffe zu generative AI

Glossar: Wichtige Begriffe zu generative AI
Ein Roboter liest in einer Bibliothek (im Glossar zu künstlicher Intelligenz?). Quelle: Dall-E

Der Boom von generative AI (generative künstliche Intelligenz) hat uns zahlreiche neue Begriffe und Abkürzungen beschert. In diesem Glossar fasse ich die wichtigsten davon zusammen. Beim Zusammenstellen hatte ich «prominente» Hilfe.

ChatGPT und Konsorten haben uns nicht nur neue Ansätze beschert, wie wir mit Computern und Wissen umgehen. Sondern auch eine Reihe Fachbegriffe, die wohl nicht nur ich vorher nicht gekannt habe. In diesem Glossar fasse ich die wichtigsten davon zusammen. Für diese Aufgabe habe ich mir prominente Unterstützung geholt. Denn wer kennt diese Begriffe besser als eine generative AI selbst?

So bin ich vorgegangen:

  1. Ich habe mit dem folgenden Prompt ChatGPT beauftragt, mir Begriffe zu erklären:

Act as an AI expert. The goal is to write a glossary of important generative AI terms. I propose some terms that you will write a short explanation. Write for non-experts. These are the terms: LLM, Transformer, RLHF, RAG, Parameters, vector database.

Your tasks are:

- Write a description for my terms

- Propose further terms

- Ask if you should write a proposal for the further terms.

Have you understood your task?

  1. Im Dialog ist so eine Liste von Begriffen entstanden, die ich anschliessend mit DeepL auf Deutsch übersetzt habe. Ja, ich hätte auch ChatGPT um eine deutsche Version bitten können. Aber ich prompte lieber auf Englisch 😉
  2. Zuletzt habe ich die Erklärungen inhaltlich geprüft, sprachlich überarbeitet und ergänzt. Zudem habe ich Links auf Quellen hinzugefügt.

BERT (Bidirectional Encoder Representations from Transformers)

BERT ist ein bahnbrechendes Modell für Natural Language Processing (NLP), das 2018 von Google entwickelt wurde. Es versteht den Kontext eines Wortes auf der Grundlage seiner gesamten Umgebung (bidirektionaler Kontext). Das im Gegensatz zu früheren Modellen, die die Wörter der Reihe nach betrachteten. BERT hat die Leistung verschiedener Sprachverarbeitungsaufgaben, einschliesslich der Beantwortung von Fragen und der Sprachinferenz, verbessert. Google nutzt BERT für seine Suche.

Computer Vision

Dies ist ein Bereich der KI, der sich darauf konzentriert, Computer in die Lage zu versetzen, visuelle Informationen aus der Welt, wie Bilder und Videos, zu interpretieren und zu verstehen. Computer-Vision-Systeme versuchen, die Komplexität des menschlichen Sehens zu replizieren, indem sie visuelle Daten erfassen, verarbeiten, analysieren und verstehen. Sie werden in verschiedenen Anwendungen eingesetzt, darunter Gesichtserkennung, autonome Fahrzeuge, medizinische Bildanalyse und Überwachung.

Deep Learning

Ein Teilbereich des maschinellen Lernens, bei dem neuronale Netze – Algorithmen, die von der Funktionsweise des menschlichen Gehirns inspiriert sind –, aus grossen Datenmengen lernen. Deep Learning ist besonders leistungsfähig bei der Erkennung von Mustern und der Erstellung von Vorhersagen. Es ist die treibende Kraft hinter vielen modernen KI-Anwendungen, darunter Sprachassistenten, Empfehlungssysteme und selbstfahrende Autos.

Fine-Tuning

Bei diesem Prozess wird ein bereits trainiertes KI-Modell auf einem kleineren, spezifischen Datensatz weiter trainiert. Fine-Tuning ist eine Art Erweiterung von Few-Shot-Prompting, die eine grössere Zahl von Beispielen nutzt. Im Unterschied zu RAG ist hierzu kein zusätzlicher Input in Form spezifischer Dokumente zu einem Thema nötig.

Mit Fine-Tuning kann das Modell sein Wissen an speziellere Aufgaben oder Bereiche anpassen, ohne dass es von Grund auf neu trainiert werden muss.

GAN (Generative Adversarial Network)

Ein GAN ist ein KI-Modell, das neue Daten erzeugt, die den Trainingsdaten ähneln. Es besteht aus zwei Teilen: dem Generator, der Daten erzeugt, und dem Diskriminator, der sie auswertet. Der Generator versucht, Daten zu erzeugen, die so realistisch sind, dass der Diskriminator nicht erkennen kann, dass sie gefälscht sind. Dabei lernt der Diskriminator, zwischen echten und erzeugten Daten zu unterscheiden. Dieser Wettbewerb treibt das Modell an, sich zu verbessern, bis der Generator äusserst realistische Ergebnisse liefert.

Halluzination

Bei künstlicher Intelligenz bezeichnet Halluzination eine Situation, in der ein generatives Modell falsche, unsinnige oder irrelevante Ergebnisse erzeugt, die nicht auf den Eingabedaten oder der Realität beruhen. Bei Sprachmodellen zum Beispiel kann eine Halluzination auftreten, wenn das Modell eine plausibel klingende, aber sachlich falsche Aussage oder Geschichte erzeugt. Es ist, als ob sich das Modell Details «ausdenkt». Dieses Problem entsteht aufgrund von Einschränkungen im Verständnis des Modells, Verzerrungen in den Trainingsdaten oder anderen Faktoren, die den Generierungsprozess beeinflussen. Halluzinationen von LLMs sind Hauptgrund dafür, dass die Ausgabe immer auf ihren Faktengehalt geprüft werden muss.

Halluzination bei der Bildgenerierung: Ein Blick aufs Bild zeigt sofort, dass dieser Roboter von Dall-E nicht nur 1,2 Meter gross und «sichtlich kleiner als die ihn umgebenden Menschen» ist.

LLM (Large Language Model)

LLMs sind fortschrittliche KI-Modelle, die die menschliche Sprache «verstehen», erzeugen und mit ihr interagieren können. Sie sind gross, weil sie auf riesigen Mengen an Textdaten trainiert wurden und über eine grosse Anzahl von Parametern (internen Einstellungen) verfügen, die es ihnen ermöglichen, Nuancen in der Sprache, den Kontext und sogar komplexe Anweisungen zu erfassen.

GPT-3 verfügt über rund 175 Milliarden Parameter. Beim Nachfolgemodell GPT-4 ist die Zahl nicht bekannt, Fachleute gehen aber von rund 1,7 Billionen Parametern aus.

Multimodale generative AI

In der KI bezieht sich «multimodal» auf Systeme oder Modelle, die Informationen in verschiedenen Formen oder Modalitäten verstehen, interpretieren, verarbeiten oder erzeugen können. Diese Modalitäten können Text, Bilder, Audio, Video oder sensorische Daten wie Berührung und Geruch umfassen. Multimodale KI-Modelle sollen durch die Integration und Analyse von Daten aus diesen verschiedenen Quellen ein umfassenderes Verständnis komplexer realer Szenarien vermitteln. Ein multimodales KI-System könnte beispielsweise einen Nachrichtenartikel analysieren, indem es sowohl den Text als auch die dazugehörigen Bilder berücksichtigt. Oder es könnte eine Benutzeranfrage besser verstehen, indem es sowohl gesprochene Sprach als auch Gesichtsausdrücke verarbeitet.

Mit Gemini hat Google ein multimodales Modell in verschiedenen Grössen (Nano, Pro, Ultra) vorgestellt, das unter anderem im Chatbot Bard zum Einsatz kommt (aber noch nicht in Europa).

NLP (Natural Language Processing)

NLP ist ein Bereich der künstlichen Intelligenz, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Dabei geht es darum, dass Computer lernen, menschliche Sprache zu lesen, zu verstehen, zu interpretieren und zu erzeugen. Dazu gehören Aufgaben wie Übersetzen, Stimmungsanalyse und die Beantwortung von Fragen.

Parameter

Im Zusammenhang mit KI und maschinellem Lernen sind Parameter die Teile des Modells, die aus den Trainingsdaten gelernt werden. Sie sind im Wesentlichen die Einstellungen oder «Knöpfe», die das Modell während des Lernprozesses anpasst, und die bestimmen, wie das Modell die Eingabedaten verarbeitet und interpretiert. Die Anzahl der Parameter kann bei grossen Modellen mehrere Hundert Milliarden errreichen:

  • GPT-3: 175 Milliarden Parameter
  • GPT-4: vermutlich 1,7 Billionen Parameter
  • Gemini Pro: unbekannt

RAG (Retrieval-Augmented Generation)

RAG ist eine bei KI verwendete Technik, bei der das Modell relevante Informationen aus einer Datenbank, Textsammlung oder aus bereitgestellten Dokumenten abruft, um sein eigenes Wissen zu erweitern, bevor es eine Antwort generiert. Dadurch wird die Ausgabe des Modells informierter und kontextbezogen genauer, was besonders in Szenarien wie der Beantwortung von Fragen oder der Überprüfung von Fakten nützlich ist.

Mit RAG lässt sich beispielsweise ein Unternehmens-Chatbot entwickeln, der Antworten ausschliesslich aufgrund der «gefütterten» Unternehmensinformationen liefert.

Temperatur

Dieser Begriff wird im Zusammenhang mit probabilistischen Modellen verwendet, insbesondere bei der Generierung von Texten oder Bildern. Die Temperatur steuert die Zufälligkeit bei der Generierung der Ausgabe. Eine hohe Temperatur führt zu mehr Zufälligkeit, Kreativität oder Vielfalt in den Ergebnissen, kann aber auch das Risiko von Inkohärenz oder Fehlern erhöhen. Eine niedrige Temperatur führt zu vorhersehbareren, konservativeren Ergebnissen, die sich eng an die in den Trainingsdaten beobachteten Muster halten. Die Anpassung der Temperatur ermöglicht ein Gleichgewicht zwischen Kreativität und Zuverlässigkeit in der Modellausgabe.

Der «Unterhaltungsstil» in Microsoft Copilot erlaubt es, an der Temperatur zu schrauben.

Transformer

Hierbei handelt es sich um ein Deep-Learning-Modell, das die Grundlage für viele aktuelle Fortschritte in der KI bildet, insbesondere in der Verarbeitung natürlicher Sprache. Transformer verarbeiten sequentielle Daten (wie Text), indem sie sich auf verschiedene Teile der Eingabedaten zu verschiedenen Zeiten konzentrieren und so ihr Verständnis von Kontext und Beziehungen in den Daten verbessern.

Das Transformer-Modell wurde 2017 von Google entwickelt und präsentiert. Es bildet die Grundlage für die heutigen generative AI-Modelle. GPT von OpenAI trägt den Transformer sogar im Namen, das Kürzel steht für Generative Pre-trained Transformer.

RLHF (Reinforcement Learning from Human Feedback)

Hierbei handelt es sich um einen Trainingsansatz, bei dem ein KI-Modell, insbesondere bei Aufgaben zur Entscheidungsfindung, aus menschlichem Feedback lernt. Anstatt nur von bereits vorhandenen Daten zu lernen, ermöglicht RLHF dem Modell, sich auf der Grundlage von Korrekturen, Präferenzen und Anleitungen zu verbessern, die von Menschen gegeben werden. Dadurch passt sich das AI-Modell immer besser an menschliche Werte und Erwartungen an, was Fehler (Halluzinationen) und Ungenauigkeiten verringert.

Vektordatenbank

Hierbei handelt es sich um eine Datenbank, die für die Speicherung und Verwaltung von Vektoreinbettungen (numerische Darstellungen von Daten, die häufig in der KI verwendet werden) konzipiert ist. Vektordatenbanken sind effizient in der Handhabung von Operationen wie der Ähnlichkeitssuche, bei der Elemente in der Datenbank gefunden werden, die einer gegebenen Abfrage «am nächsten» oder am ähnlichsten sind, eine häufige Notwendigkeit in KI-Anwendungen. Die meisten generative AI-Modelle verwenden eine Vektordatenbank für Abfragen.