Meine Reise durch die Welt der KI – Teil 1

Zwei Roboter in einer märchenhaften Gartenlandschaft mit schwebenden Gebäuden und goldener Sonne im Hintergrund.
Zwei neugierige Roboter erkunden neues Territorium (DALL-E 3)

Künstliche Intelligenz, oder kurz KI, hat in den letzten Jahren eine faszinierende Entwicklung durchlaufen und ist bereits für einige von uns zu einem festen Bestandteil unseres digitalen Lebens geworden. In dieser Artikelserie möchte ich euch auf meine persönliche Reise durch die Welt der KI mitnehmen – eine Reise, die meine Leidenschaft für Technologie widerspiegelt und gleichzeitig ein Experiment darstellt.

Als begeisterter Technik-Enthusiast und Hobbyentwickler habe ich mich schon früh für die Möglichkeiten der KI interessiert. Immer wieder wurde ich von Freunden und Bekannten gefragt, wie ich verschiedene Projekte mit KI umsetze, wie beispielsweise die Erstellung von Musik. Diese Fragen haben mich dazu inspiriert, meine Erfahrungen und Erkenntnisse in diesem Artikel zu teilen.

Gleichzeitig ist diese Serie selbst ein Experiment: Ich wollte herausfinden, wie es ist, einen längeren Artikel mit Unterstützung von KI (und unterschiedlichen) zu verfassen. So entstand die Idee, meine Reise durch die Welt der KI nicht nur zu beschreiben, sondern gleichzeitig fortzusetzen und zu reflektieren.

In den folgenden Abschnitten werde ich euch durch verschiedene Stationen meiner KI-Odyssee führen. Von den ersten Berührungspunkten mit DALL-E und Midjourney über die faszinierende Welt der Sprachmodelle wie ChatGPT bis hin zu meinen Experimenten mit KI-gestützter Musikproduktion. Ich werde euch Einblicke in meine kreativen Prozesse gewähren, technische Hintergründe beleuchten und einen Ausblick auf zukünftige Entwicklungen wagen.

Lasst uns gemeinsam eintauchen in die spannende Welt der Künstlichen Intelligenz und entdecken, wie diese Technologie nicht nur unseren Alltag, sondern auch unsere kreativen Möglichkeiten revolutioniert.

💭
An dieser Stelle möchte ich anmerken, dass der Begriff "KI" heutzutage häufig von Unternehmen als Buzzword für Marketingzwecke verwendet wird. Technisch präzisere Begriffe wären beispielsweise "Machine Learning", "Deep Learning", "Natural Language Processing" oder "Computer Vision" - je nach konkretem Anwendungsfall. Jedoch fasst der Begriff "KI" gut dieses große technische Gebiet zusammen und ist deshalb meiner Meinung nach gut geeignet, um allgemeinverstandlich darüber zu sprechen.

Die Vorgeschichte

Bevor wir in meine persönlichen Erfahrungen eintauchen, lasst uns eine kleine Zeitreise unternehmen. Wir werden uns dabei die Meilensteine anschauen, die den Weg für die heutigen KI-Technologien geebnet haben. Diese kurze Rückschau wird uns helfen, meine Reise durch die Welt der KI richtig verstehen und einordnen zu können. Also schnallt euch an!

Das Jahr 2012 markierte einen Wendepunkt in der KI-Entwicklung: Fortschritte im Deep Learning führten zu Durchbrüchen in der Bilderkennung. Diese Erfolge, gepaart mit leistungsfähigerer Hardware, entfachten neues Interesse an KI. 2014 folgte die Einführung von GANs (Generative Adversarial Networks), die das Erzeugen realistischer Bilder revolutionierten. Diese Innovationen legten den Grundstein für die KI-Anwendungen, die wir heute kennen und nutzen.

Ein weiterer Meilenstein folgte 2018 mit der Einführung von sogenannten Transformer-Modellen. Technologiegiganten wie OpenAI und Google entwickelten GPT (Generative Pre-trained Transformer) und BERT (Bidirectional Encoder Representations from Transformers), KI-Systeme, die Sprache auf einem neuen Level verstehen und erzeugen konnten. Diese Modelle läuteten eine neue Ära in der Sprachverarbeitung ein und bilden die Basis für viele der Chatbots und Textgeneratoren, die heute so viel Aufsehen erregen.

Was ist eigentlich ein KI‑„Modell“?

Du fragst dich nun vielleicht: „Was bedeutet Modell im Zusammenhang mit KI?“ Dazu kommen wir jetzt: Stell dir vor, Modelle in der Welt der Künstlichen Intelligenz sind wie Rezeptbücher für Computer. Genau wie ein Kochbuch detaillierte Anweisungen bietet, wie aus einer Menge von Zutaten ein leckeres Gericht zubereitet wird, erklären KI-Modelle einem Computer, wie er Informationen verarbeiten und daraus etwas Nützliches machen soll. Diese "Rezepte" können ganz unterschiedlich sein und ermöglichen es Computern, mit Sprache, Bildern, Audio oder Video in einer Weise umzugehen, die menschenähnlich erscheint.

Ein Modell wird durch das "Trainieren" mit Daten erstellt. Dieser Trainings-Prozess ist vergleichbar damit, wie du kochen lernst: Zuerst befolgst du die Rezepte Schritt für Schritt. Mit der Zeit und Übung beginnst du zu verstehen, wie die Zutaten zusammenwirken und kannst sogar eigene Rezepte kreieren. Ähnlich "lernt" ein KI-Modell durch die Analyse einer großen Menge von Beispieldaten – sei es Text, Bilder, Töne oder Videos – und erkennt Muster oder Zusammenhänge in diesen Daten.

Sobald das Modell trainiert ist, kann es Vorhersagen machen, Inhalte generieren oder Aufgaben ausführen, basierend auf neuen, ihm gegebenen Informationen.

Für verschiedene Aufgaben gibt es unterschiedliche Modelle: Sprachmodelle verstehen und generieren Texte, Bildmodelle können Bilder erkennen oder erstellen, Audiomodelle arbeiten mit Klang und Musik, und Videomodelle verstehen Bewegtbilder. Jedes Modell hat seine Spezialität, ähnlich wie Kochbücher, die sich auf bestimmte Küchen oder Gerichte konzentrieren können.

Der Beginn einer Reise

Erste größere Berührungspunkte mit Künstlicher Intelligenz hatte ich Mitte 2022: Ich fand zufällig DALL-E, ein KI-Bildmodell, das Bilder aus Textbeschreibungen generieren kann. Der Name „DALL-E“ ist eine Anspielung auf den berühmten surrealistischen Künstler Salvador Dalí und den liebenswerten Roboter WALL-E aus dem gleichnamigen Film. Es wurde Anfang 2021 vom Unternehmen OpenAI vorgestellt und lag zum Zeitpunkt meiner Entdeckung bereits als verbesserte zweite Version vor. Ich probierte es aus und war beeindruckt: DALL-E 2 erzielte schon zu diesem Zeitpunkt recht schöne Ergebnisse.

Kurz nach meinen ersten Erfahrungen mit DALL-E entdeckte ich auch Midjourney, ein weiteres Bildgenerierungsmodell ähnlich wie DALL-E, aber mit einigen Unterschieden in den Stilen und Gestaltungsmöglichkeiten.

Ein weiteres interessantes und hilfreiches KI-Werkzeug ist GitHub Copilot, ein KI-Assistent optimiert für Programmieraufgaben. Er wurde vom Code-Hosting-Dienst GitHub in Zusammenarbeit mit OpenAI entwickelt und versteht Programmcode und kann diesen automatisch vervollständigen oder sogar ganze Funktionen generieren. Copilot erwies sich als nützliches Werkzeug, das mir viel Tippen abnahm und somit meine Produktivität als Entwickler merklich steigerte.

Im November 2022 erblickte dann ChatGPT das Licht der technologischen Welt, ein Internetdienst auf der Basis des KI-Sprachmodells GPT-3.5, beide ebenfalls entwickelt von OpenAI. Es bietet die Möglichkeit, menschenähnliche Texte zu generieren, komplexe Fragen zu beantworten und Dialoge in einer zuvor unerreichten Natürlichkeit zu führen. Es kann außerdem ausführliche Artikel schreiben und sogar Programmieren, jedoch ist Mathematik seine Schwachstelle.

Die vielfältige Nutzung in meinem Alltag

Was zunächst als ein Experiment begann, verwandelte sich schnell in eine feste Gewohnheit. Ich war fasziniert von der Fähigkeit des Programms, in einem breiten Spektrum von Aufgaben zu assistieren, von technischen Problemlösungen bis hin zu kreativen Schreibaufgaben.

Für meine Experimente und kleinere Arbeiten nutzte ich in ChatGPT zu Beginn ausschließlich GPT‑3.5, da es mir für längere Zeit ausreichte, um meine Bedürfnisse in Sachen Programmierungs-Unterstützung und Texterstellung zu erfüllen.

Doch mit der Zeit und dem wachsenden Bedarf an komplexeren Interaktionen entschied ich mich, auf das fortschrittlichere Nachfolger-Sprachmodell GPT-4 umzusteigen, das im März 2023 erschien. Der dafür notwendige Wechsel auf die Bezahlvariante namens „ChatGPT Plus" nötig, die etwa 22 € monatlich kostet, eröffnete mir neue Möglichkeiten durch noch präzisere und vielseitigere Antworten. Die Investition lohnte sich, da ich ChatGPT nun für noch komplexere Aufgaben nutzen konnte, während die Antworten noch präziser wurden.

Inzwischen wurde dann auch noch DALL-E 3 veröffentlicht, das man eine Weile später als Zusatzfunktion in ChatGPT Plus nutzen konnte. Mit dieser neuesten Version des KI-Bildgenerierungsmodells konnte ich noch bessere Bilder für unterschiedlichste Zwecke erstellen. Die verbesserte Version bot nicht nur eine höhere Qualität und Realismus in den Bildern, sondern auch eine beeindruckende Vielfalt an Stilen und Motiven.

Ausblick auf den nächsten Teil

Das war es erst einmal. In Teil 2 meiner Reise durch die Welt der KI werde ich euch tiefer in die technischen Aspekte und meine persönlichen Erfahrungen mit KI einführen. Wir werden uns mit der spannenden Welt der Open-Source-KI beschäftigen, verschiedene Modellarchitekturen kennenlernen und meine kreativen Prozesse in der Musik- und Textproduktion erforschen. Bleibt dran, um mehr über die faszinierende Welt der Künstlichen Intelligenz zu erfahren!

Christian Neff

Christian Neff

Mein Name ist Christian Neff. Ich wurde am 26. Februar 1991 geboren und wohne in Stuttgart. Ich beschäftige mich am liebsten mit den Themen Internet, Webdesign, Programmierung und KI.
Stuttgart