Meine Reise durch die Welt der KI – Teil 2

Meine Reise durch die Welt der KI – Teil 2
Die reisende Feldmaus (DALL-E 3)

Im ersten Teil meiner Artikelserie über KI haben wir die Grundlagen der Künstlichen Intelligenz erkundet und meine ersten Schritte mit verschiedenen KI-Werkzeugen wie DALL-E, ChatGPT und GitHub Copilot kennengelernt. Nun möchte ich euch tiefer in die technischen Aspekte und meine persönlichen Erfahrungen mit KI einführen. Wir werden uns mit der spannenden Welt der Open-Source-KI beschäftigen, verschiedene Modellarchitekturen kennenlernen und meine kreativen Prozesse in der Musik- und Textproduktion erforschen. Begleitet mich auf diesem zweiten Teil meiner Reise durch die faszinierende Welt der Künstlichen Intelligenz.

Offene KI-Entwicklung – und was Lamas damit zu tun haben

Open Source, oder auf Deutsch "offener Quellcode", bezeichnet eine Philosophie, bei der der Quellcode von Programmen und anderer Software öffentlich und frei zugänglich gemacht wird, sodass jeder ihn verwenden, modifizieren und teilen kann. Zu diesem Thema im Speziellen habe ich bereits einen ausführlichen Artikel verfasst:

Open Source: Die Kraft der offenen Entwicklung
Stell dir vor, du könntest in die Küche deines Lieblingsrestaurants spazieren, das Rezept deines Lieblingsgerichts einsehen und es sogar verbessern. Genau das passiert täglich in der digitalen Welt dank Open Source. Aber was genau ist Open Source, und warum sollte es dich interessieren?

Besonders im KI-Bereich bietet Open Source die Möglichkeit, dass
Forschung und Innovation nicht nur in den Händen einiger weniger großer
Unternehmen liegen, sondern dass eine globale Gemeinschaft von
Entwicklern, Forschern, Enthusiasten und Anwendern zu den Fortschritten
beitragen und gleichzeitig von ihnen profitieren kann.

Als langjähriger Fan dieses Grundprinzips und selbst Entwickler kleiner
Open-Source-Projekte habe ich die jüngsten Entwicklungen im Bereich der
quelloffenen KI-Modelle und -Programme mit großem Interesse verfolgt.
Ich bin überzeugt, dass diese Herangehensweise der Schlüssel für eine
für die Gesellschaft nützliche KI ist.

Ein herausragendes Beispiel für ein offen entwickeltes KI-Modell ist
LLaMA. Der Name ist die Kurzform für „Large Language Model from Meta
AI". Es liegt seit Mitte 2024 bereits als dritte Version vor und
es wurde – wie der Name schon sagt – von Meta, dem Unternehmen hinter
Facebook, erstellt und veröffentlicht. LLaMA ist von Grund auf dafür
konzipiert, eine offene Alternative zu vielen anderen, geschlossen
entwickelten Sprachmodellen zu sein. Durch diese Eigenschaft und die
herausragende Stärke des Modells wurde das Lama quasi zum Symbol für
offene Sprachmodelle.

Weitere beliebte Open-Source-Sprachmodelle sind Mistral, Qwen, Phi, Gemma und die von Nous Research entwickelten Modelle wie Hermes und Capybara. Ein weiteres interessantes Modell aus diesem Repertoire ist Mixtral, ein Ableger von Mistral, der die moderne "Mixture of Experts"-Architektur nutzt. Sie alle bieten eine breite Palette an Anwendungsmöglichkeiten.

Welche Varianten von KI-Modellen gibt es?

In der modernen Welt der KI-Modelle gibt es verschiedene Ansätze,
sogenannte Architekturen, die für unterschiedliche Anwendungen und
Fähigkeiten optimiert sind.

Zu den grundlegenden Architekturen gehören die anfangs bereits erwähnten Transformer, sowie RNNs (Recurrent Neural Networks) und CNNs (Convolutional Neural Networks). RNNs, mit ihrer Fähigkeit, sequenzielle Daten zu verarbeiten, eignen sich besonders gut für Text und Zeitreihen, während CNNs, ursprünglich für die Bildverarbeitung entwickelt, lokale Muster in Daten erkennen können.

Eine interessante neuere Variante für Sprachmodelle ist die zuvor genannte "Mixture of Experts"-Architektur, kurz MoE. Die Idee hinter MoE ist es, das Modell in viele spezialisierte "Experten"-Module aufzuteilen, die auf einen bestimmten Aufgabenbereich spezialisiert und hochgradig darin trainiert sind. Wenn dann eine Eingabe bearbeitet wird, entscheidet ein "Gatekeeper"-Modul, welche Experten am besten geeignet sind, um diese spezifische Aufgabe zu lösen. Ausschließlich die ausgewählten Experten werden dann aktiv, was wiederum Rechenressourcen spart.

Ein anderer Trend sind multimodale Modelle, die zusätzlich zu Text auch andere Datenformen wie Bilder, Audio oder Sensordaten verarbeiten können. Sie verbinden verschiedene neuronale Netzwerke und ermöglichen einen ganzheitlichen Zugang zu Kommunikation und Wahrnehmung. Beispiele hierfür sind GPT-4, das sowohl Text als auch Bilder verarbeiten kann., sowie die neuere Variante GPT-4o („o“ steht für „Omni“), die zusätzlich noch Stimme verstehen und erzeugen kann.

Jede dieser Architekturen hat ihre Stärken und Schwächen. Transformer-Modelle glänzen in der Sprachverarbeitung, CNNs in der Bildverarbeitung, während RNNs gut mit Datensequenzen umgehen können. MoE-Modelle versprechen eine bessere Skalierbarkeit und Effizienz.

Die Zukunft könnte in der Kombination und Weiterentwicklung all dieser Ansätze liegen. Forscher arbeiten an Architekturen, die die Stärken verschiedener Modelle vereinen, um noch leistungsfähigere und vielseitigere KI-Systeme zu schaffen. Auch der Trend zu energieeffizienteren Modellen und solchen, die mit weniger Trainingsdaten auskommen, wird sich voraussichtlich fortsetzen.

Musik machen mit Suno und Udio

Ende 2023 stieß ich auf Suno, ein weiterer, nahezu unglaublicher KI-Dienst, der die Generierung von Musik inklusive künstlich gesungener Texte ermöglicht. Nachdem ich es erstmals ausprobiert hatte, war ich von den Möglichkeiten, die es bot, fasziniert, es bestand meiner Meinung nach aber noch Raum für Verbesserungen.

Als im März 2024 die neue und verbesserte Version 3 von Suno als Alpha veröffentlicht wurde, gab ich ihm erneut eine Chance und wurde nicht enttäuscht. Die Qualität der generierten Musik hatte sich noch ein deutliches Stück verbessert.

🤓
Zur Info: Der Begriff "Alpha" bedeutet in der Entwicklung, dass es sich um eine sehr frühe Version eines Produktes handelt, die in der Regel noch unvollständig und fehlerbehaftet ist und vor allem dazu dient, erste Funktionen zu testen. Nach dem gleichen Prinzip steht "Beta" für eine fortgeschrittenere Phase der Entwicklung, in der das Produkt nahezu komplett ist, aber potenziell noch kleinere Fehler enthält, die es vor der finalen Veröffentlichung zu beheben gilt. Die Begriffe "Stable" oder seltener auch "Gold" bezeichnen schließlich eine Version, die nach umfangreichen Tests als zuverlässig und fehlerfrei angesehen wird und somit für den Regelbetrieb genutzt werden kann. Das Veröffentlichen einer neuen Version wird in der Fachsprache „Release“ genannt.

Um Inspirationen und Vorlagen für meine Liedtexte zu bekommen, nutzte ich wieder einmal ChatGPT und zunehmend auch Claude, ein in der Zwischenzeit als dritte Version veröffentlichtes Konkurrenzmodell von Anthropic AI. Letzteres schnitt bei dieser Aufgabe meiner Meinung nach eindeutig besser ab und lieferte stimmigere und tiefgründigere Ergebnisse.

Erwartungsgemäß stieg bei Suno die Zahl der begeisterten Nutzer und somit der Generierungen enorm an. Deshalb entschied man sich dazu, das Modell für den Stable-Release effizienter zu machen. Das funktionierte merklich, aber es hatte auch seinen Preis: Die erstellte Musik wurde eintöniger. Suno versprach, dass die nächste Version seines Musikmodells wieder kreativer sein würde. Gerade zur rechten Zeit entdecke ich dann die Alternative Udio, die zu diesem Zeitpunkt kürzlich als Beta-Version veröffentlicht wurde. Ich entschied mich dazu, es intensiv auszutesten, während ich auf die nächste Version von Suno warte. Es lohnte sich und ich erschuf dank Udios hoher Kreativität und guten Basisfunktionen weitere schöne Musikstücke. Ich hatte viel Spaß mit Udio und es sollte dank stetiger Weiterentwicklung immer besser werden.

Hier könnt ihr eines meiner beliebtesten Werke anhören:

audio-thumbnail
Reise der Feldmaus
0:00
/144.222031

Mein kreativer Prozess mit KI

Nun möchte ich einen Einblick in meinen persönlichen Arbeitsablauf mit KI geben.

Bei der Texterstellung mit KI gehe ich folgendermaßen vor:

  1. Ich sammle zuerst relevante Informationen und Quellen zum Thema. Dann nutze ich ChatGPT oder Claude, um eine grobe Struktur für meinen Text zu erstellen. Dabei gebe ich die Zielsetzung des Textes, meine Rechercheergebnisse und spezifische Anforderungen ein.
  2. Je nach Notwendigkeit gebe ich dem KI-Assistenten weitere Anweisungen zur Anpassung der vorgeschlagen Struktur. Sobald ich damit zufrieden bin, lasse ich basierend darauf einen ersten Rohtext generieren.
  3. Wenn nötig, gebe ich dem Assistenten erneut Änderungsanweisungen. Sobald ich die Rohfassung für nutzbar erachte, überarbeite ich den generierten Text gründlich, um sicherzustellen, dass er genau meinen Vorstellungen entspricht. Zwischendurch nutze ich eventuell nochmals die KI, um Vorschläge für Verbesserungen in Stil und Ausdruck von Sätzen oder Textabschnitten zu erhalten.

Die Erstellung von Musik mit KI läuft bei mir so ab:

  1. Ich beginne damit, Informationen über das Thema oder die Person zu sammeln, von dem bzw. der das Lied handeln soll. Diese Informationen dienen einerseits als Grundlage für Teile des Liedtextes und helfen auch dabei, Genre, Stil und Stimmung des Stücks zu definieren.
  2. Ich füttere meinen von mir speziell für das Liedtexteschreiben angepassten KI-Assistenten mit den gesammelten Informationen. Manchmal gebe ich auch ein paar genaue Textpassagen vor, die ich gerne im Liedtext hätte. Der Assistent generiert daraufhin einen ersten Liedtextentwurf. Je nach Qualität und meiner Zufriedenheit lasse ich mir gegebenenfalls neue Entwürfe generieren.
  3. Wenn mir der grobe Entwurf gefällt, beginne ich mit dem Feinschliff. Ich passe den Text an meine Vorstellungen an, indem ich z.B. einzelne Zeilen leicht oder komplett umschreibe. Manchmal integriere ich auch Teile aus früheren Entwürfen.
  4. Mit dem fertigen Liedtext wende ich mich an KI-Musikgeneratoren wie Suno oder Udio. Ich gebe dort den Text zusammen mit Angaben zum gewünschten Genre und Stil ein. Die KI generiert daraufhin in der Regel zwei "Liedprototypen" für mich.
  5. Aus den generierten Vorschlägen wähle ich den für mich besten aus. Falls keiner meinen Vorstellungen entspricht, lasse ich neue Varianten generieren. Dieser Prozess wird wiederholt, bis ich mit dem Ergebnis zufrieden bin.

Als Fazit lässt sich sagen, dass die Nutzung von künstlicher Intelligenz in meinen kreativen Prozessen meine Arbeitsweise regelrecht revolutioniert hat. Sie ermöglicht es mir, Ideen schneller zu konkretisieren und umzusetzen sowie neue kreative Wege zu beschreiten, die ich allein vielleicht nicht entdeckt hätte. Gleichzeitig bleibt der menschliche Touch durch meine persönliche Überarbeitung und Feinabstimmung erhalten.

Ausblick auf den nächsten Teil

Das war es wieder für dieses Mal. Im dritten und letzten Teil meiner KI-Reise werden wir uns den praktischen Aspekten des Selbst-Hostings von KI-Modellen widmen und ich werde meine persönlichen Pläne in diesem Bereich mit euch teilen. Außerdem schauen wir in die Zukunft der Künstlichen Intelligenz und werfen einen kritischen Blick auf die Chancen und Risiken dieser transformativen Technologie. Bleibt gespannt.

Christian Neff

Christian Neff

Mein Name ist Christian Neff. Ich wurde am 26. Februar 1991 geboren und wohne in Stuttgart. Ich beschäftige mich am liebsten mit den Themen Internet, Webdesign, Programmierung und KI.
Stuttgart