KI in der Musikindustrie – Teil 11: Open AI und die GPT-Technologie

2023 hat „Chat-GPT“ vom KI-Unternehmen Open AI für Furore gesorgt. KI ist damit erstmals in der Mitte der Gesellschaft angekommen und wurde auch für Laien zugänglich. Die GPT-Technologie ist aber nicht nur die Basis für den beliebten Chat-Bot, sondern steckt auch in der KI-Software „Jukebox“, die selbständig, ohne menschliches Zutun Musik komponieren kann und auch Stimmen bekannter KünstlerInnen nachahmen kann. Im Teil 11 der Serie „KI in der Musikindustrie“ blicken wir hinter die Kulissen von Open AI und die GPT-Technologie, beginnend mit den ersten Experimenten, die Open AI im Rahmen der Linzer Ars Electronica gemacht hat, um 2019 Gustav Mahlers 10. Sinfonie mithilfe von KI weiter zu komponieren.

Kommen wir noch einmal zu einem weltbekannten unvollendeten, sinfonischen Werk zurück – zu Gustav Mahlers 10. Sinfonie. Mahler hatte die Sinfonie im Sommer 1910 während seines Sommeraufenthalts im südtirolischen Toblach mit fünf Sätzen konzipiert, wobei nur der erste Satz vollständig als Partiturentwurf vorliegt. Die anderen vier Sätze, deren Reihenfolge auch noch nicht fix vom Komponisten festgelegt worden waren, existieren in Particell-Entwürfen, wovon erste Partiturentwürfe für den zweiten und dritten Satz existieren. Von anderen Projekten und seinem Engagement in New York im Winter 1910/11 in Beschlag genommen, konnte Mahler die 10. Sinfonie vor seinem überraschenden Tod am 18. Mai 1911 nicht mehr fertigstellen.1 Seitdem gab es zahlreiche Versuche einer Vollendung, von denen die des britischen Musikers und Musikwissenschaftlers Daryck Cooke, der zwischen 1960 und 1989 gleich vier Versionen einer Vervollständigung vorlegte, die wohl bekannteste ist.2

Die Latte lag also hoch, als die Firma Open AI im Auftrag des Ars Electronica Festivals in Linz 2019 sich mit seiner KI MuseNet an die Weiterentwicklung von Mahlers 10. Sinfonie wagten. MuseNet ist ein neuronales Netzwerk, dessen Algorithmus Harmonie- und Rhythmusstrukturen in Musikstücken erkennt und lernt, die folgenden Noten eines Musikstücks vorherzusagen.3 Auf diese Art und Weise setzte die KI die ersten zehn Noten des Einleitungsthemas von der 10. Sinfonie fort und wurde vom Leiter des Ars Electronica Futurelab, Ali Nikrang, orchestriert. Das Endergebnis wurde am 6. September 2019 vom Bruckner Orchester Linz unter der Leitung von Markus Posch präsentiert.4

Mit diesem Projekt wollte das Unternehmen Open AI die Potenz seiner künstlichen Intelligenz demonstrieren. MuseNet verwendet nämlich dieselbe KI-Technologie wie GPT-2. GPT steht für Generative Pre-Trained Transformer und ist einem neuronalen Netzwerk nachgebildet, das mit großen Datenmengen trainiert wird, um selbstständig Texte zu verfassen. Die erste GPT-Version wurde von Open AI im Juni 2018 beschrieben, die noch halb-überwacht mit großen Textmengen trainiert wurde.5 Im Februar 2019 folgte dann GPT-2, die sich von der Ursprungsversion dadurch unterschied, dass das Trainieren des Algorithmus unüberwacht erfolgte und die KI zur Textgenerierung keine vorgefertigten Sprachblöcke mehr benötigte, sondern durch statistische Wahrscheinlichkeiten das Folgewort eruierte.6 Auf ähnliche Weise wurde auch die Mahler-Sinfonie fortgesetzt. Im Mai 2020 stellte Open AI GPT-3 vor, das auf einem künstlichen neuronalen Netzwerk mit über 175 Milliarden Parametern beruht. GPT-2 basierte hingegen „nur“ auf 1,5 Milliarden Parametern.7 GPT 3 war zudem das erste kommerzielle Projekt von Open AI, das bis dahin als eine Art Forschungslabor für künstliche Intelligenz arbeitete. Im Juni 2020 wurde eine Programmierschnittstelle geschaffen, über die professionelle EntwicklerInnen auf die Software zugreifen können, um neue Applikationen zu schaffen.8 Microsoft hat diese Gelegenheit genutzt und GPT 3 exklusiv lizenziert und US $1 Milliarde in Open AI investiert, um gemeinsam die Azure AI Supercomputertechnologie zu entwickeln.9

Auf GPT 3 folgte im März 2022 die Zwischenversion GPT 3.5, die sich auf aktuellere Trainingsdaten bezog und auch mit einem Internetbrowser ausgestattet war. Die eigentliche Verbesserung bestand aber darin, dass Texte nicht nur von der KI fortgesetzt, sondern Textteile in bestehende Texte eingefügt werden konnten.10 Popularität erlangte GPT 3.5 durch ChatGPT, einem ChatBot, der künstliche Intelligenz einsetzt, um mit NutzerInnen mithilfe von Texten aber auch Bildern zu kommunizieren. ChatGPT wurden im November 2022 von Open AI veröffentlicht und hat sogleich große mediale Aufmerksamkeit erregt, weil es erstmals für NutzerInnen auch ohne Vorkenntnisse möglich war, mit einer KI zu interagieren. ChatGPT nutzt ein Dialogformat, um Fragen zu beantworten und mit NutzerInen zu kommunizieren.11 Es lassen sich aber auch Texte zu anspruchsvollen Themen erstellen, sodass es nicht mehr möglich ist zu unterscheiden, ob der Text von einem Menschen oder von einer KI stammt. Das hat sogleich auch KritikerInnen auf den Plan gerufen, die vor Missbrauch und Betrug mithilfe der KI warnten. In Italien hat die Datenschutzbehörde ChatGPT vorübergehend sogar verboten12 und die europäische Polizeibehörde Europol warnte davor, dass Kriminelle Chatbots dazu nutzen könnten, um Falschinformationen zu verbreiten und Phishing-Attacken leichter durchzuführen.13

Die derzeit aktuelle Version ist aber GPT 4, die am 14. März 2023 veröffentlicht wurde. GPT 4 kann nicht nur Textinputs verarbeiten, sondern auch Bilder, um daraus Textoutputs zu generieren. Insgesamt ist GPT 4 gegenüber seinen Vorläufern noch leistungsfähiger und wurde mit neuen Trainingsdaten aktualisiert und auch als Grundlage für die neue Version von ChatGPT eingesetzt.14 Open AI wird die Entwicklung der GPT-Technologie in den nächsten Jahren mit Milliardenunterstützung durch Microsoft weiter vorantreiben und hat bereits Markenschutz für GPT 5 beantragt.15 Daran wird auch der offene Brief vom März 2023 nichts ändern, der vom ehemaligen Ko-Financier von Open AI, Elon Musk, dem Apple-Mitbegründer Steve Wozniak und bislang weiteren 33.000 Unterzeichnern veröffentlicht wurde und in dem ein Moratorium für die Weiterentwicklung von KI-Experimenten, die über GPT 4 hinausgehen, gefordert wird.16

Sie werden nun fragen, was hat das alles mit Musik zu tun, außer dass mit ChatGPT auch Songtexte verfasst werden können? Wie eingangs am Beispiel von MuseNet gezeigt wurde, kann die GPT-Technologie auch für das Komponieren verwendet werden, wenn entsprechende Trainingsdaten zur Verfügung stehen. Ende April 2020 hat Open AI „Jukebox“ vorgestellt. Das ist ein künstliches neuronales Netzwerk, das mit mehr als 1,2 Millionen Musiksamples trainiert wurde, um neue Musikstücke zu generieren. Die UserIn braucht nur einen Musikstil, einen Liedtext oder eine KünstlerIn vorgeben und schon generiert der Algorithmus einige Beispiel-Samples. Wählt man nun eines davon aus, stellt „Jukebox“ das Musikstück fertig. Allerdings kann die Finalisierung je nach Länge des Songs mehrere Stunden in Anspruch nehmen. Das Endergebnis kann dann wird dann rein instrumental oder auch mit Vocals wiedergegeben werden.17 Beispiele, die das Open AI-Team selbst erstellt haben, wie z.B. Rock ’n‘ Roll im Stil von Elvis Presley18 oder ein Pop-Song nach Frank Sinatra,19 können auf Soundcloud nachgehört werden. Die Audioqualität der Samples ist noch recht dürftig, aber es ist erstaunlich, wie gut die Stimmen der bereits verstorbenen Stars von der KI nachgeahmt werden können. Es ist nur eine Frage der Zeit, wann Open AI auch die KI zur Musikgenerierung zu perfektioniert hat, wie die Texterstellung durch Chat GPT.

Peter Tschmuck

Dieser Artikel erschien erstmal am 25. März 2024 auf der Seite https://musikwirtschaftsforschung.wordpress.com/2024/03/25/ki-in-der-musikindustrie-teil-11-open-ai-und-die-gpt-technologie/

Teil 1: Was ist künstliche Intelligenz?
Teil 2: Wie funktioniert künstliche Intelligenz?
Teil 3: Der Aufstieg von Musikerkennungsdiensten
Teil 4: KI in der Musikerkennung und Musikempfehlung
Teil 5: Die Musikempfehlung im Musikstreaming
Teil 6: Fake-Streams und Streamingfarmen
Teil 7: KI in der Musikproduktion
Teil 8: Maschinen schaffen Musik
Teil 9: Die Vollendung des Unvollendeten
Teil 10: François Pachet: The Continuator, Flow Machines und „Daddy’s Car“


Peter Tschmuck ist Professor am Institut für Popularmusik (ipop) der mdw.


Endnoten

  1. Die Hintergründe der Entstehung von Mahlers 10. Sinfonie sind entnommen aus Karl-Josef Müller, 1989, Mahler. Leben, Werke, Dokumente, 2. Auflage, Mainz: Serie Musik, Piper-Schott, S. 403-429. ↩︎
  2. Jörg Rothkamm, 2007, „The Tenth Symphony: Analysis of its Composition and ‚Performing Versions’“, in Jeremy Barham (Hg.), The Cambridge Companion to Mahler, Cambridge: University Press, 2007, S. 150–161. ↩︎
  3. Open AI, „MuseNet“, o.D., Zugriff am 26.09.2023. ↩︎
  4. Ars Electronica, „Mahler-Unfinished“, o.D., Zugriff am 26.09.2023. ↩︎
  5. Open AI, „GPT – Improving language understanding with unsupervised learning“, 11. Juni 2018, Zugriff am 26.09.2023. ↩︎
  6. Open AI, „GPT 2 – Better language models and their implications“, 14. Februar 2019, Zugriff am 26.09.2023. ↩︎
  7. GPT 3 wurde ausführlich in einem wissenschaftlichen Paper, das von Open AI in Auftrag gegeben worden war, beschrieben: Tom B. Brown et al., 2020, „Language Models are Few-Shot Learners“, arxiv.org, arXiv:2005.14165, Zugriff am 26.09.2023. ↩︎
  8. Open AI, „OpenAI licenses GPT-3 technology to Microsoft“, 22. September 2020, Zugriff am 26.09.2023. ↩︎
  9. Microsoft News, „OpenAI forms exclusive computing partnership with Microsoft to build new Azure AI supercomputing technologies“, 22. Juli 2019, Zugriff am 26.09.2023. ↩︎
  10. Open AI, „New GPT-3 capabilities: Edit & insert“, 15. März 2022, Zugriff am 26.09.2023. ↩︎
  11. Open AI, „Introducing ChatGPT“, 30. November 2022, Zugriff am 26.09.2023. ↩︎
  12. The Verge, „ChatGPT returns to Italy after ban“, 28. April 2023, Zugriff am 26.09.2023. ↩︎
  13. Europol, 2023, ChatGPT – The impact of Large Language Models on Law Enforcement, a Tech Watch Flash Report from the Europol Innovation Lab, Publications Office of the European Union, Luxembourg. ↩︎
  14. Open AI, „GPT 4“, 14. März 2023, Zugriff am 26.09.2023. ↩︎
  15. Cybernews, „OpenAI files trademark application for GPT-5“, 30. August 2023, Zugriff am 26.09.2023. ↩︎
  16. Future of Life, „Pause Giant AI Experiments: An Open Letter“, 22. März 2023, Zugriff am 26.09.2023. ↩︎
  17. Open AI, „Jukebox“, 30. April 2020, Zugriff am 26.09.2023. ↩︎
  18. Soundcloud, „Rock, in the style of Elvis Presley – Jukebox“, 30. April 2020, Zugriff am 26.09.2023. ↩︎
  19. Soundcloud, „Classic Pop, in the style of Frank Sinatra – Jukebox“, 30. April 2020, Zugriff am 26.09.2023. ↩︎