Emotion und Disruption. Künstliche Intelligenz in der Musikproduktion

Inwiefern verändert Künstliche Intelligenz die Produktionsweise von Musik? Markus Deisenberger sprach mit fünf renommierten Musik-Produzent:innen (Wolfgang Schrammel, Thomas Foster, David Piribauer, Zebo Adam und Georg Tomandl) über den Umbruch der Märkte, damit verbundene Einbußen und Möglichkeiten.

An der Schwelle, an der wir jetzt stehen bzw. die wir schon überschritten haben, wird es disruptiv“, sagt Wolfgang Schrammel. Schrammel, Salzburger Produzenten-Legende, die bei unzähligen hervorragenden Musikproduktionen der letzten Jahrzehnte ihre Finger im Spiel hatte, meint, dass es durch KI große Effizienzsteigerungen geben wird, „aber kein Stein auf dem anderen bleiben wird, weder für Fotograf:innen, noch für Grafiker:innen, Tonstudios, Sprecher:innen und Techniker:innen.

Was das konkret für ihn und sein Studio bedeutet? „Bis heute [der zum Zeitpunkt unseres Gesprächs lag im Spätsommer, Anm.] hatte ich nur drei Sprachaufnahmen. Im vergleichbaren Zeitraum der letzten Jahre waren es zu diesem Zeitpunkt im Schnitt schon zwischen zwanzig und fünfundzwanzig.“ Der Markt bricht also ein, was für jemanden, der in guter alter Indie-Manier bemüht war, das Aufnehmen im eigenen Studio für junge, aufstrebende Bands leistbar zu gestalten, so lange das Studio parallel dazu gute Einnahmen aus der Werbung erzielt, natürlich ein gewisses Problem darstellt. Die meisten Leute in der Branche seien auch verblüfft gewesen, so Schrammel, „wie schnell es ging, dass die Leute abwandern, weil es ihnen offenkundig egal ist, dass die durch KI erzielten Ergebnisse nicht so gut klingen als wenn sie es professionell einsprechen hätten lassen. Damit, dass die Kunden so schnell akzeptieren, dass die Ergebnisse lauwarm im Vergleich zu dem sind, was professionelle Studios liefern, haben wir nicht gerechnet.“

Und das, obwohl man, wenn man sich in ein Studio wie seines einmietet, von der Stimme immer etwas ganz Bestimmtes will: „Stimmfarbe. Tonlage. Melodie. Letztlich ist es die Emotion, die ich vermitteln will.“ In seinem Studio wird die Stimme nicht einfach nur aufgenommen. „Die Sprecher:innen bekommen vorher Regieanweisungen. Das Gesprochene wird dann von einem 5.000-Euro-Mikro über einen 3.500-Euro-Pre-Amp und über einen super Wandler aufgenommen, dann geschnitten.“ Durch Vorverstärkung und Wandlung wird eine Dreidimensionalität erreicht. „Man hört jeden Speichel.“ Schrammel verwendet auch nicht für jede Person das gleiche Mikro. Am Ende jedenfalls haben die Kund:innen genau das, was sie ursprünglich haben wollten. „Über die KI kriege ich ähnliches, aber nicht den Sound und die Emotion, letztlich also genau das nicht, worauf es ankommt.

Ja, mittlerweile könne man die Emotion schon „reinpromten“ und mit unterschiedlichen Interfaces unterschiedliche Dinge bewirken, „aber ich habe im Ergebnis trotzdem nicht das, worauf es ankommt.“ Bei einem Anrufbeantworter, der nur die Öffnungszeiten einer Firma durchgibt, sei das vielleicht egal, in anderen Fällen nicht. Warum? Weil der Mensch im Normalfall mit Menschen kommunizieren will. Und: „Der Mensch reagiert auch verstimmt, wenn er das Gefühl hat, hinters Licht geführt worden zu sein.

Aber, lenkt Schrammel ein: „Die Algorithmen werden wöchentlich besser.“ Es könne schon sein, dass man irgendwann so gut prompten kann, dass die KI genau weiß, wo sie Tempo rausnehmen muss etc. Seine Prognose: „Spitzensprecher:innen, die gefragtesten drei, vier pro Land, wird es weniger betreffen, aber die Durchschnittssprecher:innen werden es stark spüren bzw. spüren es jetzt schon.

Post-Production und Konsultation

Dadurch eröffnen sich logischerweise auch neue Chancen. So bekommt er von Firmen Files zugeschickt, „die von KI erstellt wurden, die aber so schlecht klingen, dass ich sie aufpolieren soll. Ja, und dann mache ich mit Plug-Ins aus lauwarmen Sounds welche, die besser sind.“ Ein neuer Markt eröffnet sich also für Leute, die im Video- und Audiobereich Profis sind und beurteilen, ob etwas verbesserungsfähig ist. „Der Markt ergibt sich für Executive Producers oder Consultants“, so Schrammel. Das seien neue Märkte, ja, aber es frage sich, ob man diese neuen Märkte auch beackern will. Schrammel will nicht auf Laptop umsatteln, um im Homeoffice mit Algorithmen herumzuspielen. „Ich bin Vollblutmusiker und -produzent. Ich möchte Qualität abliefern und nicht für einen Fehler verantwortlich sein, der sich durch Algorithmen eingeschlichen hat.“ Denn noch jedes Mal, wenn er in der Vergangenheit einen Native Speaker engagierte, habe der Ungereimtheiten gefunden – „selbst in Sprachen wie Englisch oder Französisch. Da gibt es Dinge, die vielleicht okay sind, die ein Native Speaker aber trotzdem anders sagen würde.“

Aber ganz abgesehen davon könne er nicht dafür geradestehen, dass etwas von einer KI Übersetztes auf Koreanisch oder Rumänisch passt. „Auf Instagram siehst du ja auch lauter falsch übersetzte Dinge. Wenn da ein Hund spielt, und der Text nicht stimmt, kommt dabei niemand zu Schaden. Aber bei Produktversprechen ist das schon sehr heikel …“ Bei Sänger:innen sieht es Schrammel „noch nicht so problematisch“. „Die werden eine Spur weniger betroffen sein, weil man bei Sänger:innen auch die Persönlichkeit hören will“, so der Produzent.

„Thema ist durch“

Bild Thomas Foster
Thomas Foster (c) Marc Stickler

Thomas Foster sieht das grundlegend anders. Gemeinsam mit seinem Partner Peter Kent hat er schon so manche eingängige Kennmelodie komponiert. Ob für „Zeit im Bild“ im ORF oder Radiostationen in New York und Moskau, seine Signations rotieren. Aber auch darüber hinaus produziert er am laufenden Band House-Tracks und vieles mehr. In einer aktuellen 3Sat-Doku über den Einsatz von Künstlicher Intelligenz in der Musik fungiert er als Hauptprotagonist.

Wie es dazu kam? Für seinen Podcast hatte er ein Video mit dem Titel „Ich bin arbeitslos“ produziert. Darauf experimentierte er mit KI-Tools herum, und während das mittels KI erzeugte Lied lief, reagierte er darauf. Am Schluss meinte er bloß: „Okay, jetzt bin ich arbeitslos.“ Normalerweise habe er zwischen 1.000 und 2.000 Klicks. Dieses Video aber schaffte auf Anhieb mehr als 100.000, was offenbar auch jemandem bei 3Sat auffiel.

KI wird die Art, wie wir Musik produzieren, noch mehr revolutionieren, als es der Computer getan hat“, ist er überzeugt. Es sei zwar ein massiver Wechsel von der Tonbandmaschine, dem Mischpult und echten Synth zum Computer gewesen, „aber was jetzt schon mit KI möglich ist und was möglich sein wird, wird viel größer sein.

Zum Thema KI kam er, weil er immer schon jemand war, den technische Innovationen begeistert und fasziniert haben. „Selbst wenn ich schon neun Plug-Ins habe, die alle das gleiche können, muss ich auch das zehnte ausprobieren und mich damit auseinandersetzen.

Er erinnert sich noch gut an das erste Programm, mit dem er Gesang erzeugen konnte, also Noten und Text eingeben konnte und Gesang bekam. „Das hat furchtbar geklungen, eine hölzerne Roboter-Stimme.“ Aber theoretisch ging es schon. Mittlerweile geht es so, dass kein Mensch mehr den Unterschied höre. Monika Ballwein, einer österreichischen Sängerin, die erst neulich Leadsängerin beim erfolgreichen Queen-Musical war, spielte er im Rahmen der 3Sat-Doku verschiedene seiner Produktionen vor, und sie musste erraten, welcher Song von einem echten Menschen gesungen und welchen er komplett mit KI generiert hatte. Die Fehlerquote lag bei 80 Prozent. Sie hat also nur zwei von zehn erraten. „Wenn aber nicht einmal jemand, der sich täglich intensiv mit dem Thema Gesang auseinandersetzt, den Unterschied hört, ist das Thema durch“, so Foster.

Hat KI seine Produktionsweise verändert? „Ja, und zwar grundlegend und auf positive Art und Weise“, erzählt er, weil Gesang für ihn immer ein „schwieriges Thema“ gewesen sei. Auch wenn er gern mit anderen Menschen arbeite und den Austausch mit Menschen toll finde, habe der die Abhängigkeit von anderen Menschen oft als nachteilig empfunden. „Du schreibst einen tollen Song und bist in einem Workflow, hast Spaß am Arbeiten, und dann kommt irgendwann das Thema Gesang. Bisher hieß das: Arbeit abbrechen, die komponierte Musik mit einem Klavier rausspielen, Sänger kontaktieren. Wenn es Englisch sein soll, gibt es wenige, die aktenzfrei Englisch singen, also vielfach dann doch eher in L.A. und London aufnehmen etc. Bis die Dame oder der Herr ins Studio geht, vergehen zwei Wochen, das heißt, das Projekt steht erst einmal zwei Wochen und kostet eine Menge Geld, weil das Studio und die Sängerin bezahlt werden müssen. Und wenn du Pech hast, kriegst du ein Resultat, mit dem du nicht zufrieden bist, und das Ganze geht von vorne los …“ Mit KI bleibt Foster jetzt im kreativen Flow. Er probiert den Gesang erst einmal mit KI, gibt die Noten ein. „Den Ton mit weniger Vibrato, den Ton ein bisschen kürzer, den ein bisschen länger und so weiter. Die Kreativität, die vorher zur Sängerin ging, ist wieder bei mir.“ Für ihn sei das großartig. „Dass das für Sänger:innen furchtbar ist, steht auf einem andere Blatt.”

Foster bringt ein weiteres Beispiel: Unlängst habe er eine Kooperation mit einem erfolgreichen DJ gestartet, erzählt er. „Er hatte die Idee, aus einem Song von Blondie eine moderne Dance-Version zu machen. Ich meinte: ‚Schick mir den rüber und ich mach gleich mal den Gesang mit KI dazu.‘ Darauf er: ‚Ja, aber wir werden doch wohl nicht KI in der Endproduktion verwenden, oder?‘ Ich antwortete: ‚Muss nicht sein, nein. Aber lass uns mal arbeiten und wenn uns am Schluss der Gesang nicht gefällt, dann lassen wir das von jemandem einsingen. Kein Thema.‘ Am nächsten Tag schickte er seinem Kooperationspartner erste Beispiele, wie es klingen könnte. Darauf schrieb der DJ zurück: ‚O, mein Gott. Ich wusste nicht, dass das Thema schon so weit ist. Das klingt ja großartig.‘“

„UDIO“ und „Suno“ sind die Tools, die Foster verwendet, um Gesang zu erzeugen. Sein Haupt-Tool nennt sich allerdings „Synthesizer V“. Und auf lalals.com könne man die eigene Stimme in die von Ed Sheeran, Madonna oder Michael Jackson umwandeln. Dann gäbe es noch zwei, drei andere Tools, aber das seien die wichtigsten.

Spielt natürlicher, von Menschen hervorgebrachter Gesang denn gar keine Rolle mehr in seinem Studio? Doch. Gerade habe er einen Track mit Gesang von Jan Johnston fertiggestellt. Johnston habe mit allen großen Trance-DJs wie Armin von Buren, Tiesto, Paul van Dijk und anderen gearbeitet. Es sei nicht nur toll gewesen, sie kennenzulernen und mit ihr zu arbeiten, sondern die Zusammenarbeit hat auch einen wirtschaftlichen Mehrwert: „Wenn ich einen Song mit ihr rausbringe, sind nicht nur die Leute, die mir folgen, interessiert, sondern auch die, die ihr folgen. Ihre Fans.“

„Eine andere Greifbarkeit“

Bild David Piribauer
David Piribauer (c) Eva Ruiz Art

Ganz anders geht David Piribauer mit dem Thema KI um. Er betreibt das Mushroom Studio in Pinkafeld, das all jenen ein Begriff ist, die auf gute, handgemachte Pop- und Rockmusik stehen. Vorher war er als Session-Drummer für Christine Mc Vie (Fleetwood Mac) und Solange Knowles tätig, und hat auch in der Band von Alice Cooper gespielt. Piribauer ist also eine schillernde Figur der österreichischen Musiklandschaft. Spielt KI bei seiner Produktionsweise eine Rolle?

Nicht wirklich“, sagt er. „Wenn du in den Aufnahmeraum schaust, stehen dort ein Schlagzeug und ein Flügel. Das ist wie ein richtiges Music Recording Studio gebaut. Ich verwende schon auch viele virtuelle Instrumente, mal dies, mal das, aber in der Regel nehmen wir das meiste hier auf.“ Mit Analog-Equipment ließe sich ein anderer Sound, eine andere Greifbarkeit erzielen. „Ob das jetzt besser oder schlechter ist, sei dahingestellt, es ist einfach anders.“ Die Arbeitsweise berge gewisse Vorteile, aber auch Nachteile in sich. Grundsätzlich habe er beides: „Super Pro-Tools und halt auch das Analoge.“ Aber: „Im Endeffekt sind es nur Tools. Man muss wissen, was die Stärken der verschiedenen Sachen sind und ob man es wirklich braucht.“

Er selbst unterscheidet in der Verwendung von Plug-Ins, ob es darum geht, ein File zu analysieren und umzurechnen. Dann mache er das mit KI, ja. Was er nicht mache, sei Stimme oder ein Instrument durch KI erzeugen zu lassen. Das sei witzlos. „Ich mache das Ganze ja aus einem Grund: Ich will Spaß an der Sache haben. Ich mache es nicht nur, um irgendein Resultat zu liefern. Ich habe Freude am Kreieren. Musik ist Kunst und Kunst hat mit Fähigkeiten zu tun. Wenn jemand Klavier spielt und die Luft schwingt hier im Raum oder eine Band spielt super gemeinsam und das schwingt, dann ist das unique.“ Vielleicht könne eine KI auch etwas Einzigartiges machen, „aber das sind dann halt nicht diese Leute, die mit so viel Herzblut dabei sind.“

Für ihn liegt der Unterschied ganz klar in der Produktionsweise: „Wenn eine Produktionsweise schon in der Vergangenheit hauptsächlich ‚in the box‘ war – das ist generell etwas, was ich kaum mache –, dann hast du zur KI eine größere Nähe. Wenn ich Werbung machen würde, wäre es sicher anders, dann würde ich wahrscheinlich KI einsetzen. Wenn du aber so wie ich mit Künstler:innen arbeitest, geht es ums Persönliche, also nicht um die Schaffung eines Hintergrund-Tracks, sondern um die wirklich individuelle Produktion einer Künstler:in, die das geschrieben hat, das vertritt und dann auch live performt.

Zielorientiert oder eigenverantwortlich

Bild Zebo Adam
Zebo Adam (c) Pressebild

Zebo Adam sieht das ähnlich. Der Wiener hat mit seinen Produktionen für die erfolgreiche österreichische Band Bilderbuch (etwa der Alben „Schick Schock“ und „Magic Life“) weit über Österreichs Grenzen hinaus Beachtung erlangt. Es folgten Arbeiten für die Beatsteaks (Singles „Ticket“ und „Mad River“) und Albumproduktionen für die Steaming Satellites und zuletzt Wanda. Das KI-Thema hält er zwar prinzipiell für ein extrem spannendes, weil es zunächst ja um die Leistungs- und Rechenstärke von Programmen gehe. „Und da erleben wir gerade etwas, was vielleicht nur vergleichbar ist mit dem Wechsel von der Zeit, als man Musik noch nicht dokumentieren konnte außer im Geiste oder auf Papier, als es also noch keine Aufnahmen gab, und der Zeit, als es möglich wurde, Musik aufzunehmen.“ Die Änderungen, die derzeit passieren, seien „vehementer und gravierender“, dessen ist er sich sicher.

Aber „ohne zu wissen, wo das hingehen wird“, sei sein persönlicher Umgang damit, immer mehr Abstand davon zu halten.

Warum? „Weil Musikmachen für mich zuallererst eine große Eigenverantwortung bedeutet.“ Und KI in der Musikproduktion täte vor allem eines: Sie übernimmt Verantwortung.

Auch er unterscheidet – ähnlich wie Piribauer – zwei grundsätzlich unterschiedliche Herangehensweisen an die Musikproduktion. Die eine sei sehr zielorientiert und da mache KI extrem viel Sinn. „Wenn das Ziel ist, Musik zu machen, die gewissen Parametern entspricht, ist KI toll. Früher hat man für ein Playback wochenlang gebraucht. Heute geht das in acht Stunden in mindestens genauso guter Qualität. Aber bedeutet das automatisch, dass man bessere Musik macht? Dass man interessantere Musik macht? Ich glaube nicht, weil ich der Meinung bin, dass das Interessante an der Musik die persönliche Entscheidung ist.“ Und die entstehe oft auch aus einem Fehler heraus. „Wenn ich an Musikaufnehmen denke, möchte ich Lösungen finden, und alle Tools, die ich dazu verwende, sind bloße Hilfsmittel, aber auf den Berg muss ich mich trotzdem selber raufbewegen“, so Adam.

Bild Georg Tomandl
Georg Tomandl (c) Klaus Pichler

Georg Tomandl, Geschäftsführer von Sunshine Mastering, wiederum nutzt in der Tonbearbeitung laufend KI-Tools, „dxRevive“ etwa – „das ist das beste Plug In, um Störgeräusche wegzukriegen.“ Vor allem für Filmaufnahmen sei das sinnvoll, manchmal aber auch bei schlechten Musikaufnahmen. Auch mit „SpectraLayers“ arbeitet er, einem Programm, mit dessen Hilfe sich ein Song in seine unterschiedlichen Bestandteile zerlegen lässt, etwa wenn man Stimmen und Musik voneinander trennen will. „Wenn eine Stimme zu laut oder zu leise ist, kannst du die im Mastering-Prozess so einfach lauter oder leiser machen.“

In dem Moment aber, wo es darum gehe, Kreativität durch KI zu ersetzen, schneide man sich den Ast ab, auf dem man sitzt, so Tomandl. „Musikmachen erfüllt uns ja mit etwas.“ Und das, so der Wiener Produzent, sei etwas, das uns als Menschen ausmacht. „Wenn man jetzt den Maschinen sagt, sie sollen das machen, und wir stehen daneben, und schauen zu, muss man sich schon fragen: Wieso?“ Freilich könne man niemandem verbieten, es von jemandem anderen machen zu lassen, aber „ich finde es schade, wen wir uns die Kreativität und die Chance auf künstlerischen Ausdruck nehmen“, so Tomandl. „Wir wollen doch die kreativen Dinge machen.“ Auf der anderen Seite stehe die KI mit ihrer geballten Rechenkraft, die auf großes Know-how zurückgreift und deshalb auch nicht zu stoppen sei. Derzeit arbeitet Tomandl etwa an der eine Synchronfassung für einen österreichischen Film. Gerade in diesem Bereich hält er die Entwicklung für unaufhaltsam. „Selbst wenn man mit Sprecher:innen solidarisch ist wie ich, fürchte ich, dass das in Zukunft nur noch von der KI gemacht werden wird.“ Zu viele Stimmen gäbe es, die da bereits angeboten werden.

Unabhängig voneinander erzählen Tomandl und Adam beide begeistert von einem Musikprojekt, das Thomas Rabitsch anlässlich des 70. Geburtstages, den Hansi Lang kommendes Jahr gefeiert hätte, ins Leben gerufen hat. „Er arbeitet da gerade an Material, das Hansi noch aufgenommen hat“, erzählt Adam. Um die Stimme des verstorbenen Sängers zu extrahieren und drumherum Musik bauen zu können, wurde KI genutzt. „Es ist der absolute Wahnsinn, was dadurch möglich ist und auf welche Art und Weise man Musik machen kann.“ Das sei großartig, so Adam, weil KI da so genutzt werde, dass es unsere Möglichkeiten, Musik zu machen, erweitert.

Ob wir wollen oder nicht, ob man in der Musikproduktion nun auf analoge Qualität und Eigenverantwortung setzt oder das schnelle, unkomplizierte Ergebnis bevorzugt, die Entwicklung schreitet voran. Die Algorithmen entwickeln sich, die Rechenleistung nimmt zu. KI wird selbst von ihren größten Kritiker:innen genutzt, und sei es nur, um etwas nicht von KI Produziertes besser zu machen. Die Märkte, allen voran der Markt für Gesprochenes und Synchronisiertes, sind bereits im Umbruch. Aber auch der Streaming-Markt hat sich in den letzten Monaten stark gewandelt: Täglich werden auf Spotify über 100.000 Songs hochgeladen. Wie viele davon bereits jetzt eine KI erstellt hat, weiß man nicht. Man vermutet aber, dass es über 50 Prozent sind. Das wären also bereits jetzt zwischen 60.000 und 70.000 mittels KI erstellte Songs, die täglich hochgeladen werden. Trotzdem glaubt Thomas Foster, dass die großen Hits dieser Welt auch in Zukunft nicht mit KI gemacht werden. Das seien Nerds, die jetzt so viel hochladen und sich freuen, wenn sie 1.000 Klicks bekommen. „Aber der neue Song von Beyonce oder Lady Gaga? Nein. Ich kann mir vorstellen, dass jemand mit KI arbeitet, um ihnen einen besseren Song zu machen, ja.“ Dass KI die Produzent:in beim Komponieren unterstützt, weil sie Musik kennt, „die ich noch nicht einmal gehört habe“, sei extrem reizvoll. „Da sitzen plötzlich Mozart, Prince und Michael Jackson neben dir und geben dir Tipps, wie du einen Song noch besser machen kannst“, erzählt er begeistert. „Eine Maschine, die das ganze Musikwissen der Welt mit sich bringt, um dich zu unterstützen.“

Links:
„Da sitzen plötzlich Mozart, Prince und Michael Jackson neben dir…” – THOMAS FOSTER im mica-Interview
„Analog hat einen anderen Sound, eine andere Greifbarkeit.” – DAVID PIRIBAUER im mica-Interview
„Wir leiden darunter, dass wir zwischen Kunst und Wirtschaft hängen.” – GEORG TOMANDL im mica-Interview
„Es geht immer darum, ein Potenzial zu spüren” – ZEBO ADAM im mica-Interview