„Da sitzen plötzlich Mozart, Prince und Michael Jackson neben dir…” – THOMAS FOSTER im mica-Interview

THOMAS FOSTER hat gemeinsam mit seinem Partner Peter Kent schon so manche eingängige Kennmelodie komponiert. Ob für Zeit im Bild im ORF oder Radiostationen in New York und Moskau, seine Signations rotieren. Aber auch darüber hinaus produziert er am laufenden Band House-Tracks und vieles mehr. In einer aktuellen 3-Sat-Doku über den Einsatz von Künstlicher Intelligenz in der Musik fungiert er als Hauptprotagonist. Und er schreibt ein Buch über Musikproduktion mit KI. Höchste Zeit, um mit ihm genau darüber zu sprechen: Wo künstliche Intelligenz die menschliche Stimme oder die Musiker:in ersetzen kann, wo nicht, wer in Zukunft die Hits schreibt und was richtige Kunst letztlich ausmacht.

Wie bist du zum Musikproduzieren gekommen?

Thomas Foster: Ich habe schon in jungen Jahren mit meiner Familie in der Kirche musikziert. Wir haben Songs von den Beatles gespielt. “Uh, i need your love” hat mein Vater in “Oh, Herr du bist heilig” umgetextet. Das war mir aber egal, ich saß mit meinen sieben Jahren am Schlagzeug und fühlte mich wie Ringo Starr. Einmal kam ein junger Mann zu mir ans Schlagzeug, auch in meinem Alter, und meinte: „Wenn ich mal auf deinem Schlagzeug spielen darf, darfst du auf meiner Orgel spielen.” Der junge Mann hieß Peter Kent, und das war der Beginn unserer Zusammenarbeit. Mit Peter habe ich heute noch eine Firma. Gemeinsam produzieren wir Musik für Radio- und Fernsehstationen auf der ganzen Welt.

So lange kennt ihr euch?

Thomas Foster: So lange kennen wir uns und so lange machen wir gemeinsam Musik, ja. Damals mit sieben haben wir unsere erste Band, die “Flying Potatoes” gegründet. Mit einundzwanzig gingen wir zu Ö3, weil wir wollten, dass sie unsere Musik spielen. Wir hatten einen tollen Hit: “Flying is better than Sex”. Wie auch immer wir auf diesen Titel kamen, sie haben unseren Hit jedenfalls nicht gespielt. Trotzdem kam es dazu, dass wir bald erste Jingles für sie produziert haben. Für Karl Kaltenegger, danach für Dominic Heinzl, der damals die Jugendsendung “Treffpunkt Ö3” hatte. Dann kamen die Macher anderer Sendungen und meinten, sie seien doch viel besser als der Ö3-Wecker etc. So ging es los und so kam es, dass wir in relativ kurzer Zeit für den ganzen Ö3 die Jingles machten, vor den Nachrichten, während der Verkehrsdurchsage etc. Dann gab es eine große Ausschreibung fürs Fernsehen, die wir gewannen. So haben wir die Zeit im Bild-Signation, die heute noch so klingt wie damals – auch wenn sie in Zwischenzeit jemand neu produziert hat. Die Komposition ist immer noch die gleiche, auf dem Donauwalzer basierende. Es folgte Musik fürs Kinderfernsehen, verschiedene Magazine, fürs gesamte Fernsehen. Wir haben mit deutschen Radiostationen angefangen, aber wenn du heute mit dem Taxi durch New York fährst, ist die Chance groß, dass du unsere Musik hörst, denn 1010 wins, die erfolgreichste Radiostation, spielt alle zwanzig Minuten unseren Opener, den wir mit echtem Orchester produziert haben. Auch in Moskau hörst du uns auf vielen erfolgreichen Radiostationen und für RTL haben wir die Nachrichtenmusik produziert.

Wie kamst du zum Thema KI?

Thomas Foster: Ich war immer schon jemand, den technische Innovationen begeistert und fasziniert haben. Auch das zehnte Plug-In noch. Selbst wenn ich schon neun habe, die alle das gleiche können, muss ich auch das zehnte ausprobieren und mich damit auseinandersetzen, mich damit beschäftigen. Neue Technik war immer etwas Großartiges für mich und ich habe darin nie etwas Negatives gesehen. Was mich früh begeistert hat, ist, mit KI Gesang zu machen. Ich erinnere mich noch gut an das erste Programm, mit dem ich Gesang erzeugen konnte, d.h. Noten und Text eingegeben konnte und Gesang bekam. Das hat furchtbar geklungen, eine hölzerne Roboter-Stimme. Aber da ging es schon in der Theorie. Mittlerweile geht es so, dass kein Mensch mehr den Unterschied hört. Monika Ballwein, eine österreichische Sängerin, die erst neulich Leadsängerin beim Queen-Musical war, habe ich im Rahmen einer 3Sat-Doku meine verschiedenen Versionen meiner Produktionen vorgespielt und sie musste erraten, welcher Song von einem echten Menschen gesungen und welchen ich komplett mit KI generiert habe.

Wie ging es aus?

Thomas Foster: Die Fehlerquote lag bei 80%. Das habe ich mir nicht gedacht. Ich dachte, sie hört den Unterschied. Dass die Fehlerquote über 50% liegt, ist natürlich auch Pech, denn selbst wenn du nur rätst, hast du immer eine 50:50-Chance. Aber bei acht von zehn Beispielen lag sie falsch.

Warum hat sie keinen Unterschied gehört, denkst du? Weil die KI-erzeugte Musik bereits so gut ist?

Thomas Foster: Ja, wenn nicht einmal jemand, der sich täglich intensiv mit dem Thema Gesang auseinandersetzt, mehr den Unterschied hört, ist das Thema durch.

Bild Thomas Foster
Thomas Foster (c) Marc Stickler

Was hat das für Auswirkungen auf die Produktionsweise von Musik?

Thomas Foster: Ich finde darin zunächst einmal etwas Positives, weil Gesang bisher ein schwieriges Thema war, auch wenn ich gern mit anderen Menschen arbeite und den Austausch mit Menschen toll finde. Die Abhängigkeit von anderen Menschen ist nicht so gut. Du schreibst einen tollen Song und bist in einem Workflow, hast Spaß am Arbeiten, und jetzt kommt das Thema Gesang. Bisher hieß das: Arbeit abbrechen, die komponierte Musik mit einem Klavier rausspielen, Sänger kontaktieren. Wenn es Englisch sein soll, gibt es wenige, die aktenzfrei Englisch singen, also vielfach dann doch eher in L.A. und London aufnehmen etc. Bis die Dame oder der Herr ins Studio geht, vergehen zwei Wochen, das heißt das Projekt steht erst einmal zwei Wochen und es kostet eine Menge Geld, weil das Studio und die Sängerin bezahlt werden müssen. Und wenn du Pech hast, kriegst du ein Resultat, mit dem du nicht zufrieden bist, und das Ganze geht von vorne los. Jetzt bleibe ich im kreativen Flow, und probiere den Gesang erst einmal mit KI, gebe die Noten ein, den Ton mit weniger Vibrato, den Ton ein bisschen kürzer, den ein bisschen länger und so weiter. Die Kreativität, die vorher zur Sängerin ging, ist wieder bei mir. Für mich ist das großartig. Dass das für Sänger:innen fruchtbar ist, steht auf einem andere Blatt. Aber Sänger:innn waren das letzte Glied in der Kette. Schon in den 1980ern fing man an, das Schlagzeug am Computer zu machen. Mittlerweile laufen Serien auf Netflix, wo kein Orchester mehr gespielt hat, sondern nur noch jemand am Computer saß. D.h. das wurde nicht von 80 Leuten eingespielt, sondern von nur einem Menschen am Computer erzeugt. Jetzt ist es halt beim Gesang auch so. Ich liebe es nach wie vor, mit echten Menschen zu arbeiten, aber allein der Umstand, dass ich einmal ein Demo machen kann, um zu zeigen, wie ich´s gerne hätte, ist eine tolle Sache.

Du machst also erst mal ein Demo mit der KI, um zu vermitteln, in welche Richtung das Projekt gehen soll. Aber was beeinflusst dann die Entscheidung, es letztlich doch mit einer echten Sängerin zu machen oder es bei der KI-Version zu belassen? Sind das qualitative Erwägungen oder liegt es letztlich nur am Geld?

Thomas Foster: Ich würde nicht sagen, dass die Qualität den Ausschlag gibt. Du brauchst echt gute Sänger, damit die Qualität gleich gut ist wie mit KI. Manchmal haben Sänger natürlich auch besondere Qualitäten, die besser sind als eine KI. Ein Label kam neulich auf mich zu: Wir haben Gesang von Jan Johnston. Die sagt nicht jedem etwas, aber alle großen Trance-DJs wie Armin von Buren, Tiesto, Paul van Dijk und wie sie alle heißen, haben mit ihr gearbeitet. Wenn mein nächster Track von ihr gesungen wird, ist das großartig. Es war toll sie kennenzulernen und mit ihr zu arbeiten …

…und Johnston kennen auch andere.

Thomas Foster: Sie hat Leute, die ihr folgen, ja. Wenn ich einen Song mit ihr rausbringe, sind nicht nur die Leute, die mir folgen, interessiert, sondern auch die, die ihr folgen. Ihre Fans. Das ist eine tolle Geschichte. Ähnlich ist es, wenn David Guetta etwas von jemandem einsingen lässt, ohne mich mit ihm vergleichen zu wollen. Aber er könnte auch mit KI arbeiten, es ist allerdings ein zusätzlicher Marketing-Aspekt, wenn er sagen kann, er hat einen neuen Track mit dem Sänger von One Republic gemacht. Das macht die Geschichte interessanter.

Hat KI deine Produktionsweise verändert?

Thomas Foster: Da, wo ich mit Gesang arbeite – und das ist bei Songs, die unter meinem Namen erscheinen, der Fall – ja, total. Gerade gestern habe ich eine Kooperation mit einem erfolgreichen DJ gestartet. Er hatte die Idee, aus einem Song von Blondie eine moderne Dance-Version zu machen. Ich meinte: „Schick mir den rüber und ich mach gleich mal den Gesang mit KI dazu.” Darauf er: „Ja, aber wir werden doch wohl nicht KI in der Endproduktion verwenden, oder?” Ich antwortete: „Muss nicht sein, nein. Aber lass uns mal arbeiten und wenn uns am Schluss der Gesang nicht gefällt, dann lassen wir das von jemandem einsingen. Kein Thema.” Am nächsten Tag schicke ich ihm erste Beispiele, wie das klingen kann. Darauf hat er zurückgeschrieben: „Oh, mein Gott. Ich wusste nicht, dass das Thema schon so weit ist. Das klingt ja großartig. Natürlich nehmen wir den Gesang.” Derzeit geht es im Bereich Gesang halt nur auf Japanisch, Chinesisch und Englisch, auf Deutsch noch nicht.

Bild Thomas Foster
Thomas Foster (c) Marc Stickler

Was verwendest du?

Thomas Foster: UDIO und Suno sind die Tools, die ich verwende, um Gesang zu erzeugen, das geht bislang nur auf diesen drei Sprachen. Mein Haupt-Tool nennt sich Synthesizer V. Auf lalals.com kannst du deine Stimme in die von Ed Sheeran, Madonna oder Michael Jackson umwandeln. Dann gibt es noch zwei, drei andere Tools, aber das sind die wichtigsten.

Du schreibst auch ein Buch über KI. Warum und worum wird es darin gehen?

Thomas Foster: Mein Thema ist die Musikproduktion. Da liegt meine Tätigkeit und genau da habe ich auch meinen Youtube-Channel gestartet, der mittlerweile 70.000 Abonnenten hat und wo ich ständig Videos zum Thema Musikproduktion veröffentliche. Natürlich ist da ein Thema, was es Neues gibt.  Welche Features gibt es? Welche neuen Plug-Ins gibt es? Und eines der größten Themen ist KI. Ich glaube, KI wird die Art wie wir Musik produzieren, noch mehr revolutionieren, als es der Computer getan hat. Das war ein massiver Wechsel von der Tonbandmaschine, dem Mischpult und echten Synth zum Computer. Aber was jetzt schon mit KI möglich ist und was möglich sein wird, wird viel größer sein.

Inwieweit, inwiefern? Was wird es uns ermöglichen außer der Substitution einer Stimme? Wohin geht die Reise?

Thomas Foster: Das erste ist mal, wie wir Klänge erschaffen. Wenn wir heute ein Klavier in einer Musikproduktion verwenden, ist es selten ein echtes Klavier. In 99,9% der Fälle verwenden wir Sampling. Jeder Ton, jede Taste, wurde von einem echten Instrument aufgenommen. Wenn ich von einem Midi spiele, werden die Töne so abgerufen, dass es klingt, als würde ich auf einem echten Klavier spielen. Ob ganze Orchester, Gitarren oder Bass – das basiert alles auf Sampling-Technologie. Das wird irgendwann als Simulation kommen, die noch echter klingt und noch leichter zu bedienen ist. Sampling wird also durch KI ersetzt. Und dann haben wir noch Komposition und Arrangement, wofür ich im Moment noch 99 Spuren brauche und für jede dieser Spuren die Noten selber erzeugen muss. Drei Minuten zu 99 Spuren erklärt, warum ich eine gewisse Zeit brauche – nämlich zwei, drei Tag, um einen Song zu erzeugen. Hier könnte die KI massiv unterstützen, sodass ich nur noch die Grundkomposition eingebe, und die KI unterstützt mich beim Arrangement, um schneller und effektiver zu arbeiten.

Neben der Musikproduktion betreibst du auch einen Podcast. Wie kamst du dazu?

Thomas Foster: Jemand, der Podcasts macht, kam auf mich zu und meinte, ich solle einen machen. Why not? dachte ich, aber wie macht man denn das? Ein befreundeter Moderator und Kabarettist, Bernhard Baumgartner, hat dann gemeint, er würde als Moderator fungieren und mir die Fragen stellen. Ja, und dann haben wir das eine Zeit lang, etwa dreißig Folgen lang, gemeinsam gemacht. Als Kabarettist hat er einen enormen Entertainment-Faktor reingebracht. Die Leute haben genau das geschätzt: Dass es entertaint, aber trotzdem Inhalt hat.

Wie kommt der Podcast an? Und bringt er Geld?

Thomas Foster: Die letzten Zahlen waren 15.000-20.000 Leute pro Folge. Es gibt Ausreißer, d.h. einmal sind es nur 5.000 und einmal 30.000. Was das Geld anbelangt: In dem Bereich, in dem ich mich bewege, ist das finanziell uninteressant. Es sind schon ein paar hundert Euro pro Monat, aber dafür ist es zu viel Arbeit. “Standing” ist vielleicht das beste Wort, um es zu erklären. Es hilft mir, meine eigene Musik und meine Bücher zu promoten.

Wie kam es zur 3Sat-Doku (Sendetermin 31.08.2024, 19:20 – 20:00)?

Thomas Foster: Ich habe ein Video produziert, als Suno komplett neu war. Das Video hatte den Titel “Ich bin arbeitslos”. Ich habe mit der KI herumexperimentiert und während das mittels KI erzeugte Lied lief, habe ich darauf reagiert. Am Schluss habe ich gesagt: „Okay, jetzt bin ich arbeitslos.” Normalerweise habe ich 1.000, 2.000 Clicks. Dieses Video hatte auf einmal 100.000 Clicks, und das hat offenbar jemand bei 3Sat gesehen. Deshalb sind sie auf mich zugekommen und haben sich einmal angeschaut, ob ich wirklich etwas zu sagen habe und dann entschieden, dass ich der Hauptprotagonist der Sendung werde.

Du bist aber doch nicht der einzige Musikproduzent, der sich mit KI beschäftigt, oder?

Thomas Foster: Nein, vielleicht gibt es sogar welche, die sich noch intensiver damit beschäftigen. Aber jedes Programm, das mit KI Musik machen kann, habe ich auch getestet. Ich habe mich extrem intensiv damit auseinandergesetzt, wie man mit KI Musik produziert. Und jemand, der noch dazu ein Buch darüber schreibt und einen Youtube-Channel hat, in dem es darum geht, davon gibt es vielleicht nicht so viele.

Wir haben noch gar nicht über die Angst gesprochen, ersetzt zu werden. Sprecher, Sänger, Musikproduzenten – es gibt eine ganze Reihe von Berufen, die durch KI konkurrenziert werden. Du scheinst gar keine Angst zu haben. Warum?

Thomas Foster: Dass ich keine Angst habe, stimmt nicht. Aber ich bin immer so begeistert und fasziniert von der Technik, dass erst mal die positive Emotion überwiegt. Dieses “Wow, was kann ich denn da Cooles damit machen?” ist eine Emotion, die ich einfach in mir trage. Ich bin ganz allgemein ein positiver Mensch, der erst mal das Positive sieht. Das ist halt so eine Charaktereigenschaft, die man nur schwer ändern kann. Ich denke viel darüber nach und rede viel mit anderen Menschen. Ich glaube auch nicht, dass die KI uns ersetzt und die Hits von morgen macht.

Was macht dich da so sicher?

Thomas Foster: Täglich werden auf Spotify über 100.000 Songs hochgeladen. Wie viele davon bereits jetzt eine KI erstellt hat, weiß man nicht. Man vermutet aber, dass es über 50% sind. Wir reden also von 60.000 bis 70.000 mittels KI erstellten Songs, die täglich hochgeladen werden.

Trotzdem glaube ich, dass die großen Hits dieser Welt, die musikalisch relevant sind, auch in Zukunft nicht mit KI gemacht werden. Das sind jetzt Freaks, die hochladen und sich freuen, wenn sie 1.000 Clicks bekommen, aber der neue Song von Beyonce oder Lady Gaga? Ich kann mir vorstellen, dass jemand mit KI arbeitet, um ihnen einen besseren Song zu machen. Dass mich als Produzent die KI beim Komponieren unterstützt und Musik kennt, die ich noch nicht einmal gehört habe, ist extrem reizvoll. Da sitzen plötzlich Mozart, Prince und Michael Jackson neben dir und geben dir Tipps, wie du einen Song noch besser machen kannst. Eine Maschine, die das ganze Musikwissen der Welt mit sich bringt, um dich zu unterstützen.

Bild Thomas Foster
Thomas Foster (c) Marc Stickler

Du glaubst aber nicht, dass du dich beim Komponieren deshalb zurücklehnen kannst?

Thomas Foster: Doch, das wird schon funktionieren, aber die großen Hits werden weiter von Menschen gemacht, die sich von KI vielleicht unterstützen lassen, nicht von KI alleine. Das glaube ich, man kann das natürlich auch anders sehen und ich kann mich auch täuschen, klar.

Die KI ist gut darin, bestehende Musikstile zu kopieren. In der Hinsicht ist sie ein viel besserer Komponist als ich. Die hat nahezu jeden Song dieser Welt gehört und kann dieses Wissen in einen Song reinstecken. Wenn ich einen Samba-Song komponieren soll, höre ich mir da ein paar Songs an, aber die KI kann beim Replizieren auf einen viel größeren Fundus zurückgreifen. Wenn es jedoch darum geht, etwas Neues zu erschaffen, das es noch nicht gibt, dann muss ich Dinge ausprobieren, mir die Sachen kritisch anhören und entscheiden. Zwanzig Dinge sind nicht so gut und das 21. ist auf einmal genial. Ich glaube nicht, dass die KI imstande ist, zu erkennen, was genial ist und was nicht. Sich etwas anhören und Emotionen dazu entwickeln, reflektieren und wissen, wie man das vermarkten soll. Dafür gibt es Künstler:innen und die wird es auch in Zukunft geben. Ich glaube auch, dass Menschen Menschen folgen wollen, Lady Gaga auf der Bühne sehen oder sehen wollen, wie David Guetta seine Arme ausbreitet. Sie wollen Emotion durch die Künstlerin und den Künstler spüren. Eine KI kann das nur simulieren. Auf Dauer wird wahre Kunst von Menschen geschaffen.

Ist der Markt im Umbruch?

Thomas Foster: Der Markt verändert sich drastisch und das schon länger, als KI auf dem Markt ist. Früher bekamen wir Anfragen für Musik für einen Anrufbeantworter. Warum? Weil es keine Alternative gab. Entweder nehme ich Mozart oder lasse etwas komponieren. Heute gibt es schon riesige Libraries, und Unternehmen fahren günstiger, wenn sie Musik aus diesen Libraries nehmen. In Zukunft wird das halt viel mehr KI machen. Dass du mithilfe KI eine Musik schaffst, die dir als Unternehmer eine CI gibt. Das passiert schon und das wird noch intensiver passieren. Überall dort, wo Geld gespart werden muss, spielt das eine Rolle.

Im unteren und mittleren Segment wird das viele Jobs kosten. Aber die großen Werbespots werden weiterhin so entstehen wie bisher: Ein Unternehmen wie Mercedes will die beste Musik haben. Ob die 2.000 oder 20.000 Euro kostet, ist erst mal egal. Ich kann mir nicht vorstellen, dass dort so schnell jemand etwas prompten wird. Die werden nach wie vor die besten drei Firmen einladen. Wie die das dann machen, sei dahingestellt, aber sie werden weiterhin auf die beste Qualität setzen.

Vielen Dank für das Gespräch.

Markus Deisenberger

++++

Link:
Foster Kent