KI in der Musikindustrie – Teil 4: KI in der Musikerkennung und Musikempfehlung

29. März 20245. Februar 2024

Die Musikerkennung war eines der frühen Anwendungsgebiete für künstliche Intelligenz. Die Musikerkennungssoftware fällt daher unter die erste bzw. zweite Welle der KI-Entwicklung der 2010-er Jahre, in denen auch die bekannten Chatbots wie Siri oder Alexa entwickelt wurden. Sie entspricht somit der schwachen KI bzw. der Artificial Narrow Intelligence (ANI), die zur Unterstützung alltäglicher Prozesse, wie dem Musikhören zum Einsatz gekommen ist. In diesem Teil der Serie „KI in der Musikindustrie“ wird nun erklärt, wie Musikerkennung und darauf aufbauend Musikempfehlung, wie sie in Musikstreamingdiensten verwendet wird, funktioniert.

Die Musikerkennung bei Shazam, so eindrucksvoll sie auch erscheinen mag, basierte ursprünglich nicht einmal auf künstlicher Intelligenz, wie Jovan Jovanovich in einem sehr ausführlichen Beitrag auf Expertenplattform Toptal erläutert.¹ Bereits 2003 hat der Shazam-Mitbegründer Avery Wang den Quellcode für den Fingerprinting-Algorithmus offengelegt. Vereinfacht gesagt, wird die analoge Schallwelle in ein digitales Signal umgeformt. Zu jedem Zeitpunkt können nun Frequenz und Amplitude der Schallwelle gemessen und eindeutig definiert werden. Mit einer sogenannten diskreten Fourier-Transformation wird nun die Zeitdomäne in die Frequenzdomäne umgewandelt, was sich mathematisch gut abbilden lässt. Statt der Zeitdimensionen sind jetzt nur noch die Frequenzen eines Songs und ihre Größenordnungen erkennbar. Genau das macht den Song musikalisch aus und wiedererkennbar. Aus dem damit gewonnen Frequenzmuster lässt sich nun der Fingerprint eines jeden Songs erstellen, der dann nur noch mit einer Songdatenbank abgeglichen werden muss, um den Song eindeutig zu identifizieren. Natürlich ist der ganze Prozess wesentlich komplizierter als hier beschrieben, aber in Grundzügen kann die Technologie so verstanden werden. In dem ganzen Erkennungsprozess spielt KI noch keine Rolle.

KI kommt dann ins Spiel, wenn Musikstücke nicht nur erkannt werden, sondern Kategorisierungen vorgenommen werden müssen. Tao Li et al. haben bereits 2009 in einem Artikel verschiedene Anwendungen des maschinellen Lernens für die Beschaffung und Verarbeitung von Musikdaten beschrieben.² Ein erstes Anwendungsgebiet ist das Zuordnen einzelner Musiktitel zu Musikgenres. Im ersten Schritt müssen die Eigenschaften eines Musikstücks herausgefiltert werden, wozu noch keine KI zum Einsatz kommen muss, wie wir am Fall von Shazam bereits gesehen haben. Beim nächsten Schritt, bei dem der Song einem Genre zugeordnet werden soll, braucht es allerdings die künstliche Intelligenz. Es handelt sich dabei nämlich um überwachte Lernprozesse, die mithilfe von gelabelten Daten durchgeführt werden. Die Daten werden dabei so markiert, dass sich Musikgenres voneinander abgrenzen lassen. Dabei kommen statistische Methoden wie die Gaussian Mixture Models (GMM), die Nächste-Nachbarn-Klassifikation, die Lineare Diskriminanzanalyse (LDA) oder Support Vector Machines (SVP) zum Einsatz.³ Wird nun ein neuer Musiktitel der Datenbank hinzugefügt, lernt das KI-System, Ähnlichkeiten zu erkennen und ordnet dann den Song einem Genre zu. Je mehr Songs die KI bereits analysiert hat, desto leichter fällt die Genre-Zuordnung.

Ein zweites Anwendungsgebiet der KI-Musikerkennung ist das Identifizieren von Emotionen in der Musik und die Zuordnung zu Gefühlsclustern. Im Grunde genommen ist diese Klassifikation sehr ähnlich der Genrezuordnung. Es muss eine Datenbank geschaffen werden, in dem die Musiktitel nach emotionalen Kategorien wie „träumerisch“, „heiter“ oder „traurig“ gelabelt werden. Es kommen dabei die gleichen statistischen Verfahren zum Einsatz, um die Cluster zu bilden, zu denen dann neue Musiktitel hinzugefügt werden können.⁴

Wesentlich anspruchsvoller ist die Identifikation der Musikstile von KünstlerInnen. Dabei spielen subjektive Einschätzungen eine große Rolle, die nicht so ohne Weiteres reproduziert werden können. Erschwerend kommt hinzu, dass nicht nur der Kompositionsstil, sondern auch der Songtext einen Einfluss auf den künstlerischen Stil hat. Um das abbilden zu können, schlagen die Autoren einen binominalen Cluster-Algorithmus vor, der für beide Variablen (Komposition und Text) zahlreiche Parameter zur Bestimmung des Stils heranzieht. Es kommen dabei vor allem multivariante statistische Verfahren zur Anwendung, die an dieser Stelle nicht erläutert werden können. Das Ziel ist es jedenfalls, dass ein neuer Song einem der Stile-Cluster, den das KI-System erstellt, zugeordnet werden kann.⁵

Der Schritt von der Musikerkennung zur Musikempfehlung ist rein technisch betrachtet nicht sehr groß. Es braucht dabei aber die Nutzungsdaten, um den Musik-KonsumentInnen passende Empfehlungen geben zu können. Die Forschung zur Musikempfehlung geht auf die frühen 2000-er Jahre zurück⁶ und ist seitdem explodiert, vor allem nachdem Musikstreaming zum wichtigsten Musikdistributionskanal geworden war.

Für ein Musikempfehlungssystem braucht es drei Komponenten: (1) die NutzerIn, (2) das Musikstück und (3) den Algorithmus, um für die NutzerIn das perfekte Musikstück zu finden. Um das bewerkstelligen zu können, werden möglichst viele NutzerInnen-Daten benötigt. Diese können aus dem Persönlichkeitsprofil einer NutzerIn gewonnen werden, die aus demographischen (Alter, Geschlecht, Familienstand, Ausbildungsniveau etc.), psychografischen (Ansichten, Meinungen, Bedürfnisse etc.) und geografischen Eigenschaften (Wohnort, Land/Stadt, Entfernung zu Ballungszentren etc.) bestehen, und aus der Erhebung der NutzerInnen-Präferenzen abgeleitet werden. Alle diese Informationen können entweder durch explizites Feedback wie Sternen-Ratings oder Likes der NutzerInnen oder durch implizites Feedback, das aus dem NutzerInnen-Verhalten indirekt abgeleitet wird, gewonnen werden. Die zweite Komponente, das Musikstück, wird einerseits durch die Metadaten, d.h. Titel, InterpretIn, KomponistIn, TextautorIn, Genre, Veröffentlichungsdatum etc. und andererseits durch die akustischen Eigenschaften des Stück wie z.B. Lautstärke und Frequenz beschrieben. Schließlich braucht es noch den Algorithmus, der mit den verfügbaren Daten rechnet, aber auch Feedback durch neue Daten verarbeitet, um passende Musik-Titelvorschläge für die NutzerInnen zu generieren.⁷

Grundsätzlich gibt es zwei Methoden, auf denen Musikempfehlungssysteme beruhen: das kollaborative Filter und das inhaltsbezogene Filtern. Der Begriff des kollaborativen Filterns taucht erstmals in einem Artikel aus dem Jahr 1992 auf, in dem mit Tapestry ein E-Mail-System des Xerox Palo Alto Research Institute beschrieben wurde, das in der Lage war, wichtige von unwichtigen E-Mails zu unterscheiden, also einer Frühform eines Spam-Filters. Für die Autoren bedeutet kollaboratives Filtern „(…) that people collaborate to help one another perform filtering by recording their reactions to documents they read.“⁸ Die zugrunde liegende Annahme beim kollaborativen Filtern besteht darin, dass zwei Personen, die das gleiche Musikstück anhören, möglicherweise auch ähnliche Musikstücke hören wollen, die sie noch nicht teilen. Wenn dieses Grundprinzip auf Basis sehr vieler Daten umgesetzt wird, steigt die Wahrscheinlichkeit, dass Personen, die die gleichen Musikstücke hören, den gleichen Geschmack haben. Letztendlich geht es beim kollaborativen Filtern darum, den Algorithmus so mit Inputdaten zu trainieren, dass er möglichst exakte Vorhersagen über die Musikvorlieben einer Person treffen kann. Su und Khoshgoftaar identifizieren folgende algorithmische Grundtechniken, die das kollaborative Filtern ermöglichen, die noch weiter technisch differenziert werden können:⁹

Das Memory-based Filtern berechnet die Distanzen zwischen den erhobenen Daten und versucht ähnliche NutzerInnen bzw. Produkte zu identifizieren, wie das beim Online-Händler Amazon der Fall, der seinen NutzerInnen den Vorschlag macht: „Das könnte Sie auch interessieren“. Die Ähnlichkeiten können mit unterschiedlichen mathematisch-statistischen Verfahren erhoben und dann zur Vorhersage benachbarter Datenpunkte eingesetzt werden. Daraus lassen sich auch Top-Listen generieren, die dem eigenen Nutzungsverhalten am ehesten entsprechen.¹⁰
Das Model-based Filtern bedient sich des maschinellen Lernens auf Basis von Bayesschen Modellen, statistischen Clusteranalysen oder Dependenznetzwerken, um komplexe Strukturen und Zusammenhänge im Datenmaterial ausfindig zu machen. Es handelt sich dabei bereits um einen lernenden Algorithmus, der auch in der Lage ist, sich an neue Daten zu anzupassen, um seine Empfehlungen zu verbessern.¹¹

Beim inhaltsbasierten Filtern werden die Eigenschaften eines Produkts, z.B. eines Musikstücks erhoben und mit den erhobenen Präferenzen und Bedürfnissen von NutzerInnen verknüpft. Es geht auch bei dieser Methode darum, Nutzungsmuster zu erkennen, um Vorhersagen über zukünftige Nutzungen machen zu können. Unterschieden wird dabei zwischen Low-Level- und High-Level-Filtern. Beim Low-Level-Filtern werden zur Analyse nur die Metadaten eines Songs wie der Titel, InterpretIn, KomponistIn/AutorIn etc. herangezogen, wohingegen beim High-Level-Filtern auch akustische Eigenschaften wie Tempo, Tonhöhe, Lautstärke sowie Instrumentierung in die Analyse einfließen.¹²

Neben den beiden Grundformen – kollaboratives Filtern und inhaltsbasiertes Filtern – gibt es noch weitere Methoden wie das hybride kollaborative Filtern, das die Vorteile des kollaborativen mit dem inhaltsbasierten Filtern kombiniert oder das emotionsbasierte Filtern, das aufgrund großer Datenmengen Gemütszustände zu differenzieren und daraus Musiknutzungen abzuleiten versucht. Schließlich ist noch das kontext-basierte Filtern zu nennen, bei dem veröffentliche Meinungen und Informationen bezüglich der Musikstücke, ihrer InterpretInnen oder Musikgenres gesammelt werden, um Vorhersagen über das Nutzungsverhalten abzuleiten.¹³ Alle diese Musikempfehlungs-Algorithmen können mit Verfahren künstlicher Intelligenz, die wir vorab bereits besprochen haben, wie künstliche neuronale Netzwerke (KNN), rekurrente neuronale Netzwerke (RNN) und gefaltete neuronale Netzwerke (CNN), also Deep-Learning-KI, weiterentwickelt werden.

Peter Tschmuck

Dieser Artikel erschien erstmal am 5. Feber 2024 auf der Seite https://musikwirtschaftsforschung.wordpress.com/2024/02/05/ki-in-der-musikindustrie-teil-4-ki-in-der-musikerkennung-und-musikempfehlung/#like-5288

Peter Tschmuck ist Professor am Institut für Popularmusik (ipop) der mdw.

Endnoten

Jovan Jovanovic, „How does Shazam work? Music Recognition Algorithms, Fingerprinting, and Processing“, Toptal-Blog, o.D., Zugriff am 01.12.2023. ↩︎
Tao Li et al., 2009, „Machine Learning Approaches for Music Information Retrieval“, in: Meng Joo Er und Yi Zhou (Hg.), Theory and Novel Applications of Machine Learning, Wien: I-Tech, S. 259-278. ↩︎
Ibid., S. 261-263. ↩︎
Ibid., S. 263-264. ↩︎
Ibid., S. 264-269. ↩︎
Zu erwähnen sind die Arbeiten von Hung-Chen Chen und Arbee L.P. Chen, 2001, „A music recommendation system based on music data grouping and user interests“, CIKM ’01: Proceedings of the 10^th International Conference on Information and Knowledge Management, Oktober 2001, S. 231-238; Alexandra L. Uitdenbogerd & Ron G. van Schyndel, 2002, „A Review of Factors Affecting Music Recommender Success“, Proceedings of the ISMIR 2002, 3^rd International Conference on Music Information Retrieval, Paris, S. 204-208 und John Platt et al., 2002, „Learning a Gaussian Process Prior for Automatically Generating Music Playlists“, Advances in Neural Information Processing Systems, Vol. 14, S. 1425-1432. ↩︎
Siehe dazu ausführlich Dushani Perera et al., 2020, „A Critical Analysis of Music Recommendation Systems and New Perspectives“, in: Human Interaction, Emerging Technologies and Future Applications II, Proceedings of the 2^nd International Conference on Human Interaction and Emerging Technologies: Future Applications (IHIET – AI 2020), 23.-25. April 2020 in Lausanne, S. 82-87. ↩︎
David Goldberg et al., 1992, „Collaborative Filtering to Weave an Information Tapestry“, Communications of the ACM, Vol. 35(12), S. 61-70. ↩︎
Eine genaue Übersicht über die drei Grundtechniken des kollaborativen Filterns inklusive der Abwägung der Vor- und Nachteile jeder Technik findet sich bei Xiaoyuan Su & Taghi M. Khoshgoftaar, 2009, „A Survey of Collaborative Filtering Techniques“, Advances in Artificial Intelligence, Article ID 421425, S. 3, https://doi.org/10.1155/2009/421425. ↩︎
Ibid., S. 5-8. ↩︎
Ibid., S. 8-11. ↩︎
Perera et al., a.a.O., S. 85. ↩︎
Ibid., S. 85-86. ↩︎

Heute

Montag

Dienstag

Mittwoch

Donnerstag

Freitag

Samstag

Sonntag

3:00 PM - Workshop: How to Showcase (in Kooperation mit VTMÖ)