Generative KI für Klangkunst und Musikaufführung

Dieses Projekt erforscht das Potential generativer Künstlicher Intelligenz (KI) bei der Schaffung von Klangkunst.

Fiche signalétique

Départements participants Haute école des arts de Berne
Technique et informatique
Institut(s) Institut Interprétation
Institute for Data Applications and Security (IDAS)
Unité(s) de recherche Intersections de la musique contemporaine
IDAS / Applied Machine Intelligence
Organisation d'encouragement BFH
Durée (prévue) 01.10.2022 - 31.01.2023
Direction du projet Prof. Dr. Souhir Ben Souissi
Équipe du projet Prof. Dr. Teresa Carrasco
Franziska Baumann

Situation

Generative KI erobert die akademische und industrielle Welt im Sturm. Die Fähigkeit von Deep-Learning-Architekturen wie Transformern, textbasierte Gespräche mit Menschen zu führen, realistische und surrealistische Bilder anhand von Textbeschreibungen zu erzeugen oder plausible chemische Zusammensetzungen für die Wirkstoffforschung zu generieren, sind nur einige der ersten herausragenden Beispiele. An der BFH haben sich unsere Forschungs- und Lehraktivitäten rund um KI und Deep Learning bislang auf Computer Vision und NLP (Natural Language Processing) für Klassifizierung, Segmentierung, Regression, Vorhersage und Entscheidungsfindung konzentriert. Mit diesem Projekt wollen wir unser Portfolio auf die Inhaltsgenerierung ausweiten – mit einer faszinierenden und interdisziplinären Fallstudie: dem Einsatz generativer KI für die Klangkunst.

Approche

Das Projekt wird als Zusammenarbeit zwischen den Fachbereichen Ingenieurwesen und Kunst der BFH durchgeführt. Aus computergestützter Perspektive werden wir folgende Themen untersuchen: • Die Generierung von Songtexten mittels Transferlernen und LLMs (Large Language Models) sowohl im kooperativen (Mensch/Maschine) als auch im semi-unabhängigen Modus (künstliche Songtexte, die ausgehend von einem Ausgangspunkt erzeugt werden). • Die Generierung von MIDI-Partituren für verschiedene Musikgenres unter Verwendung von RNNs (rekursiven neuronalen Netzen) und Transformern. Dabei werden sowohl die Offline-Generierung (mit längeren Inferenzzeiten) als auch die Online-Generierung (mit in Echtzeit während einer Aufführung erzeugten Segmenten) untersucht. • Die Offline- und Echtzeit-Generierung kontextbezogener Visualisierungen (Bilder und Videosequenzen) unter Verwendung von Transferlernen und Diffusionsmodellen, die Live-Musikauftritte begleiten können.