Generative KI für Klangkunst und Musikaufführung

Dieses Projekt erforscht das Potential generativer Künstlicher Intelligenz (KI) bei der Schaffung von Klangkunst.

Steckbrief

Beteiligte Departemente Hochschule der Künste Bern
Technik und Informatik
Institut(e) Institut Interpretation
Institute for Data Applications and Security (IDAS)
Forschungseinheit(en) Schnittstellen der zeitgenössischen Musik
IDAS / Applied Machine Intelligence
Förderorganisation BFH
Laufzeit (geplant) 01.10.2022 - 31.01.2023
Projektleitung Prof. Dr. Souhir Ben Souissi
Projektmitarbeitende Prof. Dr. Teresa Carrasco
Franziska Baumann

Ausgangslage

Generative KI erobert die akademische und industrielle Welt im Sturm. Die Fähigkeit von Deep-Learning-Architekturen wie Transformern, textbasierte Gespräche mit Menschen zu führen, realistische und surrealistische Bilder anhand von Textbeschreibungen zu erzeugen oder plausible chemische Zusammensetzungen für die Wirkstoffforschung zu generieren, sind nur einige der ersten herausragenden Beispiele. An der BFH haben sich unsere Forschungs- und Lehraktivitäten rund um KI und Deep Learning bislang auf Computer Vision und NLP (Natural Language Processing) für Klassifizierung, Segmentierung, Regression, Vorhersage und Entscheidungsfindung konzentriert. Mit diesem Projekt wollen wir unser Portfolio auf die Inhaltsgenerierung ausweiten – mit einer faszinierenden und interdisziplinären Fallstudie: dem Einsatz generativer KI für die Klangkunst.

Vorgehen

Das Projekt wird als Zusammenarbeit zwischen den Fachbereichen Ingenieurwesen und Kunst der BFH durchgeführt. Aus computergestützter Perspektive werden wir folgende Themen untersuchen: • Die Generierung von Songtexten mittels Transferlernen und LLMs (Large Language Models) sowohl im kooperativen (Mensch/Maschine) als auch im semi-unabhängigen Modus (künstliche Songtexte, die ausgehend von einem Ausgangspunkt erzeugt werden). • Die Generierung von MIDI-Partituren für verschiedene Musikgenres unter Verwendung von RNNs (rekursiven neuronalen Netzen) und Transformern. Dabei werden sowohl die Offline-Generierung (mit längeren Inferenzzeiten) als auch die Online-Generierung (mit in Echtzeit während einer Aufführung erzeugten Segmenten) untersucht. • Die Offline- und Echtzeit-Generierung kontextbezogener Visualisierungen (Bilder und Videosequenzen) unter Verwendung von Transferlernen und Diffusionsmodellen, die Live-Musikauftritte begleiten können.