Generative KI für Klangkunst und Musikaufführung

Dieses Projekt erforscht das Potential generativer Künstlicher Intelligenz (KI) bei der Schaffung von Klangkunst.

Steckbrief

  • Beteiligte Departemente Hochschule der Künste Bern
    Technik und Informatik
  • Institut(e) Institut Interpretation
    Institute for Data Applications and Security (IDAS)
  • Forschungseinheit(en) Schnittstellen der zeitgenössischen Musik
    IDAS / Applied Machine Intelligence
  • Förderorganisation BFH
  • Laufzeit (geplant) 01.10.2022 - 31.01.2023
  • Projektleitung Prof. Dr. Souhir Ben Souissi
  • Projektmitarbeitende Prof. Dr. Teresa Carrasco
    Franziska Baumann

Ausgangslage

Generative KI erobert die akademische und industrielle Welt im Sturm. Die Fähigkeit von Deep-Learning-Architekturen wie Transformern, textbasierte Gespräche mit Menschen zu führen, realistische und surrealistische Bilder anhand von Textbeschreibungen zu erzeugen oder plausible chemische Zusammensetzungen für die Wirkstoffforschung zu generieren, sind nur einige der ersten herausragenden Beispiele. An der BFH haben sich unsere Forschungs- und Lehraktivitäten rund um KI und Deep Learning bislang auf Computer Vision und NLP (Natural Language Processing) für Klassifizierung, Segmentierung, Regression, Vorhersage und Entscheidungsfindung konzentriert. Mit diesem Projekt wollen wir unser Portfolio auf die Inhaltsgenerierung ausweiten – mit einer faszinierenden und interdisziplinären Fallstudie: dem Einsatz generativer KI für die Klangkunst.

Vorgehen

Das Projekt wird als Zusammenarbeit zwischen den Fachbereichen Ingenieurwesen und Kunst der BFH durchgeführt. Aus computergestützter Perspektive werden wir folgende Themen untersuchen: • Die Generierung von Songtexten mittels Transferlernen und LLMs (Large Language Models) sowohl im kooperativen (Mensch/Maschine) als auch im semi-unabhängigen Modus (künstliche Songtexte, die ausgehend von einem Ausgangspunkt erzeugt werden). • Die Generierung von MIDI-Partituren für verschiedene Musikgenres unter Verwendung von RNNs (rekursiven neuronalen Netzen) und Transformern. Dabei werden sowohl die Offline-Generierung (mit längeren Inferenzzeiten) als auch die Online-Generierung (mit in Echtzeit während einer Aufführung erzeugten Segmenten) untersucht. • Die Offline- und Echtzeit-Generierung kontextbezogener Visualisierungen (Bilder und Videosequenzen) unter Verwendung von Transferlernen und Diffusionsmodellen, die Live-Musikauftritte begleiten können.

Dieses Projekt leistet einen Beitrag zu den folgenden SDGs

  • 9: Industrie, Innovation und Infrastruktur
  • 17: Partnerschaften zur Erreichung der Ziele