Training eines Swiss Long Legal BERT Modells

Wir werden juristische Texte in deutscher, französischer und italienischer Sprache scrapen, um ein Schweizer Long Legal BERT-Modell zu trainieren, das NLP-Aufgaben in der Schweizer Rechtsdomäne besser erfüllen kann.

Fiche signalétique

  • Département responsable Gestion
  • Institut Institute for Public Sector Transformation
  • Unité de recherche Digital Sustainability Lab
  • Organisation d'encouragement Autres
  • Durée (prévue) 15.12.2021 - 31.07.2022
  • Responsable du projet Prof. Dr. Matthias Stürmer
  • Direction du projet Joël Niklaus
  • Partenaire Schweizerisches Bundesgericht

Situation

Wir sehen eine klare Forschungslücke darin, dass BERT-Modelle, die lange mehrsprachige Texte verarbeiten können, derzeit noch zu wenig erforscht sind (Lücke 1). Außerdem gibt es unseres Wissens nach noch kein mehrsprachiges juristisches BERT-Modell (Lücke 2). Tay et al. [2020b] stellen einen Benchmark für die Bewertung von BERT-ähnlichen Modellen vor, die lange Eingaben verarbeiten können, und kommen zu dem vorläufigen Schluss, dass BigBird [Zaheer et al., 2020] die derzeit leistungsfähigste Variante ist.

Approche

Wir planen daher, ein BERT-ähnliches Modell (wahrscheinlich BigBird) auf mehrsprachige Langtexte vorzutrainieren, um die erste Forschungslücke zu schließen. Um die zweite Lücke zu schließen, planen wir, dieses Modell mit mehrsprachigen Rechtstexten weiter zu trainieren [Gururangan et al., 2020].