Training eines Swiss Long Legal BERT Modells

Wir werden juristische Texte in deutscher, französischer und italienischer Sprache scrapen, um ein Schweizer Long Legal BERT-Modell zu trainieren, das NLP-Aufgaben in der Schweizer Rechtsdomäne besser erfüllen kann.

Steckbrief

Ausgangslage

Wir sehen eine klare Forschungslücke darin, dass BERT-Modelle, die lange mehrsprachige Texte verarbeiten können, derzeit noch zu wenig erforscht sind (Lücke 1). Außerdem gibt es unseres Wissens nach noch kein mehrsprachiges juristisches BERT-Modell (Lücke 2). Tay et al. [2020b] stellen einen Benchmark für die Bewertung von BERT-ähnlichen Modellen vor, die lange Eingaben verarbeiten können, und kommen zu dem vorläufigen Schluss, dass BigBird [Zaheer et al., 2020] die derzeit leistungsfähigste Variante ist.

Vorgehen

Wir planen daher, ein BERT-ähnliches Modell (wahrscheinlich BigBird) auf mehrsprachige Langtexte vorzutrainieren, um die erste Forschungslücke zu schließen. Um die zweite Lücke zu schließen, planen wir, dieses Modell mit mehrsprachigen Rechtstexten weiter zu trainieren [Gururangan et al., 2020].

Dieses Projekt leistet einen Beitrag zu den folgenden SDGs

  • 9: Industrie, Innovation und Infrastruktur
  • 16: Frieden, Gerechtigkeit und starke Institutionen