Training eines Swiss Long Legal BERT Modells
Wir werden juristische Texte in deutscher, französischer und italienischer Sprache scrapen, um ein Schweizer Long Legal BERT-Modell zu trainieren, das NLP-Aufgaben in der Schweizer Rechtsdomäne besser erfüllen kann.
Fiche signalétique
- Département responsable Gestion
- Institut Institute for Public Sector Transformation
- Unité de recherche Digital Sustainability Lab
- Organisation d'encouragement Autres
- Durée (prévue) 15.12.2021 - 31.12.2022
- Responsable du projet Prof. Dr. Matthias Stürmer
- Direction du projet Joël Niklaus
-
Équipe du projet
Dr. Alperen Bektas
Adrian Joel Jörg
Veton Matoshi - Partenaire Schweizerisches Bundesgericht
Situation
Wir sehen eine klare Forschungslücke darin, dass BERT-Modelle, die lange mehrsprachige Texte verarbeiten können, derzeit noch zu wenig erforscht sind (Lücke 1). Außerdem gibt es unseres Wissens nach noch kein mehrsprachiges juristisches BERT-Modell (Lücke 2). Tay et al. [2020b] stellen einen Benchmark für die Bewertung von BERT-ähnlichen Modellen vor, die lange Eingaben verarbeiten können, und kommen zu dem vorläufigen Schluss, dass BigBird [Zaheer et al., 2020] die derzeit leistungsfähigste Variante ist.
Approche
Wir planen daher, ein BERT-ähnliches Modell (wahrscheinlich BigBird) auf mehrsprachige Langtexte vorzutrainieren, um die erste Forschungslücke zu schließen. Um die zweite Lücke zu schließen, planen wir, dieses Modell mit mehrsprachigen Rechtstexten weiter zu trainieren [Gururangan et al., 2020].