Training eines Swiss Long Legal BERT Modells
Wir werden juristische Texte in deutscher, französischer und italienischer Sprache scrapen, um ein Schweizer Long Legal BERT-Modell zu trainieren, das NLP-Aufgaben in der Schweizer Rechtsdomäne besser erfüllen kann.
Steckbrief
- Lead-Departement Wirtschaft
- Institut Institut Public Sector Transformation (IPST)
- Forschungseinheit Digital Sustainability Lab
- Förderorganisation Andere
- Laufzeit (geplant) 15.12.2021 - 31.12.2022
- Projektverantwortung Prof. Dr. Matthias Stürmer
- Projektleitung Joël Niklaus
-
Projektmitarbeitende
Dr. Alperen Bektas
Adrian Joel Jörg
Veton Matoshi - Partner Schweizerisches Bundesgericht
Ausgangslage
Wir sehen eine klare Forschungslücke darin, dass BERT-Modelle, die lange mehrsprachige Texte verarbeiten können, derzeit noch zu wenig erforscht sind (Lücke 1). Außerdem gibt es unseres Wissens nach noch kein mehrsprachiges juristisches BERT-Modell (Lücke 2). Tay et al. [2020b] stellen einen Benchmark für die Bewertung von BERT-ähnlichen Modellen vor, die lange Eingaben verarbeiten können, und kommen zu dem vorläufigen Schluss, dass BigBird [Zaheer et al., 2020] die derzeit leistungsfähigste Variante ist.
Vorgehen
Wir planen daher, ein BERT-ähnliches Modell (wahrscheinlich BigBird) auf mehrsprachige Langtexte vorzutrainieren, um die erste Forschungslücke zu schließen. Um die zweite Lücke zu schließen, planen wir, dieses Modell mit mehrsprachigen Rechtstexten weiter zu trainieren [Gururangan et al., 2020].