Datenintegration Holzwirtschaft
Die BFH Gruppe um Linked Data wurde von der Sektion Holz- und Waldwirtschaft im BAFU beauftragt, die Daten der Holzwirtschaft als Linked Data zu publizieren.
Fiche signalétique
- Départements participants Gestion
- Institut(s) Institute for Public Sector Transformation
- Organisation d'encouragement Autres
- Durée (prévue) 01.05.2025 - 31.01.2026
- Direction du projet Prof. Dr. Thomas Gees
-
Équipe du projet
Prof. Dr. Thomas Gees
Dr. Benedikt Simon Hitz
Melanie Senn
Prof. Dr. Jan Thomas Frecè - Partenaire Bundesamt für Umwelt BAFU, Sektion Holzwirtschaft und Waldwirtschaft
- Mots-clés Linked Open Data, Datenintegration, Lindas, Visualize, Data Management, Datenpublikation, Open Government Data
Situation
Die Sektion Holz- und Waldwirtschaft beauftragte das Projektteam der BFH mit der Integration von zwölf sektionsspezifischen Erhebungen in LINDAS. Ziel war einerseits die Vorbereitung einer künftigen digitalen Publikation des Jahrbuchs Wald und Holz mittels interaktiver Visualisierungen, andererseits die nachhaltige Stärkung der Daten als wiederverwendbare, verknüpfbare Ressource innerhalb und ausserhalb der Bundesverwaltung. Aufgrund begrenzter Ressourcen, fehlender stabiler Ausgangsformate sowie bestehender Abhängigkeiten zu anderen Verwaltungseinheiten wurde im Projektverlauf eine Priorisierung der Erhebungen vorgenommen.
Approche
In Abstimmung mit dem Auftraggeber wurde eine Methodik gewählt, die stark auf automatisierten Datenpipelines basiert. Diese Entscheidung erfolgte vor dem Hintergrund, dass die Datenintegration nicht als einmalige Aufgabe, sondern als wiederkehrender Prozess konzipiert ist. Automatisierte Pipelines ermöglichen ein iteratives Vorgehen mit geringem Aufwand bei Anpassungen (z. B. Übersetzungen, Wechsel zu Shared Dimensions ). Das von der Sektion Umweltdaten entwickelte Tool pylindas wurde zur Erstellung der Datenpipelines eingesetzt. Es basiert auf Python und erlaubt bei entsprechendem Grundwissen die Umsetzung und Pflege automatisierter Integrationsprozesse. Zu LINDAS gehört eine GitLab-Instanz, die dazu dient, Datenpipelines zu erstellen und auch auszuführen. Damit kann der Prozess der Integration völlig unabhängig von der Verfügbarkeit von lokal installierten Tools einzelner Mitarbeitenden ausgeführt werden. Ausserdem erlaubt die Nutzung von GitLab auch, ein Issue-Management zu betreiben, bei dem offene Punkte gezielt benannt und abgearbeitet werden können. Damit stellt das GitLab auch eine Brücke zwischen Mitarbeitenden aus dem Fach und aus dem Datenbereich dar.
Résultat
Mehrere zentrale Erhebungen (das Forstwirtschaftliche Testbetriebsnetz, Teile der schweizerischen Forststatistik, die Forstwirtschaftliche Gesamtrechnung, die Holzverarbeitungserhebung und die Preisindizes) sind auf LINDAS integriert und somit auf int.visualize.admin.ch publiziert. Datenpipelines auf Basis von pylindas und dem LINDAS-GitLab konnten aufgebaut und getestet werden. Die gewählte Methodik erlaubt künftig regelmässige, ressourcenschonende Updates und iterative Verbesserungen (z. B. bei Metadaten oder Dimensionen).
Perspectives
Das gewählte Vorgehen setzt voraus, dass auf Seiten des Auftraggebers entsprechende fachliche und technische Kompetenzen für den Betrieb und die Pflege der Pipelines vorhanden sind. Für künftige technische Anpassungen und Updates sind interne Kenntnisse vermehrt einzubringen. Sollte im Rahmen der Etablierung eines Rollenmodells eine zusätzliche Rolle vorgesehen werden, bietet sich insbesondere die Funktion eines Data Custodians an, um die nachhaltige Betreuung der Daten und Prozesse sicherzustellen. Für eine erfolgreiche Integration waren folgende Schritte erforderlich: Aufbereitung der Daten als CSV, Zusammenstellen derjenigen Metadaten, die sich auf den Gesamtdatensatz beziehen (bspw. Urheber, Titel, Beschreibung, Identifier), Zusammenstellung der Metadaten, welche sich auf die einzelnen Datenpunkte beziehen (bspw. Messgrössen, Konzepte von Filterdimensionen in allen benötigten Sprachen).