Datenintegration Holzwirtschaft

Die BFH Gruppe um Linked Data wurde von der Sektion Holz- und Waldwirtschaft im BAFU beauftragt, die Daten der Holzwirtschaft als Linked Data zu publizieren.

Fiche signalétique

Situation

Die Sektion Holz- und Waldwirtschaft beauftragte das Projektteam der BFH mit der Integration von zwölf sektionsspezifischen Erhebungen in LINDAS. Ziel war einerseits die Vorbereitung einer künftigen digitalen Publikation des Jahrbuchs Wald und Holz mittels interaktiver Visualisierungen, andererseits die nachhaltige Stärkung der Daten als wiederverwendbare, verknüpfbare Ressource innerhalb und ausserhalb der Bundesverwaltung. Aufgrund begrenzter Ressourcen, fehlender stabiler Ausgangsformate sowie bestehender Abhängigkeiten zu anderen Verwaltungseinheiten wurde im Projektverlauf eine Priorisierung der Erhebungen vorgenommen.

Approche

In Abstimmung mit dem Auftraggeber wurde eine Methodik gewählt, die stark auf automatisierten Datenpipelines basiert. Diese Entscheidung erfolgte vor dem Hintergrund, dass die Datenintegration nicht als einmalige Aufgabe, sondern als wiederkehrender Prozess konzipiert ist. Automatisierte Pipelines ermöglichen ein iteratives Vorgehen mit geringem Aufwand bei Anpassungen (z. B. Übersetzungen, Wechsel zu Shared Dimensions ). Das von der Sektion Umweltdaten entwickelte Tool pylindas wurde zur Erstellung der Datenpipelines eingesetzt. Es basiert auf Python und erlaubt bei entsprechendem Grundwissen die Umsetzung und Pflege automatisierter Integrationsprozesse. Zu LINDAS gehört eine GitLab-Instanz, die dazu dient, Datenpipelines zu erstellen und auch auszuführen. Damit kann der Prozess der Integration völlig unabhängig von der Verfügbarkeit von lokal installierten Tools einzelner Mitarbeitenden ausgeführt werden. Ausserdem erlaubt die Nutzung von GitLab auch, ein Issue-Management zu betreiben, bei dem offene Punkte gezielt benannt und abgearbeitet werden können. Damit stellt das GitLab auch eine Brücke zwischen Mitarbeitenden aus dem Fach und aus dem Datenbereich dar.

Résultat

Mehrere zentrale Erhebungen (das Forstwirtschaftliche Testbetriebsnetz, Teile der schweizerischen Forststatistik, die Forstwirtschaftliche Gesamtrechnung, die Holzverarbeitungserhebung und die Preisindizes) sind auf LINDAS integriert und somit auf int.visualize.admin.ch publiziert. Datenpipelines auf Basis von pylindas und dem LINDAS-GitLab konnten aufgebaut und getestet werden. Die gewählte Methodik erlaubt künftig regelmässige, ressourcenschonende Updates und iterative Verbesserungen (z. B. bei Metadaten oder Dimensionen).

Perspectives

Das gewählte Vorgehen setzt voraus, dass auf Seiten des Auftraggebers entsprechende fachliche und technische Kompetenzen für den Betrieb und die Pflege der Pipelines vorhanden sind. Für künftige technische Anpassungen und Updates sind interne Kenntnisse vermehrt einzubringen. Sollte im Rahmen der Etablierung eines Rollenmodells eine zusätzliche Rolle vorgesehen werden, bietet sich insbesondere die Funktion eines Data Custodians an, um die nachhaltige Betreuung der Daten und Prozesse sicherzustellen. Für eine erfolgreiche Integration waren folgende Schritte erforderlich: Aufbereitung der Daten als CSV, Zusammenstellen derjenigen Metadaten, die sich auf den Gesamtdatensatz beziehen (bspw. Urheber, Titel, Beschreibung, Identifier), Zusammenstellung der Metadaten, welche sich auf die einzelnen Datenpunkte beziehen (bspw. Messgrössen, Konzepte von Filterdimensionen in allen benötigten Sprachen).

Ce projet contribue aux objectifs de développement durable suivants

  • 11: Villes et communautés durables