ANON-KI

Wir entwickeln Methoden zur Anonymisierung longitudinaler & ereignisbezogener Personendaten. Fokus: Statistical Disclosure Control, Synthetic Data Generation, robuste Risk-Measurement und konzeptionelle Forschung zu Identität & Anonymität.

Steckbrief

Beteiligte Departemente Technik und Informatik
Institut(e) Institut für Optimierung und Datenanalyse (IODA)
Förderorganisation SNF
Laufzeit (geplant) 01.11.2023 - 31.10.2026
Projektleitung Prof. Dr. Murat Sariyar
Projektmitarbeitende Marko Miletic
Partner Fachhochschule Nordwestschweiz (FHN (Leading House)

Ausgangslage

Moderne Anwendungen nutzen Datenanalyse sowie Machine- und Deep-Learning. Viele relevante Use Cases beruhen auf personenbezogenen Daten, oft mit wiederholten Messungen über die Zeit (Longitudinal- und Event-History-Daten). Solche Daten besitzen hohes Potenzial für Forschung und Innovation, stehen jedoch unter strengen Datenschutzauflagen (z. B. CH-DSG). Historische Fälle zeigen: Das Entfernen direkt identifizierender Merkmale (Name, Adresse, AHV-Nr.) genügt nicht, um Re-Identifikation zu verhindern. Bisher existieren zahlreiche SDC-Methoden und Software für Querschnittsdaten; für Longitudinaldaten, Mobilitäts-/COVID-Tracking oder Gesundheitsverläufe bestehen jedoch wesentliche Lücken. Insbesondere fehlt ein integriertes, methodisches und rechnerisches Rahmenwerk, das Anonymisierung, Risk-Measurement (Re-Identifikationsrisiken, Nutzen-Verlust) und SDG (Synthetic Data Generation) systematisch für komplexe zeitabhängige Daten zusammenführt. Unser Projekt adressiert diese Lücke und schafft belastbare Grundlagen sowie Werkzeuge für Forschung, Industrie und Behörden.

Vorgehen

Wir entwickeln ein modulares Framework für Longitudinal- und Event-History-Daten: Modellierung & Vorverarbeitung: Harmonisierung, Zeitachsen-Abbildung, Episodenbildung, Kovariaten-Engineering. Anonymisierungsmethoden: zeitbewusste Generalisierung, Microaggregation, Differential-Privacy-inspirierte Mechanismen, sequenzielle Perturbation sowie SDG (generative Modelle) für realistische, aber schützende synthetische Verläufe. Risk-Measurement: definieren und implementieren von Metriken für Linkage-, Inference- und Trajektorien-Re-ID-Risiken; trade-off-Analysen von Risiko vs. Nutzwert. Evaluation: umfangreiche Simulationen und Fallstudien (Gesundheit, Mobilität); Benchmark-Suiten, Reproduzierbarkeit. Konzeptionelle Forschung: formale Begriffe zu Identität, Pseudonymität und de-facto-Anonymität bei longitudinalen Strukturen; Leitlinien für Governance & Bereitstellung nicht-aggregierter Datensätze. Transfer: Open-Source-Bausteine, Dokumentation, Best-Practice-Guides, Workshops mit Stakeholdern.

Ausblick

Die Ergebnisse ermöglichen eine sichere Datennutzung für individualisierte Analysen (z. B. Regressions-/Ereignisanalysen) bei geringerem Offenlegungsrisiko. Perspektivisch: Integration in Rechenzentren und sichere Datenräume, Unterstützung behördlicher Freigabeprozesse, Standardisierung von Risiko-/Nutzwert-Berichten, Ausbau der SDG-Methoden für multimodale Daten (Sensorik, Text, Bild) und stärkere Verknüpfung mit rechtlich-organisationalen Governance-Modellen. Langfristig stärkt das Projekt vertrauenswürdige datengetriebene Innovation in Forschung und Industrie.