ANON-KI
Wir entwickeln Methoden zur Anonymisierung longitudinaler & ereignisbezogener Personendaten. Fokus: Statistical Disclosure Control, Synthetic Data Generation, robuste Risk-Measurement und konzeptionelle Forschung zu Identität & Anonymität.
Steckbrief
- Beteiligte Departemente Technik und Informatik
- Institut(e) Institut für Optimierung und Datenanalyse (IODA)
- Förderorganisation SNF
- Laufzeit (geplant) 01.11.2023 - 31.10.2026
- Projektleitung Prof. Dr. Murat Sariyar
- Projektmitarbeitende Marko Miletic
- Partner Fachhochschule Nordwestschweiz (FHN (Leading House)
Ausgangslage
Moderne Anwendungen nutzen Datenanalyse sowie Machine- und Deep-Learning. Viele relevante Use Cases beruhen auf personenbezogenen Daten, oft mit wiederholten Messungen über die Zeit (Longitudinal- und Event-History-Daten). Solche Daten besitzen hohes Potenzial für Forschung und Innovation, stehen jedoch unter strengen Datenschutzauflagen (z. B. CH-DSG). Historische Fälle zeigen: Das Entfernen direkt identifizierender Merkmale (Name, Adresse, AHV-Nr.) genügt nicht, um Re-Identifikation zu verhindern. Bisher existieren zahlreiche SDC-Methoden und Software für Querschnittsdaten; für Longitudinaldaten, Mobilitäts-/COVID-Tracking oder Gesundheitsverläufe bestehen jedoch wesentliche Lücken. Insbesondere fehlt ein integriertes, methodisches und rechnerisches Rahmenwerk, das Anonymisierung, Risk-Measurement (Re-Identifikationsrisiken, Nutzen-Verlust) und SDG (Synthetic Data Generation) systematisch für komplexe zeitabhängige Daten zusammenführt. Unser Projekt adressiert diese Lücke und schafft belastbare Grundlagen sowie Werkzeuge für Forschung, Industrie und Behörden.
Vorgehen
Wir entwickeln ein modulares Framework für Longitudinal- und Event-History-Daten: Modellierung & Vorverarbeitung: Harmonisierung, Zeitachsen-Abbildung, Episodenbildung, Kovariaten-Engineering. Anonymisierungsmethoden: zeitbewusste Generalisierung, Microaggregation, Differential-Privacy-inspirierte Mechanismen, sequenzielle Perturbation sowie SDG (generative Modelle) für realistische, aber schützende synthetische Verläufe. Risk-Measurement: definieren und implementieren von Metriken für Linkage-, Inference- und Trajektorien-Re-ID-Risiken; trade-off-Analysen von Risiko vs. Nutzwert. Evaluation: umfangreiche Simulationen und Fallstudien (Gesundheit, Mobilität); Benchmark-Suiten, Reproduzierbarkeit. Konzeptionelle Forschung: formale Begriffe zu Identität, Pseudonymität und de-facto-Anonymität bei longitudinalen Strukturen; Leitlinien für Governance & Bereitstellung nicht-aggregierter Datensätze. Transfer: Open-Source-Bausteine, Dokumentation, Best-Practice-Guides, Workshops mit Stakeholdern.
Ausblick
Die Ergebnisse ermöglichen eine sichere Datennutzung für individualisierte Analysen (z. B. Regressions-/Ereignisanalysen) bei geringerem Offenlegungsrisiko. Perspektivisch: Integration in Rechenzentren und sichere Datenräume, Unterstützung behördlicher Freigabeprozesse, Standardisierung von Risiko-/Nutzwert-Berichten, Ausbau der SDG-Methoden für multimodale Daten (Sensorik, Text, Bild) und stärkere Verknüpfung mit rechtlich-organisationalen Governance-Modellen. Langfristig stärkt das Projekt vertrauenswürdige datengetriebene Innovation in Forschung und Industrie.