Legal:Richtlinie zur Veröffentlichung von Daten
Diese Richtlinie oder dieses Verfahren wird von der Wikimedia-Stiftung verwaltet. Bitte beachte, dass im Falle von Unterschieden in der Bedeutung oder Interpretation zwischen der englischen Originalversion dieses Inhalts und einer Übersetzung die englische Originalversion Vorrang hat. |
Das Recht auf Privatsphäre ist der Kern dessen, wie Gemeinschaften zu Wikimedia-Projekten beitragen, und die Wahrung dieses Rechts ist von zentraler Bedeutung für unsere Menschenrechtsverpflichtungen. Diese Richtlinien zur Datenveröffentlichung sind die bewährten Vorgehensweisen der Wikimedia Foundation zum Risikomanagement bei der Datenveröffentlichung. Sie ergänzen unsere Richtlinien zur Datenspeicherung und tragen zu unserer Verpflichtung bei, Benutzerdaten zu schützen, wie in unserer Datenschutzrichtlinie dargelegt.
Ähnliche Richtlinien zur Datensammlung sind in Vorbereitung, um den gesamten Lebenszyklus der Daten in den Systemen der Wikimedia Foundation umfassender zu regeln.
Risikoabstufungstabelle für die Veröffentlichung von Daten
Datenklassifizierung | Vertraulich | Beschränkt | |
---|---|---|---|
Risikostufe | Stufe 1: Hohes Risiko | Stufe 2: Mittleres Risiko | Stufe 3: Niedriges Risiko |
Daten, die mit Sicherheit dazu verwendet werden könnten, Schaden anzurichten | Daten, die wahrscheinlich oder möglicherweise dazu verwendet werden könnten, Schaden anzurichten | Daten, die wahrscheinlich nicht dazu verwendet werden könnten, Schaden anzurichten oder die aus administrativen Gründen privat sind | |
Beispiele (unvollständig) | * Daten, die PII enthalten
|
* Hochrangige Analysen von
|
* Hochrangige Analysen von
|
Vorgesehene Antwortzeit | 3 Arbeitswochen | 5 Arbeitstage | N/A |
Erwartete % der Anfragen (interne Statistik) | 15% | 35% | 50% |
Was dies für Teams der Wikimedia Foundation bedeutet | |||
Folgende Aktionen |
|
|
|
Hinweis: Die Länderschutzliste dient als Referenzhandbuch für Länder, die möglicherweise eine Gefahr für die Internetfreiheit darstellen und ist kein Indikator für die Arbeitsbeziehungen der Foundation mit den einzelnen Ländern
Häufig gestellte Fragen
- F: Wofür wird die Risikoabstufungstabelle verwendet? Die Risikoabstufungstabelle soll den Teams der Wikimedia Foundation, die mit Daten arbeiten, dabei helfen, zu erkennen, wann ihre Arbeit einer Datenschutzprüfung durch Legal und Security bedarf.
- F: Welche Hauptrisiken werden von der Abstufungstabelle gemessen? Die Hauptrisiken liegen sowohl in der Über- als auch in der Unternutzung des Spektrums. Wenn dies so genutzt wird, dass zu viele Dinge an Legal und Security weitergeleitet werden, werden Legal und Security zum Engpass für den erforderlichen Arbeitsablauf. Wenn andererseits Projekte live gehen, die im Rahmen einer Datenschutzprüfung gestoppt oder gemildert worden wären, setzt dies die Foundation Datenschutzrisiken aus — darunter Reputations-, Rechts- und Sicherheitsrisiken.
- F: Wer sind die Zielgruppen der Abstufungstabelle? Teams, die in den Bereichen Produkt und Technik mit Daten arbeiten.
- F: Was hat sich gegenüber dem bestehenden Risikoprüfungsprozess geändert? Der bestehende Prüfungsprozess erforderte, dass jedes einzelne Schema und Datenprojekt einer rechtlichen Prüfung unterzogen wurde. Dies wurde nicht befolgt und war weder für die Datenteams noch für Legal praktikabel.
- F: Wie erfolgt die Aktualisierung der Abstufungstabelle oder die Lösung von Unstimmigkeiten bei der Abstufung?
- Einholung einer Datenschutzgenehmigung
- Jeder kann eine Aktualisierung/Änderung initiieren, aber vor der Umsetzung muss eine Genehmigung vom Kuratorium eingeholt werden
- Laufendes Feedback unmittelbar nach der Einführung, danach regelmäßige Neukalibrierung (beispielsweise jedes Quartal oder Halbjahr)
- F: Was soll ich tun, wenn ich mir nicht sicher bin, ob ich mich an die Teams Legal und Security wenden soll? Im Zweifelsfall ist es besser, auf Nummer sicher zu gehen und eine L3SC-Anfrage einzureichen.
Schwellenwerttabelle
Verwende diese Tabelle, um zu bestimmen, ob deine Analyse detailliert oder hochrangig ist, und um zu erfahren, in welche Abstufung/Risikostufe die Analyse einzuordnen ist. Hinweis: Schwellenwerte werden ausschließlich auf Grundlage der veröffentlichten Statistiken bestimmt — d. h. wenn du nur Informationen zu Bearbeitungen veröffentlichst, musst du nicht berücksichtigen, wie viele Autoren die Bearbeitungen vorgenommen haben.
Typ der Dateneinheit | Klassifizierung der Analyse basierend auf Zählungen | |
---|---|---|
"Detailliert" | "Hochrangig" | |
Benutzer (einschließlich eindeutiger Geräte) | <25 | ≥25 |
Bearbeitungen | <50 | ≥50 |
App-Interaktionen | <100 | ≥100 |
Aufrufe | <250 | ≥250 |
Bei Zurücksetzungen wird die Rate und eine ungefähre Gesamtzahl gemeldet, wenn die Anzahl der zurückgesetzten Bearbeitungen oder die Gesamtanzahl der Bearbeitungen unter dem Schwellenwert liegt. Beispiel:
- Wenn 8 von 49 Änderungen zurückgesetzt wurden:
- "16,3 % zurückgesetzt (von <50 Änderungen)"
- Wenn 48 von 49 Änderungen zurückgesetzt wurden:
- "100 % zurückgesetzt (von <50 Änderungen)"
- Wenn 20 von 580 Änderungen zurückgesetzt wurden:
- "3,4 % zurückgesetzt (von ~600 Änderungen)"
- "3,4 % zurückgesetzt (von >500 Änderungen)"
- Wenn 50 von 50 Änderungen zurückgesetzt wurden:
- Kann so belassen werden (beide Zahlen erreichen den Schwellenwert)
Diese Anleitung gilt auch für die Meldung von Prozentwerten unterhalb des Schwellenwerts für andere Datentypen.
Checkliste zur Risikominderung der Veröffentlichung
Diese Checkliste zur Selbstprüfung soll Datenwissenschaftlern und -analysten dabei helfen, das Risiko einer Datenveröffentlichung mit hohem oder mittlerem Risiko zu senken und die unbeabsichtigte Offenlegung privater Informationen zu reduzieren.
Hast du, bevor du Daten veröffentlichst (was auch das Hochladen eines Notebooks auf Gerrit oder Gitlab einschließt),
- Diese Datenveröffentlichung in das Protokollformular für Datenveröffentlichungen eingetragen?
- Ausgaben gelöscht, die Rohdaten zeigen?
- Ausgaben gelöscht, die detaillierte Daten zeigen (wie in der Schwellenwerttabelle oben definiert)?
- Zeilen verschleiert, die detaillierte Daten zeigen? Beispiel:
Python | R |
---|---|
# stell dir vor, wir führen eine Analyse der Anzahl der *Benutzer* durch, um eine Funktion auszuprobieren
# Konstanten setzen
threshold = 25
col = "num_users"
# Zeilen verschleiern
df.loc[df[col] < threshold, col] = f'<{threshold}'
|
library(tidyverse)
library(glue)
# {{tunit|69|set constants}}
threshold <- 25
df <- df |>
mutate(num_users = ifelse(num_users < threshold, glue("<{threshold}"), num_users))
|
- Zeilen herausgefiltert, die detaillierte Daten zeigen? Beispiel:
Python | R |
---|---|
# stell dir vor, wir führen eine Analyse der *App-Interaktionen* durch, die Benutzer durchgeführt haben
# {{tunit|69|set constants}}
threshold = 100
col = "num_interactions"
# Zeilen unterhalb des Schwellenwerts herausfiltern
df = df[df[col] >= threshold]
|
library(tidyverse)
# {{tunit|69|set constants}}
threshold <- 100
df <- df |>
filter(num_interactions >= threshold)
|
Allgemeine Risikoheuristik
Im Folgenden bedeutet "X > Y > Z", dass X riskanter ist als Y, das wiederum riskanter ist als Z.
- Datentyp:
- Geographie:
- Stadt > (subnationale) Region > Land > Subkontinent > Kontinent > global
- Länderschutzliste > nicht auf der Länderschutzliste
- Gerätedetails:
- User-Agent > Browser- oder OS-Typ > Gerätetyp
- IP > teilweise redigierter IP-Bereich
- Zeitlich:
- Uhrzeit > Stunde > Tag > Monat
- Kombinationen mehrerer Schlüssel > beliebiger Schlüssel allein (z. B. Land + Projekt > Land oder Projekt)
- Geographie:
- Typ der Benutzeraktivität:
- Spendensammlungsaktivität > Bearbeitungsaktivität > Interaktionsaktivität > Leseaktivität
- Aktivitätstyp der Wikimedia Foundation:
- Datensammlung > Datenanalyse
- Detaillierte Analyse > hochrangige Analyse
Kontaktiere uns
Wenn du der Meinung bist, dass möglicherweise gegen diese Richtlinien verstoßen wurde, oder wenn du Fragen oder Kommentare zur Einhaltung der Richtlinien hast, kontaktiere uns bitte unter privacywikimedia.org.
Bemerkungen
- ↑ Dieser Prozess erfordert die Hilfe eines Spezialisten, um sicherzustellen, dass der DP-Algorithmus richtig konfiguriert ist, sowie eine ausreichende Dokumentation.