Jump to content

Legal:Einhaltung der Vorschriften der Europäischen Union durch die Wikimedia Foundation/Datenkatalog nach Artikel 40(4) des Gesetzes über digitale Dienste

From Wikimedia Foundation Governance Wiki

Diese Seite ist der Datenkatalog für Wikipedia im Sinne von Artikel 40(4) des Gesetzes über digitale Dienste ("GdD") der Europäischen Union ("EU") und Artikel 6(4) des Delegierten Rechtsakts der EU über den Zugang zu Forschungsdaten, C(2025)4340 ("DARA"). Diese Bestimmungen regeln den Zugang geprüfter Forscher zu nicht-öffentlichen Daten ausschließlich zum Zweck der Forschung, die zur Erkennung, Identifizierung und zum Verständnis systemischer Risiken in der Europäischen Union / im Europäischen Wirtschaftsraum ("EWR") beiträgt und die Angemessenheit, Effizienz und Auswirkungen der Risikominderungsmaßnahmen für Wikipedia untersucht.

Die Kontaktdaten der von der Wikimedia Foundation benannten Kontaktperson für diese Zwecke sind eu-dsa-art-40-4-contact@wikimedia.org. Das Datenzugangsportal der EU und die Hilfeseiten finden sich unter https://data-access.dsa.ec.europa.eu/home.

Die Wikimedia Foundation ist stolz auf den sehr hohen Anteil an offenen Daten und Werkzeugen, die Forschern bereits zur Verfügung stehen, und wir begrüßen auch freiwillige Kooperationen mit unserem eigenen Forschungsteam für fortgeschrittenere Projekte.

Bevor Forscher den von dem GdD und dem DARA festgelegten Prozess durchlaufen, empfehlen wir dringend, die öffentlich verfügbaren Daten einzusehen oder das Forschungsteam der Wikimedia Foundation zu kontaktieren. Falls deine Forschung künstliche Intelligenz oder Modelle des maschinellen Lernens betrifft, freuen wir uns, dir mitteilen zu können, dass die Wikimedia Foundation zum Zeitpunkt der Veröffentlichung dieses Textes alle der Organisation zur Verfügung stehenden Trainingsdatensätze öffentlich zugänglich gemacht hat. Die Datensätze sind über die entsprechenden Modellkarten verlinkt.

Wenn du einen Datenzugriffsantrag gemäß Art. 40(4) des GdD/DARA stellst, stelle bitte sicher, dass dieser sich speziell auf Wikipedia und die EU bezieht. Wir bitten dich außerdem, deine Anträge auf die Unterstützung von Forschungsfragen zu systemischen Risiken im Sinne von Art. 40(4) GdD zu beschränken.

Wir ermutigen außerdem zu Folgendem:

  1. Erstelle eine Meta:Research-Seite zu deinem Projekt, wie hier beschrieben: https://meta.wikimedia.org/wiki/Research:Projects ;
  2. Nach Abschluss deines Forschungsprojekts empfehlen wir dir, deine Ergebnisse wie in https://foundation.wikimedia.org/wiki/Policy:Wikimedia_Foundation_Open_Access_Policy beschrieben zu veröffentlichen
  3. Mache dich mit unseren Richtlinien zum Thema Forschung und Datenschutz in Wikipedia vertraut: https://osf.io/preprints/osf/uyxnf_v1
  4. Trete der öffentlichen Wikimedia-Forschungsmailingliste bei: https://lists.wikimedia.org/postorius/lists/wiki-research-l.lists.wikimedia.org/

Datenkatalog

MediaWiki Content History

Wenn eine MediaWiki-Seite bearbeitet wird (zum Beispiel in der Wikipedia), bleiben die vorherigen Versionen (die "Versionen") normalerweise sichtbar. So lässt sich die Entwicklung der Seite (z. B. ihre Moderation) öffentlich nachvollziehen. Unter bestimmten Umständen können Wikipedia-Communitys gemäß den oft in der jeweiligen Sprache der Wikipedia dokumentierten Richtlinien den Zugriff auf bestimmte Versionen in der Versionsgeschichte deaktivieren (d. h. "entfernen"; je nach den Umständen auch "versionslöschen", "oversighten" oder "unterdrücken" genannt). Dadurch wird sichergestellt, dass weder die aktuelle Version der Seite noch die Versionsgeschichte unangemessene Inhalte öffentlich verbreiten. Wenn beispielsweise ein Jugendlicher leichtfertig seine Telefonnummer auf einer Seite veröffentlicht, ist es üblich, dass andere Nutzer diese nicht nur von der Seite entfernen, sondern auch die älteren Versionen löschen, die diese Nummer enthalten. Die Wikimedia Foundation als Betreiberin der Website/Plattform kann dies ebenfalls gemäß ihrer Richtlinie für Office Actions tun.

Die dafür notwendige Funktionalität heißt Versionslöschung. Sobald eine Version entfernt wurde, ist sie weder allgemein in der Wikipedia sichtbar noch in den nachfolgenden (nach der Entfernung) öffentlichen Wikipedia-XML-Dumps enthalten.

Die private Kopie der MediaWiki Content History enthält jedoch den Großteil der entfernten Informationen. Dazu gehören die entfernte Version, der zugehörige Benutzername des Autors und die Bearbeitungszusammenfassung, die dieser beim ursprünglichen Veröffentlichen der betreffenden Version angegeben hat.

Datenstruktur und Metadaten

Bitte sieh dir für das Schema die öffentliche Dokumentation an.

Vorgeschlagene Zugriffsmodalitäten

Aus Gründen des Datenschutzes und der Vertraulichkeit ist ein direkter Zugriff für Forscher möglicherweise nicht möglich. Wir bitten Forscher daher, uns möglichst die genaue Abfrage mitzuteilen, die ausgeführt werden soll.

Weitere Anmerkungen

  1. Die Daten der MediaWiki Content History enthalten nicht garantiert alle gelöschten Versionen. Sie wird ereignisbasiert und mit einem gewissen konsistenten System generiert, in dem Versionsinformationen von den öffentlichen Wikipedia-APIs abgerufen werden, nachdem eine Version erstellt wurde. Abhängig von nichtdeterministischen Faktoren wie der Ereignisreihenfolge oder vorübergehenden Infrastrukturfehlern kann eine Version vor oder nach ihrer Löschung verarbeitet werden. Im letzteren Fall werden ihre Inhalte nicht in den privaten Daten der MediaWiki Content History gespeichert.
  2. MediaWiki Content History enthält eine große Menge an Daten, die bereits öffentlich zugänglich sind. Forscher werden gebeten, sich so weit wie möglich auf diese öffentlichen Daten zu stützen und keinen Zugriff darauf über den Mechanismus gemäß Artikel 40(4) des GdD zu beantragen.

Editors Daily

Der genaue oder ungefähre Standort, von dem aus eine Bearbeitung in der Wikipedia vorgenommen wurde, ist nicht öffentlich zugänglich. Editors Daily ist ein interner, monatlich aktualisierter Datensatz, der diese sensibleren personenbezogenen Daten enthält. Der Standort in diesem Datensatz wird anhand der IP-Adresse ermittelt.

Datenstruktur und Metadaten

Bitte sieh dir für das Schema die öffentliche Dokumentation an. Gemäß unserer Richtlinie zur Datenaufbewahrung enthält Editors Daily möglicherweise nur Informationen der letzten zwei Monate, da ältere Daten fortlaufend gelöscht werden.

Vorgeschlagene Zugriffsmodalitäten

Aus Gründen des Datenschutzes und der Vertraulichkeit ist ein direkter Zugriff für Forscher möglicherweise nicht möglich. Wir bitten Forscher daher, uns möglichst die genaue Abfrage mitzuteilen, die ausgeführt werden soll.

Weitere Anmerkungen

  1. Der öffentliche Geoeditors-Datensatz bietet monatliche aggregierte Autorenaktivitäten pro Land.
  2. Informationen zur historischen Aktivität der Autoren, jedoch ohne Geodaten, sind im öffentlichen Datensatz MediaWiki History verfügbar.

Zendesk-Support-Ticketdaten

Wir erhalten Anfragen von Nutzern (z. B. zur Meldung illegaler Inhalte gemäß Artikel 16 des GdD) und von Behörden (gemäß Artikel 9 und 10 des GdD) per E-Mail. Wir nutzen das Zendesk-Support-Ticketsystem zur Bearbeitung dieser Anfragen. Jede neue E-Mail-Konversation wird als "Ticket" in unserem System angelegt, wo sie priorisiert, bearbeitet und kategorisiert werden kann. Die Daten dieser Tickets fließen in unsere regelmäßigen Transparenzberichte ein.

Datenstruktur und Metadaten

Bitte sieh dir https://support.zendesk.com/hc/en-us/articles/4408827693594-Metrics-and-attributes-for-Zendesk-Support an.

Wie bereits erwähnt, gibt es für verschiedene Arten von Angelegenheiten unterschiedliche Meldekanäle; siehe insbesondere die auf dieser Seite genannten.

Tickets können auch benutzerdefinierte Felder enthalten (die je nach Berichtskanal/Ticketzweck variieren und sich im Laufe der Zeit weiterentwickeln können); bitte erkundige dich, um zu bestätigen, welche relevanten Ticketfelder für deine Recherche zur Verfügung stehen.

Vorgeschlagene Zugriffsmodalitäten

Mit dem Zendesk-Explore-Werkzeug können Abfragen durchgeführt und aggregierte Statistiken exportiert werden, indem benutzerdefinierte "Berichte" erstellt werden.

Die hier verfügbare Dokumentation erklärt die Funktionen des Explore-Werkzeugs: https://support.zendesk.com/hc/en-us/search?content_tags=01H41B6Y9VDNEGDFSDQZGESE9F&amp%3Butf8=%E2%9C%93.

Aus Gründen des Datenschutzes und der Lizenzbestimmungen ist der direkte Zugriff von Forschern auf das Zendesk-Explore-Werkzeug möglicherweise nicht möglich. Sofern dies zumutbar ist und bestätigt werden muss, kann die Wikimedia Foundation stattdessen Zendesk-Explore-Berichte im Auftrag der Forscher erstellen (d. h. Explore-Abfragen ausführen). Forscher sollten möglichst die genaue Abfrage angeben, die ausgeführt werden soll; siehe https://support.zendesk.com/hc/en-us/articles/4408845804314-Formula-writing-resources

Weitere Anmerkungen

  1. Die Wikimedia Foundation veröffentlicht bereits detaillierte Halbjahresberichte mit entsprechenden Statistiken, siehe https://wikimediafoundation.org/who-we-are/transparency/. Diese Berichte werden manuell geprüft und bereinigt, um sicherzustellen, dass alle im jeweiligen Berichtszeitraum (den letzten sechs Monaten) bearbeiteten Tickets korrekt markiert/klassifiziert und somit entsprechend gemeldet werden. Tickets, die diese Prüfung noch nicht durchlaufen haben, weisen möglicherweise eine weniger zuverlässige Kategorisierung auf. Forscher werden daher gebeten, ihre Analyse auf Tickets zu beschränken, die diesen Prüfprozess bereits durchlaufen haben. Wenn beispielsweise zum Zeitpunkt deiner Forschung unser aktuellster Transparenzbericht den Zeitraum Januar bis Juni 2025 abdeckt, empfehlen wir dir, deine Forschung auf Tickets zu beschränken, die bis zum 30. Juni 2025 bearbeitet wurden.
  2. Bitte fordere keinen Zugriff auf sensible Daten an, z. B. (i) den Inhalt von Freitextfeldern (einschließlich des Inhalts der Tickets selbst) oder (ii) Daten, die die Korrespondenten und Bearbeiter eines Tickets identifizieren (z. B. wer es eingereicht hat und welche Mitarbeiter der Wikimedia Foundation es bearbeitet haben).
  3. Um eine EU-spezifische Analyse zu ermöglichen, empfehlen wir, die Analyse auf Tickets zu beschränken, bei denen ein EU-Mitgliedstaat als relevantes Land aufgeführt ist (sofern wir dies ermitteln/abschätzen konnten).

Haftungsausschluss

Die Wikimedia Foundation übernimmt keine Gewähr für die ständige Verfügbarkeit oder Richtigkeit der auf dieser Seite aufgeführten Daten oder für das einwandfreie Funktionieren ihrer Zugriffsmodalitäten. Die Foundation gibt auch keine Zusicherungen hinsichtlich der Rechtmäßigkeit des Zugriffs Dritter auf ihre Inhalte gemäß den weltweit geltenden Gesetzen ab. Es gelten die Nutzungsbedingungen der Wikimedia Foundation ("TOU). Bitte beachte insbesondere (aber nicht ausschließlich) die Abschnitte "Haftungsausschluss" und "Beschränkung der Haftung" der TOU. Die Wikimedia Foundation ist eine gemeinnützige Organisation. Sämtliche Zugriffskosten (wie für den Erwerb zusätzlicher Lizenzen zur Nutzung kostenpflichtiger Werkzeuge) sind von denjenigen, die Zugriff beantragen, zu tragen.