Scraping: Ist das Kopieren von Daten aus dem Netz erlaubt?

Warum wir dringend eine Regulierung für Scraper brauchen. ‘Scrapers’ Dig Deep for Data on Web – „Scraper“ graben tief für Daten im Web – so lautet der Titel eines englischsprachigen Artikels auf der Webseite des Wall Street Journal (WSJ). Auf rund 14.000 Zeichen beschreiben die Autoren Julia Angwin und Steve Stecklow den boomenden Datenhandel und die damit verbundenen Konflikte.

Mit „scraping“ ist das Kopieren von Daten aus dem Netz gemeint. „Screen scraping“ etwa bezeichnet das automatische Auslesen von Webseiten. Doch was bedeutet das, warum ist das so wichtig und was ist so bedenklich daran?

Zunächst einmal zur wirtschaftlichen Bedeutung von Scraping: Das aufstrebende Geschäft von Scraping im Internet bildet eine Grundlage für einen rasch wachsenden Datenhandel. Marketers gab 7,8 Milliarden US-Dollar für Online-und Offline-Daten im Jahr 2009 aus, berichtete die New Yorker Unternehmensberatung Winterberry Group LLC. Die Ausgaben für den Kauf von Daten aus dem Internet sollen sich von 410 Millionen US-Dollar im Jahr 2009 auf 840 Millionen US-Dollar im Jahr 2012 verdoppeln. (Freie Übersetzung aus dem WSJ-Artikel)

Damit ist die ökonomische Relevanz schon einmal gegeben. Doch was bedeutet das in der Praxis? Derzeit schießen Datenunternehmen wie Pilze aus dem Boden und betreiben den florierenden Handel mit umfangreichen Datensätzen. Dass manche dabei in einem ungesunden Maße über sich hinaus wachsen, ist die Folge von fehlenden juristischen Restriktionen.

Das Kopieren von Daten im Internet ist nämlich nach wie vor eine juristische Grauzone, weshalb derzeit munter gescrapt wird, was zu holen ist. Leider machen einige Scraper auch vor geschützten Räumen wie privaten Foren keinen Halt. So wurde im vergangenen Jahr etwa das Forum von PatientsLikeMe.com gescrapt – von niemand geringerem als dem weltweit agierenden Marktforschungsunternehmen Nielsen.

Ein Screenshot der Webseite von PatientsLikeMe (Bild: patientslikeme.com)

PatientsLikeMe: Das Forum wurde von Nielsen Company gescrapt (Bild: patientslikeme.com)

Nielsen Companys Aktivitäten flogen nur kurze Zeit später auf. Das niederländische Marktforschungsunternehmen hatte es zu diesem Zeitpunkt jedoch bereits geschafft, etliche Forenbeiträge zu hochsensiblen Themen wie manisch-depressiver Erkrankung oder emotional instabile Persönlichkeitsstörung zu kopieren. Aus ihrer Datenbank seien die Daten nun leider nicht mehr löschbar, hieß es.

Immerhin beteuerte das Unternehmen, in Zukunft keine Daten mehr von geschützten Räumen im Internet scrapen zu wollen. Aber was ist mit den zahlreichen anderen Unternehmen? Nielsen Company ist mit seiner Vorgehensweise sicher kein Einzelfall. Doch verbindliche Richtlinien oder einen Ethikkodex gibt es bislang genauso wenig wie regulierende Gesetze.

Wie begründen Unternehmen solche Vorgehensweisen überhaupt? Dazu drei Argumente aus dem WSJ-Artikel:

  1. Viele Scraper und Datenhändler argumentieren, wenn diese Informationen online verfügbar sind, sei es ein faires Spiel – ganz egal wie persönlich.
  2. „Diese Daten sind da draußen“, sagt Herr Adler [Datenschutzbeauftragter von Intelius, eine führende Webseite für bezahlte Personensuchen, Anm.]. „Wenn wir die Daten nicht zu den Nutzern bringen, wird es jemand anderes tun.“
  3. Scraper (…) sagen, was sie tun sei nichts anderes als was eine Privatperson tut, wenn sie Informationen online sammelt – sie täten es lediglich in viel größerem Maßstab.

Reicht das aus, um einfach ungefragt Daten von Webseiten zu kopieren; um sie – im Falle von Unternehmen – anschließend weiterzuverkaufen? Legitimieren diese Argumente solche Vorgehensweisen wie die von Nielsen Company?

Dass auch im Internet nichts wirklich kostenlos ist und Nutzer dort mit ihren Daten zahlen, dürfte den meisten mittlerweile hoffentlich klar sein. Aber dann sollten sie im Falle eines Datenverkaufs auch wenigstens genauso deutlich vorher darauf hingewiesen werden wie es bei Amazon und Co. mit der Auskunft der Gesamtsumme am Ende der virtuellen Kasse üblich ist. Und nein, ein versteckter Hinweis in schwer verständlichen Datenschutzrichtlinien – die im Falle Facebooks länger als die Verfassung der Vereinigten Staaten sind – reicht da beileibe nicht aus.

Der Artikel entstand im Rahmen eines Seminars zu Daten-Journalimus an der Hochschule Darmstadt. Dozent Christian Kreutz.

About Daniel Hoely

Studiert Online-Journalismus an der Hochschule Darmstadt. Er bloggt auf seinem Weblog Juiced.de über mediale und digitale Themen, liebt das Fotografieren und erstellt Webseiten für sich und andere.
This entry was posted in Recht and tagged , , , . Bookmark the permalink.