Scraping – Eine neue Methode im Datenjournalismus

Was wäre ein Datenjournalist ohne Daten? Nichts. Um also gar nicht erst in eine solche Situation zu kommen, behilft er sich mit einer neuen Technik namens Scraping. Was das ist, lesen Sie hier…

Was tun, wenn ein Datenjournalist die für seine aktuelle Arbeit benötigten Daten von den Behörden einfach nicht bekommt? Ohne Daten ist er doch regelrecht aufgeschmissen. Abhilfe schaffen kann eine neue Technik, das sogenannte Scraping: Damit können Journalisten sich die gewünschten Daten von der jeweiligen Seite zukünftig selbst aus dem Internet ziehen.

Was bisher nur in Amerika verbreitet war, schwappt nun auch nach Deutschland über. Alles was man fürs Scraping braucht, ist eine spezielle Software, die sogar meist als Freeware im Internet zum Download angeboten wird (etwa: Mac „Anthracite“ und Outtwit, ein Firefox Add-On Microsoft „OpenKapow“). Mit dieser Software können Roboter programmiert werden, die die gewünschten Informationen automatisch aus dem Internet ziehen und diese zum Beispiel in einer Tabelle ablegen,  wo Datenjournalisten sie anschließend weiteranalysieren und verarbeiten können.

Gerade für Journalisten ist diese neue Form des Datenjournalismus eine interessante Sache. Um eine umfassende und richtige Auswertung einzelner Daten umsetzen zu können, müssen genügend Informationen vorhanden sein. Wenn Journalisten diese offiziell nicht bekommen, haben sie so trotzdem eine Möglichkeit, alle relevanten Punkte in ihre Recherche mit einzubeziehen. Sie können investigativ arbeiten und im Idealfall Skandale an die Öffentlichkeit bringen, wie es 2009 der Nachrichtenagentur dpa gelungen ist: Dort haben Datenrechercheure mit genau dieser Methode aufgedeckt, dass sich Abgeordnete des deutschen Bundestages in rüstungsnahen Vereinen engagierten, ohne dies offenzulegen, wie es die Transparenzpflicht des Bundestages eigentlich verlangt.

Die Rechercheure der dpa wollten an sich nur schauen, welche Namen der etwa 600 Bundestagsabgeordneten auch im Verzeichnis der registrierten Lobbyisten auftauchten. Hierzu verglichen sie die Liste aller Bundestagsabgeordneten mit der Liste aller im Verzeichnis der Lobbyisten eingetragenen Personen. Bei der weiteren Recherche stießen sie darauf, dass sich fünf Abgeordnete trotz Stillschweigen darüber in Rüstungsvereinen engagierten.

Nichtsdestoweniger gibt es auch einige Kritik. Zunächst stellt sich die Frage, ob Scraping nicht generell illegal sei, immerhin werden Daten genommen, die ja offensichtlich gerade nicht für die Allgemeinheit bestimmt waren. Zudem wird die Technik nicht immer wie im obigen Beispiel zu ideellen oder investigativen Zwecken verwendet. Seit geraumer Zeit beschäftigen sich auch immer mehr Firmen mit dieser Methode: Sie scrappen einzelne Internetseiten und holen sich aus Foren, Online-Datenbanken und sozialen Netzwerken gezielt Informationen über Personen – ein Verstoß gegen das Persönlichkeitsrecht?

Oft wird das im Marketing angewandt: Mit den gewonnenen Informationen können die Unternehmen Personenprofile erstellen und genau auf diese Profile zugeschnitten ihre Produkte optimieren, neue Produkte herstellen oder vermarkten.

Ein anderes negatives Beispiel gibt es mit der Internetseite „PatientsLikeMe“: Auf dieser Plattform können sich die User über ihre Krankheiten austauschen. Themen sind dort AIDS, Krebs oder Depressionen, um nur einige wenige zu nennen. Da es hierbei um sehr persönliche Geschichten geht, registrieren sich die User nicht mit ihrem richtigen Namen. Irgendwann hat eine Firma mittels Scraping einen Roboter eingeschleust und die echten Namen der User herausgefunden sowie deren ganz  persönlichen Statements gelesen. Ein an Depressionen leidender Mann beispielsweise hat sämtliche seiner Medikamente aufgelistet, die er nimmt. Diese Daten konnte die Firma nun an die Pharmaindustrie verkaufen, die die Daten wiederum für ihre Zwecke nutzte. Verstößt das also nicht gegen das Gesetz?

Rechtlich gesehen ist Scraping eine Grauzone: Nach einem Urteil des OLG Frankfurt im Jahr 2009 wäre es in Ordnung, solange man nur einzelne Datensätze entnimmt und diese normal weiterverarbeitet. Genau so wäre es bei Journalisten: Sie würden die Zahlen entnehmen, die sie für ihre Recherche benötigen und sie später ein einer entsprechenden journalistischen Form aufbereiten. Inakzeptabel sei es allerdings, wenn eingebaute technische Sperrungen bewusst umgangen werden. In der Praxis gilt es abzuwägen: Wird das Urheberrecht verletzt? Wie sehr? Welche Rolle spielt das Informationsfreiheitsgesetz? Was genau ist eine „normale Verarbeitung“ der Daten?

Scraping ist momentan eben oft noch Auslegungssache. Noch.

Quellen:

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-datahttp://bulldoglog.wordpress.com/2010/10/13/webscraping-saugen-aus-dem-netz/, http://bulldoglog.wordpress.com/2010/09/09/abgeordnete-und-rustungsvereine/, http://seo-book.de/onpage/content-onpage/richtig-scrapen-legal-legitim-und-seokonform, http://online.wsj.com/article/SB10001424052748703358504575544381288117888.html

Der Artikel entstand im Rahmen eines Seminars zu Daten-Journalimus an der Hochschule Darmstadt. Dozent Christian Kreutz.

About Svenja Trautmann

Sie studiert seit Oktober 2008 Online-Journalismus an der Hochschule Darmstadt (Diplom).
This entry was posted in Medien and tagged , . Bookmark the permalink.

6 Responses to Scraping – Eine neue Methode im Datenjournalismus

  1. niedermeyer says:

    Leider ist http://www.openkapow.com nicht mehr existent. Die Software wird wohl seit über einem Jahr nicht mehr free oder open angeboten. Die Aktualität des Artikels ist wohl nicht sonderlich hoch.

  2. Christian Kreutz says:

    @niedermeyer Danke für den Hinweis. Wie wäre es dann mit einen Hinweis, was es für Alternativen gibt. Mein persönlicher Favorit ist Outtwit, ein Firefox Add-On.

  3. Svenja Trautmann says:

    Auch von mir vielen Dank für den Hinweis! Als Freeware für Microsoft gibt es aktuell zum Beispiel noch den “Web Content Converter” (http://web-content-extractor.software.informer.com/).

  4. jens says:

    $ curl | sed

  5. Pingback: Lesetipps für den 24. August | Netzpiloten.de - das Beste aus Blogs, Videos, Musik und Web 2.0

Comments are closed.