News-Scraping selbst gemacht – Interview mit Martin Virtel

Martin Virtel, Teamleiter Multimedia & Projekte bei der Financial Times Deutschland, ist in Deutschland einer der Vorreiter des Scrapings, einer inzwischen weit verbreiteten Kulturtechnik des Web 2.0. Wir haben einmal nachgefragt, wie es dazu kam, und was ihn davon abhielt, mit seinem “Bottino” dem allmächtigen “Google Reader” die Stirn zu bieten.

Christiane Schulzki-Haddouti: Martin, du hattest im Jahre 2000 den Einfall, die News von verschiedenen News-Websites einzusammeln und auf einer eigenen, passwortgeschützten Website namens “Newsradar” nach verschiedenen Kategorien darzustellen. Was hat dich damals dazu getrieben? Wie hast du das damals verwirklicht?

Martin Virtel: Ich wollte meine tägliche Arbeit automatisieren. Damals war ich Redakteur im Ressort “Informationstechnologie & Medien” der Finanacial Times Deutschland, und für die tägliche Themenkonferenz um 10:30 musste ich die Themen vorschlagen, die in der Zeitung von morgen zu Artikeln werden sollten. Um zu schauen, was die Konkurrenz so macht, musste ich jeden Tag die selben Websites anklicken: das “Wall Street Journal”, die “New York Times”, Bloomberg, das “Handelsblatt”, Zdnet, Heise.de, Wired.com, Salon …. . Das erschien mir etwas monoton, außerdem wollte ich, dass der Computer sich merkt, welche Geschichten neu sind und welche schon länger dort stehen.

Für diese Tätigkeit – Websites aufrufen und vergleichen, ob die Geschichten dort schon länger stehen, habe ich ein kleines Python-Script geschrieben, das insgesamt 58 Websites abgrast – inklusive des Wall Street Journal, für den ich ein Abo hatte, und bei dem das Script sich mit Eingeben von Nutzername und Passwort herumschlagen musste. Ich wusste nicht, dass man das Screenscraping nennt. Es gab damals meines Wissens auch noch keine Bibliotheken, um solche Scripte zu schreiben, wie WWW::Mechanize (Perl) oder mechanize (Python). Das hätte mir Monate meines Lebens gespart.

Das Script jedenfalls, news.py (300 Zeilen, 12 Kbyte), ließ ich jeden Morgen auf meinem Linux-Laptop laufen, ein damals schon betagter Toshiba Portege CT 300 mit einem Modem, vollkommen ohne grafische Benutzeroberfläche. Das Script erzeugte eine Nachrichtenliste als HTML-Datei, die ich mit dem wunderbaren Nur-Text-Browser w3m (ein Programm aus Japan, glaube ich) jeden Morgen gelesen, ausgewählt und kommentiert habe.

Vorbild war der “Media Grok”, ein täglicher Newsletter des “Industry Standard”, eines amerikanischen Branchenmagazins, das mit dem Platzen der Dotcom-Blase von der Erdoberfläche verschwunden ist. 

Ich war kurz nach der Pleite des Magazins in San Francisco, es existiert ein Bild, auf dem ich mit einer Blume in der Hand neben dem Firmenschild an die Mauer gelehnt stehe, die Stirn auf meine verschränkten Arme gelegt, so, wie man dort stehen würde, wenn man heult.

(Fotos oben, links: Martin Virtel, San Francisco, 18. August 2001, ca. 13:40 Ortszeit)

Der “Media Grok” bestand aus täglich drei bis vier Themen der Internet-Branche und einer Zusammenfassung, was einzelne Zeitungen dazu geschrieben hatten. Mein Überblick bestand aus täglich 10-30 Themen mit nur einer Quelle pro Thema, und jeweils einer Zeile Zusammenfassung.

Mein täglicher Überblick jedenfalls ging als Mail mit dem Titel “Aus dem Netz” an meine Kollegen und meine Chefs und viele Freunde, die mich anfangs für wahnisnnig fleißig hielten, weil ich so viele Websites im Blick hatte. Nachdem ich zugegeben hatte, dass ich mir von selbstgemachter Software helfen lasse, hielten sie mich für technisch wahnsinnig versiert.

Aus dieser ersten Version entstand im Laufe des Jahres 2002 eine Server-basierte Software unter der domain www.newsradar.org, die ich bereits Ende 2000 angemeldet hatte. Die Software lief zuerst auf einem alten PC, der bei der Firma Ecce Terram in Oldenburg als Server eine Internet-Adresse und eine feste IP-Nummer hatte. 

Die Server-basierte Version existiert heute noch, der PC steht allerdings mittlerweile in Berlin. Im Frühjahr 2001 (während eines Urlaubs) kam ich beim Brainstormen auf einen Namen für die Software: Bottino, die italienische Verkleinerungsform von “Bot”, gleichzeitig auch italienisch für “Beute”.

Der Server läuft noch heute, obwohl Dienste wie Google Reader mittlerweile eine bessere Funktionalität bieten – allerdings nur für Websites, die ihre Geschichten tatsächlich als RSS-Feeds veröffentlichen. Viele Websites tun das nicht oder nur unvollständig – hier ist mein “Bottino” immer noch das überlegene Werkzeug zur Konkurrenzbeobachtung. Wenn man Homepages vergleichen will, kann man sich nicht unbedingt auf die RSS-Feeds verlassen – denn auf den Homepages vieler Websites stehen auch Geschichten, die nicht im RSS-Feed vorkommen.

Christiane Schulzki-Haddouti: Was war deine erste spontane Reaktion, als RSS aufkam?

Martin Virtel: Die erste Reaktion war: Schade, nicht gut genug. Die meisten Websites boten am Anfang nicht die spezialisierten Feeds, die ich für meine Arbeit brauchte – ein RSS-Feed der Homepage der New York Times war für mich nicht relevant, und Bloomberg hatte damals keinen. Spiegel Online liefert noch heute verstümmelte RSS-Feeds, die den ersten Absatz des jeweiligen Artikels nicht widerspiegeln. (Anm. CSH: auch heise online.) Ungefähr seit dem Jahr 2005 kann der Bottino allerdings auch RSS-Feeds verarbeiten, bei einigen Websites macht das ja durchaus Sinn.

Christiane Schulzki-Haddouti: Warum hast du die Website nicht zu einem kleinen personalisierbaren News-Dienst ausgebaut?

Martin Virtel: Der Dienst existiert, er ist lediglich nicht öffentlich zugänglich. Viel genutzt wurde er unter anderem von Detlef Borchers.  Zu der Zeit, als ich für die tägliche Seite “Forschen und Entwickeln” bei der Financial Times Deutschland zuständig war, haben einige von uns – in einem  Team von zeitweise vier Menschen – das Ding benutzt, um Themen zu finden und die Nachrichtenspalte der Seite zu bestücken. Es gab zwischen 2002 und 2007 gemeinsam mit einigen Internet-Veteranen mehrere Anläufe, eine öffentlich zugängliche Website für den Bottino aufzubauen. Wir haben aber nicht genug Dinge gefunden, die den Bottino von Google Reader abheben können – und wir wollten nicht den besseren Google Reader bauen. Eine Lücke wäre ein Nachrichten-Netz gewesen, also so etwas wie Facebook für Nachrichtenjunkies – man könnte sich mit Menschen verbinden, die ähnliche Nachrichten wichtig finden.

Christiane Schulzki-Haddouti: Noch immer bieten heute nicht alles News-Websites RSS. Wäre das nicht etwas für Newsradar?

Martin Virtel: Es gibt da draußen einige Dienste für Menschen, die RSS-Feeds für RSS-Feed-lose Websites anbieten. Da braucht es nicht noch einen. Ich würde auch damit rechnen, dass sich Unternehmen wie der Spiegel-Verlag dagegen wehren, wenn eine andere Firma RSS-Feeds für ihre Nachrichten anbietet – vor allem, wenn das eine kleine Firma ist, die eher Klicks klaut als Klicks bringt (wie Google News das macht).

Christiane Schulzki-Haddouti: Du hättest ja aber einen kostenpflichtigen Ausschnittsdienst daraus schneidern können?

Martin Virtel: Einen Ausschnittsdienst hätte man mit ein wenig Startkapital daraus machen können. Ich habe es nicht getan, weil ich nicht Unternehmer genug bin. Peter Turi hat das mit Turi2 für die Medien (und zunehmend IT-)Branche ja getan, und ich glaube, dass es so etwas für die Autobranche, für Lebensmittel/Einzelhandel, für Maschinenbau, für Versicherungen, für Banken auch geben wird, sobald irgendjemand mit genug unternehmerischem und verlegerischem Geist darauf kommt, in so etwas zu investieren. Aber ich sehe keinen Grund, so einen Ausschnittdienst kostenpflichtig zu machen.

Christiane Schulzki-Haddouti: Eine letzte Frage noch: Warum bist mit Bottino nicht einfach als Beta in die Öffentlichkeit gegangen?

Martin Virtel: Ich bin kein Unternehmer, und hatte nebenbei einen Vollzeitjob, und Herr Craig von Craigslist bin ich auch nicht. Ich habe keinen Unternehmer gefunden, der mir vertraut hätte – auch deswegen, weil ich nie einen gesucht habe. Ein ernsthaftes Angebot, das Ding weiterzuentwickeln, kam ungefragt, aber zu dem Zeitpunkt fand ich es nicht mehr interessant genug.

Christiane Schulzki-Haddouti: Das finde ich schade. Aber Danke für die kleine Retrospektive!

About Christiane Schulzki-Haddouti

Freie IT- und Medienjournalistin. Hat dieses Blog 2007 im Rahmen der KoopTech-Analyse eingerichtet. Seit Beendigung des Projekts führt sie es als Multi-Autorenblog weiter. Sie führt ein persönliches Blog auf ihrer Homepage.
This entry was posted in Interview and tagged , , , , , , , . Bookmark the permalink.

2 Responses to News-Scraping selbst gemacht – Interview mit Martin Virtel

  1. Freut mich zu lesen, dass ich nicht der einzige Irre bin, der sich so etwas ausgedacht hat. Bei mir hieß das Ding erst Newscollector und später dann mit dem Aufkommen von RSS: myRSS. Auch wenn viele Feeds nur wenig von der eigentlichen Nachricht mitliefern, so finde ich es doch praktisch dass man die URLs und die Headline frei Haus geliefert bekommt. Von dort kann man sich ja weiterhangeln.

    Erstaunt bin ich, dass bottino schon seit Anfang an in Python programmiert wurde. Mein kleiner Helfer lief erst mit Perl, dann mit PHP und erst seit neuestem mit Python. Aber egal welche Programmiersprache verwendet wird: Für mich war immer das wichtigste die Datenbank dahinter. So kann man die Daten durchsuchen.

    Man sollte auch erwähnen, dass Scraping einige Nachteile hat: Die Webseiten können Ihren Aufbau ändern und damit das erfolgreiche Scraping vorübergehend verhindern. Außerdem bekommt man einige Dinge nur mit, wenn man die Webseite direkt besucht. Weil zum Beispiel eine News nicht unter News, sondern in einem anderen Format veröffentlicht wird.

  2. Norbert says:

    …habt ihr solltet euch mal drigger.com ansehen.

Comments are closed.