Dezember 2016 - DataMining ist absolut faszinierend

Es ist Tag 2 des 33C3 und ich sitze in Saal 2. Gerade habe ich meine ersten Erfahrungen im Sub-tiltlen gesammelt und lausche nun dem Talk von David Kriesel "SpiegelMining": Öffentlich verfügbare Daten einfach mal tiefer analysieren und neue Schlüsse daraus ziehen. Ich bin absolut fasziniert von den Möglichkeiten und begeistert von den Techniken und Tools. Schnell reift der Gedanke: "das will ich auch!"

Stellt sich nur die Frage: woher kommen die Daten?
Einfach ebenfalls auf SpiegelOnline setzen wäre nicht das Richtige. Und erst ein Jahr Daten aufzeichnen zu müssen, bis es richtig losgehen kann, dauert mir irgendwie zu lange; da würde ich schon gerne direkt durchstarten. Also müssten es schon vorhandene Daten aus einem Archiv sein.

Ein Blick auf verschiedene News-Portale liefert auf den ersten Blick ein erfreuliches Bild: FAZ, Süddeutsche, Focus, Zeit, ... alle bieten in irgend einer Form Archive. Jedoch mit unterschiedlichen Zugangsmethoden und zeitlicher Tiefe; alles nicht wirklich erquickend. Irgendwann fällt mein Blick auf die Web-Seite, die sowieso meinen täglichen Lesestoff liefert: Der Heise-Newsticker!

Eigentlich hat der Newsticker alles was ich gesucht habe und bildet eine ideale Datenquelle:

  • Das Archiv ist ordentlich sortiert nach Jahren und Kalenderwochen
  • Das Archiv reicht bis 1996 zurück (keine Ahnung, ob ich bis dahin abtauchen werde)
  • Die Webseiten sind recht simpel aufgebaut und leicht zu crawlen
  • Das Leserforum-Archiv ist genauso detailliert verfügbar und leicht zu crawlen
  • Das Leserforum ist reichlich frequentiert und hat eine wunderschöne Bewertungsfunktion
  • Nicht zuletzt: Ich schaue eh regelmäßig vorbei und kann so gut auf Ereignisse reagieren

Alles in Allem eine perfekte Basis für spannende Analysen! Eine mit Spiegelmining vergleichbare Analyse sollte damit leicht zu machen sein. Mit dem Leserforum bieten sich dann aber noch ganz andere Möglichkeiten:

  • Gibt es den Freitagseffekt wirklich?
  • Lassen sich die Forum-Trolle identifizieren?
  • Wer sind die wirklichen Experten für welche Themen?
  • Wo sind die News-Perlen und wo sind die Kommentar-Perlen?
  • Wo sind die grünen und roten Wellen?

 Also: Frisch ans Werk ... die Daten warten.

Kommentar schreiben


Sicherheitscode
Aktualisieren