Womit kann ich arbeiten?

Der Entschluss ist gefasst: Der Heise-Newsticker will analysiert werden. Also ran an die Daten.

Betrachet man eine typische HeiseNews-Seite, so lassen sich zunächst ein paar klassiche Informationen für die spätere Analyse finden:

  • Titel
  • Datum/Uhrzeit der (ersten) Erstellung
  • Author
  • Anzahl Worte
  • Anzahl enthaltener Links

 


Damit könnten wir vermutlich eine erste Statistik aufsetzen, allerdings fehlt es noch an einer Kategorisierung der Nachrichten für schicke Grafiken und Korrelationen. Hierfür bieten sich bei heise.de mehrere Informationen der Webseite an:

  • "Mehr zum Thema":
    Unter dieser Überschrift wird in den meisten Nachrichten eine Liste von sogenannten "Themen" geführt. Diese verlinken zu Listen mit weiteren Artikeln dieser Themen. Die Anzahl dieser "Themen" ist von Nachricht zu Nachricht sehr unterschiedlich; teilweise sind garkeine Themen verlinkt. Inwiefern diese "Themen" für die Analyse dann noch geeignet sind, wird sich zeigen müssen.
  • "Forum zum Thema":
    Hier wird ein übergeordnetes Thema genannt, zu dem ein Forum existiert. Man kann dieses Forum durchaus als eine Art Kategorie ansehen. Leider fehlt aber auch dieser Link in diversen Nachrichten, so dass er nur sehr eingeschränkt zur Kategorisierung von Nachrichten verwendet werden kann.

 Aber eine News-Seite bietet noch weitere, spannende Informationen, die wir nutzen könnten:

  • Autor Kürzel:
    Es hängt in Klammern gesetzt am Ende des Artikels. Hiermit lässt sich eine schöne Zuordnung zwischen Namen und Kürzel aufstellen, die sich mit dem Impressum wunderbar abgleichen lässt.
  • Anzahl Kommentare:
    Sofern es schon welche gibt, bietet jede Artikel-Seite die Information über die bisher aufgelaufenen Kommentare. Dies ist ein erster Hinweis auf die Bedeutung des Artikels ... zumindest innerhalb die Heise-Community.
  • Hinweis dpa:
    Teilweise taucht vor dem Autor-Kürzel ein "dpa" auf (gerne auch "mit Material von dpa"). Ein Hinweis auf nicht selbsterstellte Inhalte. Schon im SpiegelMining war dies ein relevantes Thema; mal schauen, was sich bei Heise hieraus ableiten lässt.

Weitere interessante Daten liefert noch der html-Quelltext der Artikelseite unter den meta-Tags:

  • Autor:
    Auch hier taucht noch einmal ein Autoren-Name auf. Den nehmen wir auf jeden Fall mit.
  • Keywords:
    Dieser Tag enthält eine Komma-getrennte Liste mit Schlüsselwörten, die den Artikel einordnen lassen. Dies ist neben dem Themen-Forum und dem "mehr zum Thema" das dritte Feature, mit dem eine Kategorisierung der Artikel (und damit auch der Autoren und der kommentierenden Leser) möglich ist.
  • ID:
    Jeder News-Artikel auf heise.de ist über eine ID eindeutig gekennzeichnet. Diese ID taucht als meta-Tag auf, ist aber auchTeil der URL und wird an verschiedenen weiteren Stellen im html-Code verwendet. Hier haben wir schon mal einen schönen primären Index für die Datenbank :-)

Die ersten Daten fließen

Okay, also ran an die Arbeit: Ein Script geht auf eine gewünschte Woche im Archiv und stellt eine Liste mit Artikeln dieser Woche zusammen. Ein weiteres Script lädt diese Artikel nacheinander herunter und extrahiert die gewünschten Informationen. Diese landen in einer MySQL-Datenbank zur späteren Analyse. Da ich nicht alle Features sofort im Script implementieren wollte und zum jetzigen Zeitpunkt nicht abschätzen kann, was alles noch so interessant sein könnte, befolge ich lieber Davids Tipp: den Artikel-Quelltext auf der eigenen Platte ablegen. Neue Features lassen sich dann recht zügig extrahieren.

Für die ersten Tests trifft es zufällig zwei Wochen im Oktober 2016, die bereits ein grobes Bild erkennen lassen:

Die Verteilung der Artikel auf die (Wochen-)Tage macht Mut: das Wochenende ist erkennbar; irgendwas scheine ich richtig gemacht zu haben. Insgesamt 374 Artikel wurden gefunden und analysiert; die Summe aller Kommentare auf diese Artikel liegt bei knapp 40000. Sollten die beiden Wochen repräsentativ sein, kann über den Daumen mit 10000 Artikeln und 1 Mio Kommentare pro Jahr gerechnet werden. Tiefere Einblicke in die gecrawlten Features liefern ebenfalls plausible Daten: knapp 1100 verschiedene Keywords sind verwendet worden; das meistverwendete ist erstaunlicherweise "Apple". 60 Autoren wurden gezählt, sowie 96 verschiedene Themen-Foren.

Das macht doch schonmal Spaß! Als nächstes dann also weitere Wochen abtanken und langsam anfangen, auch die Kommentare zu analysieren ....

 

Kommentar schreiben


Sicherheitscode
Aktualisieren