Semantische Analyse von Twitter Daten

Social Networks wie Facebook, Twitter und aktuell auch Google Plus spielen sowohl im privaten als auch im geschäftlichen Bereich eine immer größere Rolle. Obwohl in diesen Netzwerken sehr viele belanglose Meldungen publiziert werden, findet man auch sehr interessante Daten die für viele Gebiete verwendet werden.Vor allem Twitter ist in den letzten Jahren dafür bekannt geworden, dass Breaking News Ereignisse schneller veröffentlicht und verbreitet werden als über herkömmliche Medien. In diversen wissenschaftlichen Projekten wird Twitter bereits für die automatische Erkennung von Erdbebenepizentren, für die Analyse der Meinung über öffentliche Personen, oder für das Extrahieren von sozialen Verbindungen verwendet.

A-SIT hat in zwei Projekten das Thema Twitter zum Fokus gemacht. Das prinzipielle Ziel dabei war festzustellen ob Daten von Twitter im IT-Security Bereich verwendet werden können.

Im ersten Projekt wurden die Grundlagen in Form eines Frameworks geschaffen, das für die Analyse von beliebigen Daten verwendet werden kann. Dafür werden unterschiedliche Technologien aus den Bereichen Maschinelles Lernen und Künstliche Intelligenz kombiniert, um eine breit anwendbare Analysemethode zu schaffen. Für eine detaillierte Beschreibung dieser Technologien wird auf folgende Publikationen verwiesen: [1], [2].

Im zweiten Projekt wurde dieses Framework für die Analyse von Twitter Daten im Bereich Botnetze angewendet. Dabei können Informationen und Wissen aus den Daten extrahiert werden. Diese Informationen dienen dazu einerseits einen schnellen Überblick über die Daten zu bekommen und andererseits zuvor unbekannte detallierte semantische Relationen zu erkennen.

Im Folgenden wird anhand einiger Beispiele gezeigt wie die Technologie für die Analyse von ca. 6000 Tweets im Bereich "Botnet" angewendet wurde.

Daten

Um die Datenmenge einzuschränken, wurde die Suche auf 8 Botnet relevante Suchabfragen aufgeteilt, die zusätzliche für die Thematik relevante Stichwörter enthalten.

  • botnet security
  • botnet spam
  • botnet command
  • botnet news
  • botnet web
  • botnet infect
  • botnet cloud
  • botnet irc

Anhand dieser Suchabfragen wurden 6311 Tweets im Zeitraum vom Jänner bis Juni 2011 extrahiert. Für die zeitlichen Analysen wird ein Intervall von einer Woche verwendet. Dies bedeutet, dass Tweets die innerhalb von 7 Tagen zusammen auftreten vom gleichen Zeitstempel repräsentiert werden.

Analysen

Um die prinzipielle Funktionsweise des Analysetools zu präsentieren werden hier einige Beispiele gezeigt. Für eine genaue Beschreibung der möglichen Analysen und der notwendigen Hintergrundinformationen wird auf die vorher genannten Publikationen [1] und [2] verwiesen, die das verwendete Analyseframework und die dazugehörige Weboberfläche beschreiben. In [1] werden dabei die gleichen Analysen wie hier auf ein anderes Thema angewendet: Den Sturz des Mubarak Regimes in Ägypten. Die dort beschriebene Vorgehensweise ist aber analog zu der folgenden:

Überblick

Für die Analyse einer großen Datenmenge spielt es eine entscheidende Rolle einen guten Überblick über die Daten zu bekommen.

Clustering

Das Framework bietet die Möglichkeit Tweets anhand der diskutierten Themen zu gruppieren. In diesem Beispiel wurden folgende Gruppierungen automatisch erkannt und erlauben einen schnellen Überblick über die enthaltenen Themen:

  • Cluster 1: Allgemeine Diskussion über Botnetze, Cybercrime und Implikationen. Stichwörter: web, spam, botnet, killer, cloud, mobile, internet, pc, malware
  • Cluster 2: Diskussionen über Malware, Smartphones, Lulzsec Cybercrime: Stichwörter: spam, malware, android, zombie, trojan, hacker, spyware
  • Cluster 3: Deaktivierung des Coreflood Botnets durch das FBI: Stichwörter: shut down, spam, ddos, takedown
  • Cluster 4: Deaktivierung des Rustock Botnets durch Microsoft: Stichwörter: rustock, takedown, russian, spammer, spam
  • Cluster 5: Einsatz von DNS für das Erkennen von Botnets: Stichwörter: dns, ddos, mobile
  • Cluster 6: Trends in Botnets, Research, Erkennen und Vermeiden: Stichwörter: java, trend, zeus, spam

Zeitlinie

Anhand der semantischen Relevanz von Tweets kann auch schnell eine Zeitlinie mit den wichtigsten Themen erstellt werden. Für die Übersicht werden hier auszugsweise Tweets gezeigt:

  • Wed Jan 26 09:44:28 CET 2011 ‎ Georgia Weidman warns Botnet attack on @Android phones over sms
  • Wed Feb 16 18:12:20 CET 2011 Waldec botnet contains nearly 500000 stolen email passwords, researchers discover
  • Sat Mar 05 01:42:44 CET 2011 Botnet, Trojan Activity Increased in February
  • Fri Mar 11 00:17:10 CET 2011 spyeye botmasters Hit Anti-Botnet Site with Denial of Service Attack Cybercriminals launched distributed-denial-of-service attacks a...
  • Sun Mar 20 08:11:30 CET 2011‎ Microsoft Foils Botnet; New Internet Sheriff. Hack In The Box ... [228] scraperwiki Turns Web Pages Into Usa... bit.lygfciaw
  • Wed Mar 30 15:50:28 CEST 2011‎ Spam Levels Cut By A Third With Rustock Botnet Takedown Microsoft's move to take down the Rustock botnet caused...
  • Thu Apr 14 03:21:49 CEST 2011‎ Massive 'Coreflood' Botnet Shut Down By DOJ, FBI The Department of Justice and the FBI said Wednesday that the ...
  • Thu Apr 21 19:42:17 CEST 2011‎ Botnet takedown sets legal, not technical, precedent via Network World In the security
  • Fri May 06 02:29:43 CEST 2011‎ Multiplatform Java Botnet Spotted In the Wild Slashdot
  • Thu May 12 16:54:20 CEST 2011‎ So the Zeus Botnet worm that infected our shared server last week is getting released as open source today. Hopefully better defenses now.
  • Wed May 25 20:00:37 CEST 2011‎ Microsoft found 400k emails hacked in just 1 computer in its Rustock Botnet investigation.
  • Fri Jun 03 17:53:57 CEST 2011‎ ... report shows Android devices now under attack from mobile botnet technology.
  • Fri Jun 17 03:29:00 CEST 2011‎ Spam rates hit five-year low, but phishing is on the rise Thanks to successful botnet shutdowns , the amount of spam
  • Wed Jun 22 00:39:18 CEST 2011 ‎ Krebs on Security | FBI Scrubbed 19000 PCs Snared By Coreflood Botnet

Da hier nur die Tweets mit der größten semantischen Relevanz dargestellt werden, ermöglicht diese Analyse einen schnellen Überblick über die wichtigsten Themen der analysierten Daten. Diese sind auch in den oben genannten Clustern zu sehen. Zwei der in der Zeitlinie erkannten Themen die das Deaktivieren von Rustock und Coreflood betreffen, werden in den weiteren Beispielen genauer analysiert.

Relationen

Eine wichtige Rolle spielt die Analyse der semantischen Relationen zwischen einzelnen Wörtern die in den Tweets verwendet werden. Dabei beeinflusst die Häufigkeit des gemeinsamen Auftretens von unterschiedlichen Wörtern die Stärke der semantischen Relation.

Botnet

Als Beispiel werden hier die semantischen Relationen des Terms "Botnet" gezeigt:

Relation Botnet

Anhand der Grafik ist ersichtlich wie stark andere Begriffe mit dem Term Botnet verwandt sind. Hier kann festgestellt werden, dass die Namen der in den Daten behandelten Botnetze, semantisch relevant sind. Beispiele dafür sind: Waledac, Zeus, oder Bagle. Ein weiteres Beispiel ist z.B. die Gruppe Lulzsec die in diesem Zeitraum mit Angriffen auf sich aufmerksam machte.

Waledac

Als weiteres Beispiel werden die semantischen Relationen von Waledac genommen, ein Botnet das für den Diebstahl von Zugansdaten verwendet wurde. Dies ist sofort anhand der am stärksten verwandten semantischen Begriffen ersichtlich. Zusätzlich zu den Begriffen werden auch noch die relevanten Zeitstempel angezeigt.

Relation Waledac

 

Semantische Suche

Die verwendete Technologie erlaubt es semantische Suchanfragen auszuführen, die die einfache Suche nach übereinstimmenden Wörtern durch semantisch verwandte Begriffe erweitert. Die Technologie wird anhand der zwei folgenden Beispiele erklärt:

Suche nach Bagle

In diesem Beispiel wird eine semantische Suche durchgeführt die nach dem Botnetz Bagle sucht. Tweets, die diesen Term erhalten werden zuerst gefunden und beim Lesen dieser Tweets erkennt man, dass Bagle im folgenden Zusammenhang genannt wird:

Tue Mar 29 18:49:02 CEST 2011: Spam Volumes Dip Slightly as Bagle Botnet Fills Rustock Shoes While global spam volumes dropped dramatically

Der Hintergrund hier ist, dass das Rustock Botnetz von Sicherheitsexperten von Microsoft deaktiviert wurde. Bagle hat in diesem Zusammenhang zu diesem Zeitpunkt die Rolle des größten Spam Botnetzes übernommen. Da die verwendete Analyse die semantische Relationen zwischen den Wörtern analysiert, können aber neben den Tweets die den Term Bagle enthalten, auch andere semantisch relevante Tweets wie der folgende gefunden werden:

Sun Mar 20 04:50:14 CET 2011:‎ Rustock Botnet Flatlined, Spam Volumes Plummet The global volume of junk e-mail sent worldwide took a massive nosedive.

Dieser Tweet kann gefunden werden, da verschiedene Begriffe darin mit dem Term Bagle verknüpft sind. Beispiele dafür sind Begriffe aus dem vorigen Tweet wie Spam und Rustock.

Suche nach 17.03.2011

Ein weiteres Beispiel kann mit einer zeitlichen Komponente durchgeführt werden. Bei der Suche nach Tweets über das Rustock Botnetz stellt man fest, dass dieses am 17.03.2011 von Sicherheitsexperten deaktiviert wurde. Wie im folgenden Bild ersichtilich, kann dies anhand der semantischen Relationen des Terms Rustock festgestellt werden, da hier der Zeitstempel 2011-3-17 eine große Relevanz hat. Ein weiterer stark verknüpfter Zeitstempel ist 2011-3-24. Zu diesem Zeitpunkt wurde auf Twitter diskutiert welche Auswirkungen das Deaktivieren von Rustock hatte (siehe Diskussion über Bagle zuvor).

Relation Rustock

Die folgende Abbildung zeigt noch die Relationen des Zeitstempels 2011-3-17. Hier ist gleich die Relevanz von Rustock und anderen Begriffen wie takedown, microsoft oder spam, die beim Deaktivieren eine Rolle gespielt haben, erkennbar.

Relation 2011-3-17

Die letzte Abbildung zeigt, dass der Zeitstempel 2011-3-17 einen semantischen Fingerabdruck hat. Aufgrund der Verbindung des Zeitstempels mit den analysierten Begriffen kann auch nach anderen Zeitstempeln gesucht werden an denen ähnliche Ergeignisse auftraten. So ergibt die Suche nach 2011-3-17 neben dem vorher genannten 2011-3-24 Stempel auch den Zeitstempel 2011-4-14. Die Ereignisse zu diesem Zeitpunkt werden von folgendem Tweet zusammengefasst:

Wed Apr 20 15:35:22 CEST 2011: ‎ U.S. Government Takes Down Coreflood Botnet

Man sieht also, dass zu diesem Zeitpunkt das Coreflood Botnetz von der amerikanischen Regierung deaktiviert wurde. Da für diese Beschreibung semantisch ähnlich die Beschreibung der Deaktivierung des Rustock Botnetzes ist, ergibt sich die Relation zwischen den Zeitstempeln 2011-3-17, 2011-3-24 und 2011-4-14.

Relation 2011-4-14

 

 

Zeitlich

Eine etwas andere zeitliche Analyse kann über die semantische Aktivität über die Zeit gewonnen werden. Dazu wird die semantische Relevanz der Zeitstempel eines Begriffs oder Tweets in einer Grafik aufgetragen. Es werden dazu zwei Beispiele gebracht.

Coreflood

Im ersten Beispiel wird die semantische Entwicklung des Begriffs Coreflood gezeigt. Die stärkste Aktivität ist zum Zeitpunkt des Deaktivieren dieses Botnets zu sehen (Mitte bis Ende April).

 

Time Coreflood

 

Tweet

Es kann auch die semantische Bedeutung eines gesamten Tweets über die Zeit hinweg dargestellt werden. So ergibt der Tweet - Wed Apr 27 22:06:45 CEST 2011:‎ Web Host Industry Review FBIs Coreflood Botnet Seizure a Success So Far Reports - die zeitliche Relevanz, dargestellt in der folgenden Abbildung.

 

Time Coreflood

 

Dabei fällt zuerst die starke semantische Aktivität Im Zeitraum von Mitte bis Ende April auf. Dies ergibt sich aus dem Erstellungsdatum des Tweets (27.04.2011) und der Tatsache, dass das darin beschriebene Ereignis - das Deaktivieren des Coreflood Netzwerks - zu diesem Zeitpunkt stark diskutiert wurde. Interessant ist aber auch die starke Aktivität Mitte März. Zu diesem Zeitpunkt wurde das Rustock Botnetz deaktiviert. Coreflood wurde hier noch nicht erwähnt, allerdings wird das Deaktivieren des Rustock Netzwerkes mit ähnlichen Termen beschrieben wie das Deaktivieren des Coreflood Netzwerkes. Aus diesem Grund hat der oben genannte Tweet auch schon im März eine große Relevanz. Dies ist umgekehrt auch bei Tweets ersichtlich die das Deaktivieren des Rustock Netzwerkes beschreiben.

Basierend auf dieser semantischen Aktivität über die Zeit können auch zeitlich verwandte Begriffe oder Tweets gesucht werden. Damit lassen sich zusätzlich Themen finden die zwar eine ähnliche zeitliche Entwicklung haben, aber semantisch nicht verwandt sind.

Zusammenfassung

Die hier gezeigten Beispiele und Links auf die wissenschaftlichen Publikationen stellen einen Anfang für weitere Analysen basierend auf diesen Technologien dar. Aufbauend auf den Erkenntnissen und dem vorhanden Framework sollen die aktuellen Analysen verbessert und erweitert werden.

Publikationen

  1. Peter Teufl, Stefan Kraxberger - Extracting Semantic Knowledge from Twitter
  2. Peter Teufl, Günther Lackner - Knowledge Extraction from RDF Data with Activation Patterns