Zeige mir was du twitterst und ich sage dir, wer du bist

11.07.2018

Foto: © mekcar - stock.adobe.com

Ein einfacher Tweet verrät deutlich mehr über seinen Nutzer als dieser sich vorstellen kann. Das gilt auch dann, wenn der Nutzer bewusst versucht Informationen zu verschleiern. Das haben nun britische Forscher in einer Studie herausgefunden.

Thomas Borgböhmer, Redakteur beim Medienportal Meedia, berichtete gestern über die Studie „You are your Metadata“, die das Forschertrio Beatrice Perez, Mirco Musolesi und Gianluca Stringinhi vom University College London und dem Alan Turing Institute veröffentlicht hat. Für die Studie haben die Forscher untersucht, welche Metadaten, die ein Nutzer über Twitter versendet, Rückschlüsse auf seine Person zulassen. Dabei fanden die Studienautoren heraus, dass jeder Nutzer mit einem einfachen Tweet 144 Datenfelder übermittelte, die ihn einwandfrei und von einem auf Algorithmen basierenden maschinellen System identifizierbar machen. Inzwischen dürfte die Zahl der übermittelten Datenfelder sogar noch größer sein, denn die Untersuchung fand zwischen Oktober 2015 und Januar 2016 statt, also noch bevor Twitter die Zeichenbegrenzung von 140 auf 280 erhöhte. Zu den übermittelten Metadaten, die die Nutzer senden, fallen u.a. Informationen wie Account-Name, Zeit und Ort des Inhalts, favorisierte Accoungs, Follower, Links und Hashtags.

Aufgrund der hohen Informationsdichte schafften es drei verschiedene auf maschinellem Lernen basierende Systeme, die Identität des Nutzers zu ermitteln. Die Systeme wurden mit Tweets aus einem finalen Datensatz von ca. 5,4 Mio. Nutzern trainiert. Das beste System schaffte es mit einer Genauigkeit von 96,7 % die Identität des Nutzers zu ermitteln. Auch wenn sich die Untersuchung ausschließlich auf Twitter bezog, könne die Methode auch auf andere soziale Netzwerke angewendet werden.

Studienautorin Beatrice Perez erklärte gegenüber dem Online-Portal Wired UK, dass Leute annehmen würden, dass Online-Daten keine Rückschlüsse auf die Identität zuließen. Jedoch kann der Durchschnittsnutzer mit Leichtigkeit über die vermittelten Metadaten ausgemacht werden. Fatal sei dabei besonders, dass die meisten Menschen dies nicht sehen würden. So würde laut Perez kein vernünftiger Mensch einem Fremden auf der Straße erzählen, wo er wohne, aber möglicherweise auf Nachfrage mitteilen, wann er in seinem Schlafzimmer das Licht ein- und ausschalte. Und genau das sei die Mentalität mit Metadaten. “Die Leute glauben, das sei keine große Sache. Aber sobald ich diese Information mit den Meta-Informationen koppele, weiß ich genau, wann du zu Hause bist”, so Beatrice Perez.

Verschleierung zwecklos

Wenn ich weiß, dass meine Metadaten was verraten, kann ich doch einfach weniger Daten angeben. Doch diese Logik funktioniert nicht, wie die Forscher ebenfalls herausfanden: So ließen sie versuchsweise einzelne Datenfelder leer, um es dem System schwerer zu machen. Obwohl sie 60 % der Metadaten einfach durchmischten, schaffte es das System dennoch mit einer Wahrscheinlichkeit von 60 % die Identität der Versuchsperson herauszufinden. Somit sind Verschleierungsmethoden laut Beatrice Perez Verschleierungsmethoden ebenso ineffektiv wie die Anonymisierung von Datensätzen. (ahu)