Zwischen den Zeilen lesen: Braunschweiger IT-Experten entwickeln Schutz gegen E-Mail-Betrugsmasche Wie man Spear Phishing mit E-Mail-Strukturdaten und Maschinenlernen erkennen kann

Beim Spear-Phishing handelt es sich um eine Infiltrationsmethode, die mit manipulierten E-Mails auf einzelne Personen abzielt. Während herkömmliche Phishing-Mails für aufmerksame Empfänger als Betrugsversuch erkennbar sind, können bei Spear Phishing-Mails selbst geübte Nutzer kaum ihre Authentizität feststellen. Der Grund dafür ist, dass der Angreifer seine E-Mails individuell auf eine Person und ihr Umfeld zuschneidet. So getarnt tappt der Nutzer in die Falle und öffnet schädliche Dateianhänge oder Links zu ungewünschten Webseiten. Gegen diese Art der Internetkriminalität haben Wissenschaftler der Technischen Universität Braunschweig gemeinsam mit Partnern einen Abwehrmechanismus entwickelt.

Ein Team aus Forschern des Instituts für Systemsicherheit an der TU Braunschweig, Mitarbeitern der Genua GmbH und Kollegen der Friedrich-Alexander-Universität Erlangen-Nürnberg hat einen vielsprechenden Ansatz zur Erkennung von Spear Phishing entwickelt. Ihre lokale, empfängerseitige und datenschutzfreundliche Methode basiert auf Verfahren des maschinelles Lernens. „Unsere Methode kann gefälschte E-Mails mit einer Erkennungsrate von 90 Prozent ermitteln. Dafür identifizieren wir Unregelmäßigkeiten in der Struktur von E-Mails, die ohne besonderes Hintergrundwissen des Angreifers nicht gefälscht werden können“, sagt Professor Konrad Rieck vom Institut für Systemsicherheit an der TU Braunschweig.

E-Mail-Kommunikation ist ein bevorzugtes Einfallstor für Angreifer, um sich Zugang zu Organisationen und Unternehmen zu verschaffen, Informationen auszuspionieren oder Schadsoftware zu platzieren. Ein grundsätzliches Problem in der E-Mailkommuniktion ist das Mail-Spoofing, also die Manipulation von Daten im E-Mail-Header. Einfache gefälschte Mails kann ein Empfänger aufgrund von unplausiblen Absenderangaben, Übersetzungs- und Formatfehlern oder anderen sichtbaren Inkonsistenzen leicht als Spam einordnen. Bei einem gezielten Angriff hingegen orientiert sich der Angreifer an persönlichen Daten des Empfängers und passt sich an sein Verhalten an. Der Angreifer formuliert und gestaltet seine E-Mail maßgeschneidert, so dass er dem Empfänger größtmögliche Authenzität vortäuscht: Die im Mailtext angesprochenen Themen scheinen glaubwürdig und die Schreibweisen stimmig. Der Absender ist eine vertrauenswürdige Quelle. Die Bedrohung ist somit nicht mehr erkennbar, der Nutzer akzeptiert die E-Mail als legitim.

Unzureichender Schutz

Allgemeine Anti-Spoofing-Methoden wie das Sender Policy Framework (SPF), DomainKeys Identified Mail (DKIM) und Domain Message Authentication Reporting & Conformance (DMARC) können bei der Validierung des Absenders helfen. Auch digitale Unterschriften wie PGP und S/MIME erlauben es, den Absender zu verifizieren. Leider werden diese Sicherheitsmaßnahmen selten in der Praxis angewendet. In der Stichprobe zur Evaluierung der Braunschweiger Detektionsmedthode mit rund 700.000 anonymisierten Mails verfügten weniger als fünf Prozent über Schutzmaßnahmen wie DKIM.

Da es sich bei Spear Phishing also um E-Mails mit kompromittiertem Inhalt handelt, suchten die Wissenschaftler nach einer Analysemethode, die nicht auf den Inhalt der Nachrichten zurückgreift. „Wir müssen also zwischen den Zeilen lesen“, so Prof. Rieck. Der Sender hinterlässt meist über lange Zeit konsistente, individuelle Merkmale in der Struktur seiner versandten E-Mails. Auch wenn der Angreifer die Authentizität von E-Mails nachstellen kann, stellt ihn das Nachahmen der internen Mail-Struktur vor große Herausforderungen. Alle Unregelmäßgkeiten in der E-Mailstruktur können demnach wertvolle Hinweise auf eine Manipulation geben. Um diese Unregelmäßigkeiten zu erfassen, haben die Forscher Gruppen von Merkmalen der E-Mailstruktur identifiziert.

Nutzermailbox als Input

Diese Merkmalsgruppen charakterisieren E-Mails beliebig vieler Absender, die im Empängerpostkasten ankommen. Um festuzustellen, welche E-Mail verdächtig ist, werden mit Hilfe des maschinellen Lernens Absenderprofile erstellt. E-Mails werden als „spoofed“ klassifiziert, wenn es zwischen Absender und dem Profil bzw. den Mekmalsvektoren Diskrepanzen gibt.

Die Erkennungsmethode wurde an einem Sample mit realen E-Mails getestet. Die Forscher interessierte besonders, wie zuverlässig ihre entwickelte Methode bei unterschiedlichen Wissensleveln des Angreifers funktioniert. Für die Evaluierung wurden anonymisierte E-Mails aus 92 Postfächern extrahiert, wobei mindestens zwei Mails eines jeden Absenders vorliegen mussten (eine Trainings- und eine Test-Mail). Das Dataset bestand aus 760.603 E-Mails von 17.381 Absendern.

Die Wissenslevel des Angreifers teilten die Forscher in Szenarien auf. „Die Evaluierung hat gezeigt, dass das Erkennungsmodell zuverlässig Tausende Absender klassifizieren und gefälschte E-Mails erkennen kann“, sagt Prof. Rieck. Voraussetzung sei jedoch, dass der Angreifer nur über ein begrenztes Wissen über die Strukturdaten vertrauenswürdiger E-Mail verfüge.

Problematisch wird es, wenn die Angreifer aufgrund höherer Sensibilisierung der Nutzer und besserer Erkennungsmethoden ihre Strategie verfeinern. Trotz allem sind die Hürden für Angreifer sehr hoch, an Detailinformationen über Transport-Infrastruktur und Kopien von E-Mails des Zielempfängers zu gelangen.