Heise Sicherheits NewsCloudflare hat inzwischen eine Stellungnahme zu den Ursachen des Ausfalls veröffentlicht. Demnach war kein Cyber-Angriff dafür verantwortlich, sondern Umstellungen im Rahmen von geplanten Stabilitätsverbesserungen. 19 der am meisten ausgelasteten Rechenzentren sollen dabei mit einem zusätzlichen Routing-Layer mehr Verbindungen untereinander ausbilden (ein Mesh bilden). Dadurch sollen sich Netzwerkteile etwa zu Wartungszwecken gezielter deaktivieren und wieder aktivieren lassen.Zur Verwaltung des Routings setzt Cloudflare auf das Border Gateway Protocol (BGP). Administratoren definieren Richtlinien, welche Prefixes (also eine Sammlung von aufeinanderfolgenden IP-Adressen) an die BGP-Peers verteilt und von ihnen akzeptiert werden. Die einzelnen Elemente in den Richtlinien werden sequenziell ausgewertet; am Ende wird jeder Prefix entweder verteilt und akzeptiert oder eben nicht. Eine Änderung an der Richtlinie kann bedeuten, dass ein zuvor verteilter Prefix nicht länger verteilt wird. Dies nennt sich "zurückziehen" und die IP-Adressen sind nicht länger aus dem Internet erreichbar, erläutert Cloudflare.Eine Umsortierung der Ausdrücke in den BGP-Richtlinien führte beim Ausrollen dazu, dass ein kritisches Bündel an IP-Adressen zurückgezogen wurde. Durch die zurückgezogenen Prefixe hatten die Cloudflare-Ingenieure zusätzliche Probleme, die betroffenen Orte zu erreichen und die problematischen Änderungen rückgängig zu machen. Cloudflare verfüge über Backup-Prozeduren zum Umgang mit solchen Ereignissen und konnte damit die Kontrolle über betroffene Rechenzentren wiedererlangen.Die Korrekturen verzögerten sich schließlich noch etwas, da die Netzwerkingenieure die Änderungen der jeweils anderen durchgegangen und teils auf vorherige Stände zurückgesprungen sind – dadurch trat das Problem sporadisch wieder auf.In der Stellungnahme vertieft Cloudflare zudem noch die Details zu den Fehlerursachen. Die Änderung, die zu dem Ausfall führte, betrifft einen Konfigurationseintrag "REJECT-THE-REST", der vor zwei weiteren wichtigen "SITE-LOCAL"-Einträgen von zu routenden Adressen landete. Dahinter verbargen sich die lokalen Adressen, die mit dem Verteilen der Regeln nicht mehr verteilt und akzeptiert wurden.

weiterlesen: RSS Quelle öffnen