Il più grande downtime di Facebook e di tutti i suoi servizi affiliati WhatsApp e Instagram. “È stato come se qualcuno avesse “tirato i cavi” dai loro data center e li avesse scollegati da Internet.”
Cosa è successo?
Probabilmente avrete già letto mille articoli che ne parlano, è molto semplice, il malfunzionamento è stato dovuto da problemi BGP e DNS.
Forse quello che non avrete letto negli altri articoli è: cosa diavolo è il BGP?
Cos’è il BGP
Iniziamo da qui: Internet è letteralmente una rete di reti, ed è legata insieme da BGP.
BGP sta per Border Gateway Protocol. È un meccanismo per scambiare informazioni di routing tra sistemi autonomi (AS) su Internet. I grandi router che fanno funzionare Internet hanno enormi liste, costantemente aggiornate, dei possibili percorsi che possono essere utilizzati per consegnare ogni pacchetto di rete alle loro destinazioni finali. Senza BGP, i router di Internet non saprebbero cosa fare e Internet non funzionerebbe.
Il BGP è comunemente associato ad un “Servizio postale”, questo perché è il protocollo responsabile dell’instradamento dei dati, stabilisce quindi qual è il modo più efficiente di individuare e riconsegnare informazioni. Per farlo BGP consulta e percorre diversi AS che funzionano, volendo mantenere il parallelismo con il servizio postale, come singoli uffici postali. La richiesta passa quindi grazie a BGP tramite diversi AS, effettuando più “Hop”.
Gli AS sono solitamente mantenuti da grandi aziende (tra cui Facebook) e istituzioni come università o governi, e una sbagliata configurazione del BGP può tradursi quindi, come abbiamo visto ieri, in un evento distruttivo, e causare l’incapacità dei DNS di risolvere i domini web.
Il BGP quindi permette ad una rete (per esempio Facebook) di comunicare la sua presenza alle altre reti che formano Internet. Quello che è successo ieri sera è che Facebook ha smesso all’improvviso di annunciare la sua presenza, gli ISP e le altre reti quindi non hanno potuto trovare la rete di Facebook che quindi è risultata non disponibile (ragion per cui anche il dominio Facebook.com risultava in vendita).
Facebook, tramite una scorretta configurazione del BGP, ha quindi smesso di indicare l’esistenza dei propri AS, e conseguentemente i DNS non sono più stati in grado di andare a risolvere i nomi dominio associati ai prodotti di Facebook.
Che cos’è il DNS e come funziona
Quando qualcuno digita un URL come https://facebook.com nel browser, il resolver DNS, responsabile della traduzione dei nomi di dominio in indirizzi IP effettivi a cui connettersi, prima controlla se ha qualcosa nella sua cache e la usa. In caso contrario, cerca di ottenere la risposta dai nameserver del dominio, tipicamente ospitati dall’entità che lo possiede.
Se i nameserver sono irraggiungibili o non rispondono per qualche altra ragione, allora viene restituito un SERVFAIL e il browser dà un errore all’utente.
A causa del fatto che Facebook ha smesso di annunciare le rotte dei loro prefissi DNS attraverso BGP, i nostri e tutti gli altri resolver DNS non avevano modo di connettersi ai loro nameserver.
Il comportamento umano e la logica delle applicazioni entrano in gioco e causano un altro effetto esponenziale: uno tsunami di traffico DNS aggiuntivo.
Questo accade in parte perché le applicazioni non accettano un errore come risposta e iniziano a riprovare, a volte in modo aggressivo, e in parte perché anche gli utenti finali non accettano un errore come risposta e iniziano a ricaricare le pagine, o chiudono e rilanciano le loro applicazioni, a volte anche in modo aggressivo.
Il dominio di Facebook
Facebook, Instagram e WhatsApp hanno ripreso a funzionare dopo circa sette ore in Europa e negli Stati Uniti, ma Il black monday di Facebook, dovuto anche alla whistleblower Frances Haugen, è costato a Mark Zuckerberg circa sei miliardi di dollari
Nei forum, su twitter, su Telegram, tutti servizi che ovviamente hanno avuto un picco di utilizzo, non è mancata la riflessione che da molto tempo e in molti si pongono, quanto è rischioso il monopolio mediatico dell’azienda di Zuckerberg?
Ma soprattutto, quanto siamo dipendenti dai social network?
(Fonte: Understanding How Facebook Disappeared from the Internet di Celso Martinho e Tom Strickx)
ServizioContinuous Monitoring
Il monitoraggio in tempo reale trasmette lo stato attivo e continuo di un ambiente IT, permettendo alle risorse adibite di identificare immediatamente problemi e anomalie, ma anche di rivelare e prevedere tendenze e prestazioni.
Approfondisci