Cloudflare menjelaskan bagaimana ia berhasil merusak internet

Sebagian besar web (termasuk Vulture Central Anda sendiri) terputus dari internet pagi ini karena jaringan pengiriman konten Cloudflare mengalami pemadaman yang dilakukan sendiri.

Insiden tersebut dimulai pada 0627 UTC (2327 Waktu Pasifik) dan berlangsung hingga 0742 UTC (0042 Pasifik) sebelum perusahaan berhasil membuat semua pusat datanya kembali online dan memverifikasi bahwa mereka berfungsi dengan benar. Selama waktu ini berbagai situs dan layanan yang mengandalkan Cloudflare menjadi gelap sementara para insinyur dengan panik bekerja untuk memperbaiki kerusakan yang telah mereka lakukan beberapa jam sebelumnya.

“Pemadaman,” dijelaskan Cloudflare, “disebabkan oleh perubahan yang merupakan bagian dari proyek jangka panjang untuk meningkatkan ketahanan di lokasi tersibuk kami.”

Oh, ironi.

Apa yang terjadi adalah perubahan pada kebijakan iklan awalan perusahaan, yang mengakibatkan penarikan subset awalan yang kritis. Cloudflare memanfaatkan BGP (Border Gateway Protocol). Sebagai bagian dari protokol ini, operator menentukan kebijakan mana (alamat IP yang berdekatan) yang diiklankan atau diterima dari jaringan (atau peer).

Mengubah kebijakan dapat menyebabkan alamat IP tidak lagi dapat dijangkau di Internet. Karena itu seseorang akan berharap bahwa kehati-hatian yang ekstrim akan diambil sebelum melakukan hal seperti itu …

Kesalahan Cloudflare sebenarnya dimulai pada 0356 UTC (2056 Pasifik), saat perubahan dilakukan di lokasi pertama. Tidak ada masalah – lokasi menggunakan arsitektur lama daripada versi baru Cloudflare yang “lebih fleksibel dan tangguh”, yang dikenal secara internal sebagai MCP (Multi-Colo Pop.) MCP berbeda dari sebelumnya dengan menambahkan lapisan perutean untuk membuat jala koneksi. Menurut teori, potongan-potongan jaringan internal dapat dinonaktifkan untuk pemeliharaan. Cloudflare telah meluncurkan MCP ke 19 pusat datanya.

Maju ke 0617 UTC (2317 Pasifik) dan perubahan diterapkan ke salah satu lokasi tersibuk perusahaan, tetapi bukan lokasi yang mendukung MCP. Segalanya tampak baik-baik saja… Namun, pada pukul 0627 UTC (2327 Pasifik), perubahan tersebut mengenai lokasi yang mendukung MCP, mengguncang lapisan jala dan… menghancurkan 19 lokasi.

Lima menit kemudian perusahaan mengumumkan insiden besar. Dalam waktu setengah jam akar penyebab telah ditemukan dan para insinyur mulai mengembalikan perubahan tersebut. Sedikit mengkhawatirkan, butuh waktu hingga 0742 UTC (0042 Pasifik) sebelum semuanya selesai. “Ini tertunda karena insinyur jaringan membahas perubahan satu sama lain, mengembalikan pengembalian sebelumnya, menyebabkan masalah muncul kembali secara sporadis.”

Orang dapat membayangkan kepanikan di menara Cloudflare, meskipun kami tidak dapat membayangkan proses terkontrol yang menghasilkan skenario di mana “insinyur jaringan melakukan perubahan satu sama lain”.

Kami telah meminta perusahaan untuk mengklarifikasi bagaimana hal ini terjadi, dan pengujian apa yang dilakukan sebelum perubahan konfigurasi dilakukan, dan akan memperbarui jika kami menerima tanggapan.

CEO Mark Boost dari pakaian asli Cloud Civo (sebelumnya dari LCN.com) mengecam tentang pemadaman: “Pagi ini adalah peringatan untuk harga yang kami bayarkan karena ketergantungan berlebihan pada penyedia cloud besar. Ini benar-benar tidak berkelanjutan untuk sebuah pemadaman listrik dengan satu penyedia mampu menghadirkan sebagian besar internet offline.

“Pengguna saat ini mengandalkan konektivitas konstan untuk mengakses layanan online yang merupakan bagian dari kehidupan kita, membuat pemadaman sangat merusak…

“Kita harus ingat bahwa skala bukanlah jaminan waktu aktif. Penyedia cloud besar harus mengelola tingkat kerumitan yang tinggi dan komponen bergerak, yang secara signifikan meningkatkan risiko pemadaman.” ®

Leave a Comment