ความเปราะบางของการรวมศูนย์คลาวด์ถูกเปิดเผย ~AWS ขัดข้อง 20 ตุลาคม ส่งผลกระทบต่อ 2,500 บริษัท ความเสียหายทางเศรษฐกิจหลายแสนล้านดอลลาร์~

ความเปราะบางของการรวมศูนย์คลาวด์ถูกเปิดเผย ~AWS ขัดข้อง 20 ตุลาคม ส่งผลกระทบต่อ 2,500 บริษัท ความเสียหายทางเศรษฐกิจหลายแสนล้านดอลลาร์~ Cloud
Cloud

โครงสร้างพื้นฐานทางธุรกิจสมัยใหม่พึ่งพาผู้ให้บริการคลาวด์รายใหญ่เพียงไม่กี่ราย ความเปราะบางนี้ถูกเปิดเผยจากความขัดข้องครั้งใหญ่ของ AWS วันที่ 20 ตุลาคม 2025

เมื่อวันที่ 20 ตุลาคม 2025 Amazon Web Services (AWS) ประสบกับความขัดข้องครั้งใหญ่เป็นเวลา 15 ชั่วโมง เว็บไซต์ติดตามความขัดข้อง Downdetector ได้รับรายงานจากผู้ใช้มากกว่า 11 ล้านครั้ง บริษัทมากกว่า 2,500 แห่งได้รับผลกระทบโดยตรง ผู้เชี่ยวชาญชี้ว่าผลกระทบทางเศรษฐกิจรวมอาจสูงถึงหลายแสนล้านดอลลาร์

การรวมศูนย์ของตลาดคลาวด์และตำแหน่งของ AWS

บริษัทสามรายคือ AWS, Microsoft และ Google ครอบครองตลาดคลาวด์ทั่วโลกมากกว่า 66% เพียง AWS เองก็ครอบครอง 30% ถึง 41% ของตลาด โครงสร้างตลาดนี้เป็นปัจจัยที่ขยายผลกระทบของความขัดข้องในครั้งนี้

รีเจียน US-EAST-1 (เวอร์จิเนียเหนือ) ของ AWS เปิดให้บริการในปี 2006 เป็นรีเจียนที่เก่าแก่และใหญ่ที่สุด AWS สร้างฟังก์ชันพื้นฐานจำนวนมากไว้ในรีเจียนนี้

สิ่งสำคัญคือเอกสารทางการของ AWS เองระบุว่า control plane ของบริการระดับโลกจำนวนมากถูกโฮสต์ไว้ที่ US-EAST-1 เท่านั้น บริการเหล่านี้ประกอบด้วย IAM, Route 53 และ CloudFront

แม้ลูกค้าจะรัน workload ในรีเจียนที่อยู่ห่างไกลทางภูมิศาสตร์ แต่เมื่อทำงานกับ control plane ก็ยังต้องพึ่งพา US-EAST-1 ความขัดข้องครั้งนี้พิสูจน์ “ความพึ่งพาที่ซ่อนอยู่” นี้อย่างชัดเจน

การเกิดและการขยายตัวของความขัดข้อง

ความขัดข้องเกิดขึ้นเวลา 03:11 น. ตามเวลาฝั่งตะวันออกของสหรัฐฯ สาเหตุโดยตรงคือระบบภายในที่ตรวจสอบความแข็งแรงของ network load balancer ทำงานผิดปกติ ความขัดข้องเบื้องต้นนี้ทำให้เกิดปฏิกิริยาลูกโซ่ และปรากฏเป็นความล้มเหลวในการแก้ไข DNS สำหรับ API endpoint ของ DynamoDB

DynamoDB ไม่เพียงเป็นพื้นฐานของแอปพลิเคชันนับไม่ถ้วน แต่ยังเป็นพื้นฐานของบริการ AWS อื่นๆ อีกมากมาย สถานะที่ไม่สามารถเข้าถึงได้นี้ทำให้เกิดความขัดข้องในระดับแอปพลิเคชันอย่างกว้างขวาง มีรายงานอย่างเป็นทางการว่าบริการภายใน AWS อย่างน้อย 64 ถึง 108 รายการได้รับผลกระทบ

สิ่งสำคัญคือข้อมูลเองยังปลอดภัยและไม่สูญหาย แต่กลไกในการค้นหา การยืนยันตัวตน และการเข้าถึงข้อมูลล้มเหลวโดยสิ้นเชิง นี่เป็นความขัดข้องประเภทที่ตรวจจับได้ยากกว่าการสูญหายของข้อมูลแบบธรรมดา

ผลกระทบที่หลากหลาย

บริการที่ได้รับผลกระทบมีหลากหลาย แพลตฟอร์มโซเชียลมีเดียและเกมอย่าง Snapchat, Reddit, Fortnite, Roblox ทำงานไม่ได้ บริการทางการเงินอย่าง Coinbase และ Robinhood และบริการสตรีมมิ่งอย่าง Netflix และ Disney+ ก็หยุดทำงาน

ผลกระทบที่รุนแรงเป็นพิเศษคือผลต่อบริการสาธารณะ แพลตฟอร์มจัดการการเรียนรู้ Canvas หยุดทำงาน ทำให้นักศึกษาในมหาวิทยาลัยหลายแห่งในสหรัฐฯ ไม่สามารถเข้าถึงสื่อการเรียนรู้ได้ เว็บไซต์กรมสรรพากรของสหราชอาณาจักร (HMRC) ก็ใช้งานไม่ได้ ส่งผลต่อการชำระภาษี

การวิเคราะห์เจาะจงมากขึ้นคาดว่า Amazon เองสูญเสียประมาณ 72 ล้านดอลลาร์ต่อชั่วโมง Snapchat สูญเสียประมาณ 612,000 ดอลลาร์ และ Zoom สูญเสียประมาณ 532,000 ดอลลาร์ CEO ของบริษัทตรวจสอบประสิทธิภาพอินเทอร์เน็ต Catchpoint ชี้ว่า เมื่อพิจารณาการสูญเสียผลิตภาพของแรงงานนับล้านคนและการหยุดชะงักของกิจกรรมทางธุรกิจ ผลกระทบทางเศรษฐกิจรวมอาจ “สูงถึงหลายแสนล้านดอลลาร์ได้อย่างง่ายดาย”

ในทางกลับกัน ราคาหุ้นของ Amazon ลดลง 0.8% ชั่วคราวระหว่างเกิดความขัดข้อง แต่ฟื้นตัวในภายหลัง นี่แสดงว่านักลงทุนคาดหวังการแก้ไขที่รวดเร็ว และยังคงเชื่อมั่นต่อตำแหน่งที่โดดเด่นของบริษัทในตลาด

การประเมินกลยุทธ์มัลติคลาวด์ใหม่

หลังจากความขัดข้องครั้งนี้ ผู้เชี่ยวชาญหลายคนเรียกร้องให้ใช้กลยุทธ์มัลติคลาวด์ เพื่อหลีกเลี่ยงการติดอยู่ในพื้นที่ความล้มเหลวของผู้ให้บริการรายเดียว

อย่างไรก็ตาม นักวิเคราะห์ของ Gartner มีมุมมองที่ระมัดระวังมากกว่า พวกเขาระบุว่า สำหรับองค์กรส่วนใหญ่ กลยุทธ์มัลติคลาวด์ที่ดำเนินการไม่เพียงพอจะนำมาซึ่งต้นทุนและความซับซ้อนมากกว่าปัญหาที่แก้ไขได้ Gartner แนะนำว่า ควรมุ่งเน้นที่การเรียนรู้ความสามารถในการฟื้นตัวภายในผู้ให้บริการคลาวด์หลักก่อน

กลยุทธ์มัลติคลาวด์มีปัญหาคือต้นทุนด้านบุคลากรเพิ่มขึ้น ต้นทุนการดำเนินงานเพิ่มขึ้น และความซับซ้อนในการจัดการ การจัดหาผู้เชี่ยวชาญแต่ละคลาวด์และค่าใช้จ่ายการฝึกอบรมเป็นสองเท่า ค่าใช้จ่ายการถ่ายโอนข้อมูลและการลงทุนซ้ำซ้อนในการตั้งค่าความปลอดภัย ความยากลำบากในการจัดการแพลตฟอร์มหลายแห่งอย่างเป็นเอกภาพและการกำกับดูแล เหล่านี้เป็นปัญหาที่เกิดขึ้นจริง

อัตราค่าโอนข้อมูลจาก AWS คือ 0.09 ดอลลาร์ต่อ GB ซึ่งทำให้กลยุทธ์มัลติคลาวด์แท้จริงยากและมีค่าใช้จ่ายสูงมากสำหรับบริษัทส่วนใหญ่ บริษัทที่ใช้มัลติคลาวด์จริงๆ มีเพียงประมาณ 15% เท่านั้น

ผู้ให้บริการคลาวด์ระดับโลกมีระบบนิเวศภายใน การใช้ประโยชน์จากความสะดวกนั้นเป็นประโยชน์ การเลือกผู้ให้บริการคลาวด์รายเดียวที่เชื่อถือได้สูงและเพิ่มความสามารถในการฟื้นตัวภายในนั้นถึงสูงสุดเป็นแนวทางที่สมจริงกว่าสำหรับบริษัทส่วนใหญ่

แนวทางทีละขั้นตอนที่แนะนำคือ สร้างโครงสร้างแบบ multi-region active/active ที่แข็งแกร่งก่อน จากนั้นจึงรับภาระการดำเนินงานมัลติคลาวด์ สามารถดูกลยุทธ์การเลือกคลาวด์โดยละเอียดได้ที่ กลยุทธ์การเลือกคลาวด์ขององค์กร แนะนำกลยุทธ์ Single-Primary แทน Multi-Cloud

ข้อเสนอแนะสำหรับองค์กร

บทเรียนที่ได้จากความขัดข้องครั้งนี้ชัดเจน

ประการแรก องค์กรต้องตรวจสอบอย่างละเอียดเพื่อระบุบริการ AWS ทั้งหมดที่ระบบของบริษัทพึ่งพา โดยเฉพาะ “ความพึ่งพาที่ซ่อนอยู่” ต่อ control plane ของ US-EAST-1

องค์กรต้องเปลี่ยนแนวคิดสถาปัตยกรรม จากการป้องกันความขัดข้อง ไปสู่การยอมรับว่าความขัดข้องจะเกิดขึ้นอย่างแน่นอน องค์กรต้องสร้างระบบที่สามารถทนต่อการสูญเสียรีเจียนทั้งหมดได้

องค์กรไม่ควรหยุดอยู่แค่แผนทฤษฎี องค์กรควรมีการฝึกปฏิบัติเป็นประจำเพื่อยืนยันว่าขั้นตอน failover ระหว่างรีเจียนทำงานได้จริงภายใต้แรงกดดัน

นอกจากนี้ องค์กรต้องเข้าใจข้อจำกัดของ SLA โดยปกติ SLA ของ AWS จะให้ service credit ที่เทียบเท่า 10% ถึง 25% ของค่าใช้จ่ายรายเดือนของลูกค้าเป็นค่าชดเชยสำหรับ downtime แต่นี่ไม่ใช่การชดเชยความสูญเสียทางธุรกิจจริง หากบริษัทที่จ่าย AWS 10,000 ดอลลาร์ต่อเดือนสูญเสียรายได้ 500,000 ดอลลาร์จากความขัดข้องครั้งนี้ ค่าชดเชยที่ได้รับตาม SLA จะเป็นเพียง credit 10,000 ดอลลาร์ หรือเพียง 2% ของความสูญเสียที่แท้จริง

ความขัดข้องครั้งนี้พิสูจน์อีกครั้งว่า cloud computing เป็นโครงสร้างพื้นฐานของสังคมสมัยใหม่ การรับรองความมั่นคงและความน่าเชื่อถือเป็นประเด็นสำคัญ ไม่เพียงแค่สำหรับความต่อเนื่องทางธุรกิจของแต่ละบริษัท แต่ยังเพื่อรักษาการทำงานของสังคมโดยรวม องค์กรต้องยอมรับว่าความขัดข้องไม่ใช่สิ่งที่ “อาจเกิดขึ้น” แต่เป็นสิ่งที่ “จะเกิดขึ้นอย่างแน่นอน” และเตรียมมาตรการรับมืออย่างเหมาะสม

ลิงก์บทความอ้างอิง