โครงสร้างพื้นฐานทางธุรกิจสมัยใหม่พึ่งพาผู้ให้บริการคลาวด์รายใหญ่เพียงไม่กี่ราย ความเปราะบางนี้ถูกเปิดเผยจากความขัดข้องครั้งใหญ่ของ AWS วันที่ 20 ตุลาคม 2025
เมื่อวันที่ 20 ตุลาคม 2025 Amazon Web Services (AWS) ประสบกับความขัดข้องครั้งใหญ่เป็นเวลา 15 ชั่วโมง เว็บไซต์ติดตามความขัดข้อง Downdetector ได้รับรายงานจากผู้ใช้มากกว่า 11 ล้านครั้ง บริษัทมากกว่า 2,500 แห่งได้รับผลกระทบโดยตรง ผู้เชี่ยวชาญชี้ว่าผลกระทบทางเศรษฐกิจรวมอาจสูงถึงหลายแสนล้านดอลลาร์
การรวมศูนย์ของตลาดคลาวด์และตำแหน่งของ AWS
บริษัทสามรายคือ AWS, Microsoft และ Google ครอบครองตลาดคลาวด์ทั่วโลกมากกว่า 66% เพียง AWS เองก็ครอบครอง 30% ถึง 41% ของตลาด โครงสร้างตลาดนี้เป็นปัจจัยที่ขยายผลกระทบของความขัดข้องในครั้งนี้
รีเจียน US-EAST-1 (เวอร์จิเนียเหนือ) ของ AWS เปิดให้บริการในปี 2006 เป็นรีเจียนที่เก่าแก่และใหญ่ที่สุด AWS สร้างฟังก์ชันพื้นฐานจำนวนมากไว้ในรีเจียนนี้
สิ่งสำคัญคือเอกสารทางการของ AWS เองระบุว่า control plane ของบริการระดับโลกจำนวนมากถูกโฮสต์ไว้ที่ US-EAST-1 เท่านั้น บริการเหล่านี้ประกอบด้วย IAM, Route 53 และ CloudFront
แม้ลูกค้าจะรัน workload ในรีเจียนที่อยู่ห่างไกลทางภูมิศาสตร์ แต่เมื่อทำงานกับ control plane ก็ยังต้องพึ่งพา US-EAST-1 ความขัดข้องครั้งนี้พิสูจน์ “ความพึ่งพาที่ซ่อนอยู่” นี้อย่างชัดเจน
การเกิดและการขยายตัวของความขัดข้อง
ความขัดข้องเกิดขึ้นเวลา 03:11 น. ตามเวลาฝั่งตะวันออกของสหรัฐฯ สาเหตุโดยตรงคือระบบภายในที่ตรวจสอบความแข็งแรงของ network load balancer ทำงานผิดปกติ ความขัดข้องเบื้องต้นนี้ทำให้เกิดปฏิกิริยาลูกโซ่ และปรากฏเป็นความล้มเหลวในการแก้ไข DNS สำหรับ API endpoint ของ DynamoDB
DynamoDB ไม่เพียงเป็นพื้นฐานของแอปพลิเคชันนับไม่ถ้วน แต่ยังเป็นพื้นฐานของบริการ AWS อื่นๆ อีกมากมาย สถานะที่ไม่สามารถเข้าถึงได้นี้ทำให้เกิดความขัดข้องในระดับแอปพลิเคชันอย่างกว้างขวาง มีรายงานอย่างเป็นทางการว่าบริการภายใน AWS อย่างน้อย 64 ถึง 108 รายการได้รับผลกระทบ
สิ่งสำคัญคือข้อมูลเองยังปลอดภัยและไม่สูญหาย แต่กลไกในการค้นหา การยืนยันตัวตน และการเข้าถึงข้อมูลล้มเหลวโดยสิ้นเชิง นี่เป็นความขัดข้องประเภทที่ตรวจจับได้ยากกว่าการสูญหายของข้อมูลแบบธรรมดา
ผลกระทบที่หลากหลาย
บริการที่ได้รับผลกระทบมีหลากหลาย แพลตฟอร์มโซเชียลมีเดียและเกมอย่าง Snapchat, Reddit, Fortnite, Roblox ทำงานไม่ได้ บริการทางการเงินอย่าง Coinbase และ Robinhood และบริการสตรีมมิ่งอย่าง Netflix และ Disney+ ก็หยุดทำงาน
ผลกระทบที่รุนแรงเป็นพิเศษคือผลต่อบริการสาธารณะ แพลตฟอร์มจัดการการเรียนรู้ Canvas หยุดทำงาน ทำให้นักศึกษาในมหาวิทยาลัยหลายแห่งในสหรัฐฯ ไม่สามารถเข้าถึงสื่อการเรียนรู้ได้ เว็บไซต์กรมสรรพากรของสหราชอาณาจักร (HMRC) ก็ใช้งานไม่ได้ ส่งผลต่อการชำระภาษี
การวิเคราะห์เจาะจงมากขึ้นคาดว่า Amazon เองสูญเสียประมาณ 72 ล้านดอลลาร์ต่อชั่วโมง Snapchat สูญเสียประมาณ 612,000 ดอลลาร์ และ Zoom สูญเสียประมาณ 532,000 ดอลลาร์ CEO ของบริษัทตรวจสอบประสิทธิภาพอินเทอร์เน็ต Catchpoint ชี้ว่า เมื่อพิจารณาการสูญเสียผลิตภาพของแรงงานนับล้านคนและการหยุดชะงักของกิจกรรมทางธุรกิจ ผลกระทบทางเศรษฐกิจรวมอาจ “สูงถึงหลายแสนล้านดอลลาร์ได้อย่างง่ายดาย”
ในทางกลับกัน ราคาหุ้นของ Amazon ลดลง 0.8% ชั่วคราวระหว่างเกิดความขัดข้อง แต่ฟื้นตัวในภายหลัง นี่แสดงว่านักลงทุนคาดหวังการแก้ไขที่รวดเร็ว และยังคงเชื่อมั่นต่อตำแหน่งที่โดดเด่นของบริษัทในตลาด
การประเมินกลยุทธ์มัลติคลาวด์ใหม่
หลังจากความขัดข้องครั้งนี้ ผู้เชี่ยวชาญหลายคนเรียกร้องให้ใช้กลยุทธ์มัลติคลาวด์ เพื่อหลีกเลี่ยงการติดอยู่ในพื้นที่ความล้มเหลวของผู้ให้บริการรายเดียว
อย่างไรก็ตาม นักวิเคราะห์ของ Gartner มีมุมมองที่ระมัดระวังมากกว่า พวกเขาระบุว่า สำหรับองค์กรส่วนใหญ่ กลยุทธ์มัลติคลาวด์ที่ดำเนินการไม่เพียงพอจะนำมาซึ่งต้นทุนและความซับซ้อนมากกว่าปัญหาที่แก้ไขได้ Gartner แนะนำว่า ควรมุ่งเน้นที่การเรียนรู้ความสามารถในการฟื้นตัวภายในผู้ให้บริการคลาวด์หลักก่อน
กลยุทธ์มัลติคลาวด์มีปัญหาคือต้นทุนด้านบุคลากรเพิ่มขึ้น ต้นทุนการดำเนินงานเพิ่มขึ้น และความซับซ้อนในการจัดการ การจัดหาผู้เชี่ยวชาญแต่ละคลาวด์และค่าใช้จ่ายการฝึกอบรมเป็นสองเท่า ค่าใช้จ่ายการถ่ายโอนข้อมูลและการลงทุนซ้ำซ้อนในการตั้งค่าความปลอดภัย ความยากลำบากในการจัดการแพลตฟอร์มหลายแห่งอย่างเป็นเอกภาพและการกำกับดูแล เหล่านี้เป็นปัญหาที่เกิดขึ้นจริง
อัตราค่าโอนข้อมูลจาก AWS คือ 0.09 ดอลลาร์ต่อ GB ซึ่งทำให้กลยุทธ์มัลติคลาวด์แท้จริงยากและมีค่าใช้จ่ายสูงมากสำหรับบริษัทส่วนใหญ่ บริษัทที่ใช้มัลติคลาวด์จริงๆ มีเพียงประมาณ 15% เท่านั้น
ผู้ให้บริการคลาวด์ระดับโลกมีระบบนิเวศภายใน การใช้ประโยชน์จากความสะดวกนั้นเป็นประโยชน์ การเลือกผู้ให้บริการคลาวด์รายเดียวที่เชื่อถือได้สูงและเพิ่มความสามารถในการฟื้นตัวภายในนั้นถึงสูงสุดเป็นแนวทางที่สมจริงกว่าสำหรับบริษัทส่วนใหญ่
แนวทางทีละขั้นตอนที่แนะนำคือ สร้างโครงสร้างแบบ multi-region active/active ที่แข็งแกร่งก่อน จากนั้นจึงรับภาระการดำเนินงานมัลติคลาวด์ สามารถดูกลยุทธ์การเลือกคลาวด์โดยละเอียดได้ที่ กลยุทธ์การเลือกคลาวด์ขององค์กร แนะนำกลยุทธ์ Single-Primary แทน Multi-Cloud
ข้อเสนอแนะสำหรับองค์กร
บทเรียนที่ได้จากความขัดข้องครั้งนี้ชัดเจน
ประการแรก องค์กรต้องตรวจสอบอย่างละเอียดเพื่อระบุบริการ AWS ทั้งหมดที่ระบบของบริษัทพึ่งพา โดยเฉพาะ “ความพึ่งพาที่ซ่อนอยู่” ต่อ control plane ของ US-EAST-1
องค์กรต้องเปลี่ยนแนวคิดสถาปัตยกรรม จากการป้องกันความขัดข้อง ไปสู่การยอมรับว่าความขัดข้องจะเกิดขึ้นอย่างแน่นอน องค์กรต้องสร้างระบบที่สามารถทนต่อการสูญเสียรีเจียนทั้งหมดได้
องค์กรไม่ควรหยุดอยู่แค่แผนทฤษฎี องค์กรควรมีการฝึกปฏิบัติเป็นประจำเพื่อยืนยันว่าขั้นตอน failover ระหว่างรีเจียนทำงานได้จริงภายใต้แรงกดดัน
นอกจากนี้ องค์กรต้องเข้าใจข้อจำกัดของ SLA โดยปกติ SLA ของ AWS จะให้ service credit ที่เทียบเท่า 10% ถึง 25% ของค่าใช้จ่ายรายเดือนของลูกค้าเป็นค่าชดเชยสำหรับ downtime แต่นี่ไม่ใช่การชดเชยความสูญเสียทางธุรกิจจริง หากบริษัทที่จ่าย AWS 10,000 ดอลลาร์ต่อเดือนสูญเสียรายได้ 500,000 ดอลลาร์จากความขัดข้องครั้งนี้ ค่าชดเชยที่ได้รับตาม SLA จะเป็นเพียง credit 10,000 ดอลลาร์ หรือเพียง 2% ของความสูญเสียที่แท้จริง
ความขัดข้องครั้งนี้พิสูจน์อีกครั้งว่า cloud computing เป็นโครงสร้างพื้นฐานของสังคมสมัยใหม่ การรับรองความมั่นคงและความน่าเชื่อถือเป็นประเด็นสำคัญ ไม่เพียงแค่สำหรับความต่อเนื่องทางธุรกิจของแต่ละบริษัท แต่ยังเพื่อรักษาการทำงานของสังคมโดยรวม องค์กรต้องยอมรับว่าความขัดข้องไม่ใช่สิ่งที่ “อาจเกิดขึ้น” แต่เป็นสิ่งที่ “จะเกิดขึ้นอย่างแน่นอน” และเตรียมมาตรการรับมืออย่างเหมาะสม
ลิงก์บทความอ้างอิง
- Massive Amazon cloud outage has been resolved after disrupting internet use worldwide – AP News
- Monday’s Massive AWS Outage Explained: Looks Like It’s Finally Over – CNET
- AWS outage cause: It’s always DNS, but sometimes it’s… – The Stack
- Don’t Let the AWS Outage Erode Your Trust in the Cloud – Gartner
- Global services – AWS Fault Isolation Boundaries