ข้อจำกัดของ AI ขนาดใหญ่และการเปลี่ยนสู่ประสิทธิภาพ

ข้อจำกัดของ AI ขนาดใหญ่และการเปลี่ยนสู่ประสิทธิภาพ ~จาก Scaling Laws สู่ยุคการใช้งานจริง~ AI
AI

การพัฒนาโมเดล AI ขนาดใหญ่กำลังเผชิญจุดเปลี่ยน

แนวคิดที่ว่า “โมเดลที่ใหญ่กว่าจะมีประสิทธิภาพสูงกว่า” ซึ่งเคยครองวงการ AI กำลังเผชิญข้อจำกัดหลายประการ งานวิจัยจาก MIT แสดงให้เห็นว่าในอีก 5-10 ปีข้างหน้า การปรับปรุงประสิทธิภาพของอัลกอริทึมอาจทำได้ดีกว่าการขยายขนาดโมเดล ข้อจำกัด 3 ด้านคือ ข้อมูล กำลังประมวลผล และสถาปัตยกรรม ทำให้เริ่มตั้งคำถามกับกลยุทธ์การขยายขนาดเพียงอย่างเดียว ในขณะเดียวกัน เทคโนโลยีเพิ่มประสิทธิภาพอย่าง Test-time Scaling, MoE และการบีบอัดโมเดลกำลังเข้าสู่ขั้นตอนการใช้งานจริง และ On-device AI เริ่มแพร่หลาย การพัฒนา AI กำลังเปลี่ยนจากการขยายขนาดสู่การเพิ่มประสิทธิภาพ

ยุคของ Scaling Laws

ในปี 2017 Google ประกาศสถาปัตยกรรม Transformer สถาปัตยกรรมนี้เปิดโอกาสใหม่ให้กับการพัฒนา AI Transformer แตกต่างจาก RNN และ LSTM ในอดีต สถาปัตยกรรมนี้ถูกออกแบบให้เหมาะกับการคำนวณแบบขนาน การฝึกโมเดลขนาดใหญ่หลักหมื่นล้านถึงหลักแสนล้านพารามิเตอร์จึงเป็นไปได้

ในปี 2020 ทีมวิจัยจาก OpenAI ประกาศ Scaling Laws งานวิจัยนี้แสดงให้เห็นว่าประสิทธิภาพของโมเดลมีความสัมพันธ์ที่คาดการณ์ได้กับจำนวนพารามิเตอร์ ปริมาณข้อมูล และทรัพยากรการคำนวณ การค้นพบนี้ทำให้เกิดหลักการชัดเจนว่า “เพิ่มทรัพยากรการคำนวณแล้วประสิทธิภาพจะดีขึ้น” หลักการนี้กลายเป็นเหตุผลสำคัญที่ Microsoft และ Google ลงทุนหลักหมื่นล้านดอลลาร์

ในปี 2022 Google DeepMind เผยผลงานวิจัย Chinchilla งานวิจัยนี้แสดงให้เห็นความสำคัญของสมดุลระหว่างขนาดโมเดลและปริมาณข้อมูล การฝึกด้วยข้อมูลประมาณ 20 โทเค็นต่อพารามิเตอร์ 1 ตัวจะให้ผลลัพธ์ที่ดีที่สุด ข้อค้นพบนี้เรียกว่า “กฎ 20:1” การค้นพบนี้ช่วยเพิ่มประสิทธิภาพการขยายขนาด แต่ยังคงเสริมหลักการพื้นฐานที่ว่า “ขนาดมีความสำคัญ”

หลักฐานที่แสดงข้อจำกัดของการขยายขนาด

เมื่อวันที่ 15 ตุลาคม 2025 นิตยสาร Wired รายงานผลการวิเคราะห์ของทีมวิจัย MIT นำโดย Neil Thompson การวิจัยเปรียบเทียบอัตราความก้าวหน้าระหว่างการขยายขนาดและประสิทธิภาพของอัลกอริทึม ผลลัพธ์แสดงให้เห็นว่าในอีก 5-10 ปีข้างหน้า ช่องว่างประสิทธิภาพระหว่างโมเดลขนาดใหญ่และขนาดเล็กอาจลดลงอย่างมาก เนื่องจากความเร็วในการปรับปรุงประสิทธิภาพของอัลกอริทึมเร็วกว่าการขยายขนาดแบบธรรมดา

มีข้อจำกัด 3 ประการที่สนับสนุนการคาดการณ์นี้

ข้อจำกัดแรกคือด้านข้อมูล ข้อมูลข้อความคุณภาพสูงกำลังหมดลง ตามการวิเคราะห์ของ Epoch AI คาดการณ์ว่าข้อมูลภาษาคุณภาพสูงที่มนุษย์สร้างขึ้นจะหมดลงระหว่างปี 2026-2032 การใช้ข้อมูลที่ AI สร้างขึ้นมาแทนก็มีความเสี่ยง ความเสี่ยงนี้เรียกว่า “Model Collapse” ข้อมูลที่ AI สร้างขึ้นมีอคติและข้อผิดพลาดจากโมเดลต้นแบบ โมเดลรุ่นต่อไปที่เรียนรู้จากข้อมูลนั้นอาจขยายข้อบกพร่องให้มากขึ้น

ข้อจำกัดที่สองคือด้านกำลังประมวลผลและพลังงาน ข้อจำกัดนี้ร้ายแรงเช่นกัน การฝึกโมเดลล่าสุดต้องใช้ไฟฟ้าเทียบเท่าเมืองขนาดเล็กหนึ่งเมือง โมเดลรุ่นถัดไปคาดว่าจะต้องใช้พลังงานเทียบเท่างบประมาณพลังงานของประเทศหนึ่ง การวิจัยของ Neil Thompson แสดงให้เห็นว่าความต้องการกำลังประมวลผลสำหรับ AI เพิ่มขึ้นเร็วกว่าความก้าวหน้าของประสิทธิภาพฮาร์ดแวร์แล้ว

ข้อจำกัดที่สามคือด้านสถาปัตยกรรม ข้อจำกัดนี้เป็นปัญหาพื้นฐาน Transformer โดยพื้นฐานทำงาน “ทำนายคำถัดไป” เท่านั้น Yann LeCun จาก Meta ชี้ให้เห็นว่า LLM ขาดการให้เหตุผล การวางแผน และโมเดลโลกที่แท้จริง ความรู้ส่วนใหญ่ของมนุษย์ได้มาจากการมีปฏิสัมพันธ์กับโลกกายภาพผ่านประสาทสัมผัส LLM ถูกตัดขาดจากประสบการณ์เหล่านี้ François Chollet จาก Google มองว่า LLM เป็นระบบค้นหาข้อมูลที่ซับซ้อน LLM ขาดความสามารถในการนำไปใช้กับสถานการณ์ที่ไม่เคยพบและการให้เหตุผลเชิงนามธรรม

ข้อมูลประสิทธิภาพที่เป็นรูปธรรมก็แสดงให้เห็นการหยุดนิ่ง เบนช์มาร์ก MMLU ทดสอบความรู้ในสาขาต่างๆ ประสิทธิภาพเพิ่มขึ้นอย่างมากจาก 43.9% ไป 86.4% เมื่อเปลี่ยนจาก GPT-3 เป็น GPT-4 หลังจากนั้นประสิทธิภาพหยุดอยู่ที่ประมาณ 90% การเพิ่มทรัพยากรการคำนวณเข้าไป การปรับปรุงที่ได้รับก็น้อยมาก

มุมมองที่สนับสนุนการขยายขนาดต่อเนื่อง

ในทางกลับกัน ก็มีข้อโต้แย้งต่อทฤษฎีข้อจำกัดของการขยายขนาด

Epoch AI วิเคราะห์ว่าการขยายขนาดต่อเนื่องจนถึงปี 2030 เป็นไปได้ทางเทคนิค พลังงานสามารถจัดหาได้ด้วยการกระจายไปยังดาต้าเซ็นเตอร์หลายแห่ง การใช้แหล่งพลังงานใหม่ก็เป็นทางเลือก ส่วนข้อมูล ข้อมูลแบบ Multimodal เช่น ภาพ เสียง วิดีโอ จะเป็นแหล่งข้อมูลใหม่ Epoch AI คาดการณ์ว่าข้อมูลข้อความเพียงอย่างเดียวก็ยังสามารถขยายขนาดต่อไปได้อย่างน้อยจนถึงปี 2027

การปรับปรุงประสิทธิภาพในเบนช์มาร์กใหม่ก็น่าสนใจ ตามรายงาน AI Index 2025 ของมหาวิทยาลัย Stanford โมเดล AI มีความก้าวหน้าอย่างมากในเบนช์มาร์กขั้นสูงที่เปิดตัวในปี 2023 ภายในเวลา 1 ปี MMMU (Multimodal Understanding) เพิ่มขึ้น 18.8 คะแนน GPQA (ปัญหาวิทยาศาสตร์ระดับบัณฑิตศึกษา) เพิ่มขึ้น 48.9 คะแนน และ SWE-bench (วิศวกรรมซอฟต์แวร์ในโลกจริง) เพิ่มขึ้น 67.3 คะแนน

เหตุผลสูงสุดของฝ่ายที่สนับสนุนการขยายขนาดต่อเนื่องคือ ความเชื่อว่านี่คือเส้นทางที่ตรงที่สุดไปสู่ AGI (Artificial General Intelligence) หากคาดการณ์จากอัตราความก้าวหน้าของ AI ในช่วงหลังมานี้ ระหว่างปี 2028-2030 อาจมี AI ที่มีความสามารถเหนือกว่ามนุษย์ในหลายสาขาความรู้ หาก AGI เป็นจริง การลงทุนหลักแสนล้านดอลลาร์ก็เป็นการลงทุนที่สมเหตุสมผล

การเปลี่ยนไปสู่การเพิ่มประสิทธิภาพ

ในขณะที่มีการถกเถียงเรื่องข้อจำกัดของการขยายขนาด ทิศทางของการพัฒนา AI ก็กำลังเปลี่ยนแปลง

Test-time Scaling คือวิธีการที่ลงทุนทรัพยากรการคำนวณในเวลาอนุมาน (Inference) แทนที่จะเป็นเวลาฝึก วิธีนี้ให้โมเดล “คิดนานขึ้น” ก่อนสรุปคำตอบสำหรับปัญหาที่ซับซ้อน โมเดลสามารถเพิ่มประสิทธิภาพได้โดยไม่ต้องฝึกใหม่ โมเดลสร้างและประเมิน Chain-of-Thought หลายรูปแบบ หรือทำ Self-correction Loop เพื่อให้คำตอบที่แม่นยำและมีเหตุผลมากขึ้น

Mixture-of-Experts (MoE) คือสถาปัตยกรรมที่รักษาขนาดใหญ่และควบคุมต้นทุนการอนุมานไว้พร้อมกัน สถาปัตยกรรมนี้มีเครือข่ายผู้เชี่ยวชาญขนาดเล็กจำนวนมากภายใน ระบบเปิดใช้งานเฉพาะผู้เชี่ยวชาญที่เหมาะสมกับคำถาม โมเดลอาจมีขนาดหลักล้านล้านพารามิเตอร์ แต่การอนุมานแต่ละครั้งใช้พารามิเตอร์เพียงส่วนเล็กน้อยเท่านั้น

เทคโนโลยีการบีบอัดโมเดลก็มีบทบาทสำคัญ Pruning คือการลบส่วนที่ซ้ำซ้อนออกจากโมเดลที่ฝึกแล้ว Quantization คือการลดความแม่นยำของตัวเลขที่ใช้แทนค่าน้ำหนักจาก 32 บิต เหลือ 16 หรือ 8 บิต เพื่อลดการใช้หน่วยความจำ Knowledge Distillation คือการใช้โมเดลครูขนาดใหญ่ฝึกโมเดลนักเรียนขนาดเล็ก เพื่อถ่ายทอดความรู้ไปยังโมเดลที่กะทัดรัด

เทคโนโลยีเหล่านี้ทำให้ AI ที่เคยใช้งานได้เฉพาะในศูนย์คำนวณขนาดใหญ่ สามารถทำงานบนอุปกรณ์ในชีวิตประจำวันเช่น สมาร์ทโฟน รถยนต์ และอุปกรณ์ทางการแพทย์ได้

ผลกระทบต่อสังคมและอุตสาหกรรม

การนำโมเดลขนาดเล็กที่มีประสิทธิภาพมาใช้งานจริงมีผลกระทบในหลายสาขา

On-device AI ประมวลผลข้อมูลบนอุปกรณ์โดยไม่ส่งข้อมูลออกไปภายนอก ในสาขาที่จัดการข้อมูลสำคัญเช่น ข้อมูลสุขภาพและการเงินส่วนบุคคล เทคโนโลยีนี้จะเพิ่มระดับการปกป้องความเป็นส่วนตัวอย่างมาก เทคโนโลยีนี้ไม่ต้องพึ่งพาการเชื่อมต่อเครือข่าย ไม่มีความล่าช้าจากการสื่อสาร และสามารถใช้งานแบบออฟไลน์ได้

ในด้านการแพทย์ โรงพยาบาลสามารถติดตั้ง AI ลงในเครื่อง CT Scanner หรือ MRI ระบบจะตรวจจับรอยโรคแบบเรียลไทม์ได้ทันที อุปกรณ์สวมใส่สามารถตรวจสอบข้อมูลชีวภาพที่เก็บได้บนสมาร์ทโฟนของผู้ป่วยตลอดเวลา ระบบจะตรวจจับสัญญาณผิดปกติในระยะเริ่มต้น

ในอุตสาหกรรมยานยนต์ ระบบประมวลผลข้อมูลจากกล้องและเซ็นเซอร์ภายในเครื่อง ระบบคาดการณ์อันตรายจากการชนและเบรกอัตโนมัติ ฟังก์ชันนี้เป็นหัวใจของความปลอดภัย ระบบในรถยังเรียนรู้ความชอบของผู้ขับขี่เพื่อปรับแต่งส่วนตัว ระบบสามารถคาดการณ์ความเสียหายจากข้อมูลเซ็นเซอร์

ในภาคการเงิน สามารถตรวจจับการทุจริตและประเมินความเสี่ยงด้านเครดิตในสภาพแวดล้อมปิดภายในองค์กร โดยตอบสนองกฎระเบียบการปกป้องข้อมูลที่เข้มงวด

การแพร่หลายของโมเดลขนาดเล็กที่มีประสิทธิภาพสูงและ Open-weight Model ลดอุปสรรคในการเข้าถึงการพัฒนา AI บริษัท มหาวิทยาลัย และประเทศต่างๆ สามารถเข้ามาพัฒนา AI ได้มากขึ้น วงการไม่ได้มีเพียงบริษัทเทคโนโลยียักษ์ใหญ่ของสหรัฐฯ เป็นผู้นำเพียงฝ่ายเดียว สถาบันวิจัยและบริษัทจีนเปิดตัวโมเดลที่ทรงพลังเป็นของตัวเอง โมเดลเหล่านี้ลดช่องว่างประสิทธิภาพกับโมเดลจากสหรัฐฯ อย่างรวดเร็วในเบนช์มาร์กสำคัญ

อย่างไรก็ตาม การที่ AI ที่มีประสิทธิภาพสูงสามารถเข้าถึงได้ง่ายก็เพิ่มความเสี่ยงจากการใช้ในทางที่ผิด การโจมตีทางไซเบอร์ การสร้างข้อมูลเท็จขั้นสูง การพัฒนาอาวุธอัตโนมัติ ภัยคุกคามเหล่านี้จะรุนแรงขึ้น ปัญหาการกำกับดูแล AI กำลังเปลี่ยนแปลง ปัญหาเปลี่ยนจากการควบคุมบริษัทใหญ่ไม่กี่แห่ง ไปสู่คำถามที่ซับซ้อนมากขึ้น คำถามคือจะจัดการ AI นับไม่ถ้วนที่กระจายไปทั่วโลกอย่างไร

ข้อเสนอแนะสำหรับองค์กร

BKK IT News มองว่าในช่วงเปลี่ยนผ่านทางเทคโนโลยีนี้ องค์กรมีทางเลือกในการพิจารณาดังนี้

องค์กรไม่จำเป็นต้องลงทุนทรัพยากรมากเพื่อติดตามโมเดลขนาดใหญ่ล่าสุด องค์กรอาจพิจารณาใช้โมเดลขนาดเล็กถึงกลางที่เหมาะกับการใช้งานเฉพาะ โมเดลที่ปรับให้เหมาะกับงานเฉพาะอาจให้ผลตอบแทนต่อต้นทุนสูงกว่าโมเดลขนาดใหญ่ทั่วไป

การลงทุนในเทคโนโลยี On-device AI อาจปกป้องความเป็นส่วนตัวและเพิ่มความเร็วในการตอบสนองพร้อมกัน ข้อดีนี้สำคัญโดยเฉพาะในอุตสาหกรรมที่จัดการข้อมูลสำคัญ การสร้างระบบที่ไม่ส่งข้อมูลออกไปภายนอกอาจกลายเป็นข้อได้เปรียบในการแข่งขัน

การเสริมระบบการกำกับดูแลและความปลอดภัยด้าน AI ก็เป็นเรื่องสำคัญ ในสภาพแวดล้อมที่เทคโนโลยี AI แพร่หลาย ความเสี่ยงจากการใช้ผิดและใช้ไม่ถูกต้องเพิ่มขึ้น องค์กรจำเป็นต้องจัดทำแนวทางที่ชัดเจนสำหรับการใช้ AI ภายในองค์กร องค์กรต้องทบทวนมาตรการด้านความปลอดภัย

ทิศทางการพัฒนาบุคลากรก็ควรพิจารณาใหม่ ทักษะในการใช้โมเดลที่มีอยู่อย่างมีประสิทธิภาพ การปรับให้เหมาะกับสาขาเฉพาะ และการทำ On-device Implementation กำลังมีความสำคัญมากกว่าเทคนิคการฝึกโมเดลขนาดใหญ่

ลิงก์บทความอ้างอิง