ChatGPT อัปเดตฟังก์ชันเสียงครั้งใหญ่ ～โหมดรวมที่สนทนาได้พร้อมดูแผนที่และรูปภาพ～

OpenAI ประกาศอัปเดตฟังก์ชันเสียงของ ChatGPT เวอร์ชันเว็บครั้งใหญ่เมื่อวันที่ 25 พฤศจิกายน 2025 โหมดเสียงที่เคยแสดงแบบเต็มหน้าจอแยกต่างหาก ได้รวมเข้ากับการแชทข้อความแล้ว ผู้ใช้สามารถสลับระหว่างการพิมพ์และการพูดได้อย่างราบรื่น พร้อมดูแผนที่และรูปภาพบนหน้าจอได้พร้อมกัน

Table of contents

ปัญหาของโหมดเสียงแบบเดิม
คุณสมบัติของโหมดเสียงแบบรวม
กลุ่มเป้าหมายและการเปิดตัวแบบขั้นตอน
พื้นฐานทางเทคนิค
เปรียบเทียบกับคู่แข่ง
กรณีการใช้งานที่คาดหวัง
ความท้าทายที่เหลือ
แนวโน้มในอนาคต
ลิงก์บทความอ้างอิง

ปัญหาของโหมดเสียงแบบเดิม

ฟังก์ชันเสียงของ ChatGPT พัฒนาขึ้นอย่างมากหลังจากเปิดตัว GPT-4o ในปี 2024 เวอร์ชันมือถือสามารถสนทนาได้เป็นธรรมชาติเหมือนคุยโทรศัพท์กับคนจริง แต่บนเดสก์ท็อปยังมีข้อจำกัด

เมื่อเปิดโหมดเสียงแบบเดิม หน้าจอจะมืดลงทั้งหมด และแสดงภาพเคลื่อนไหวลูกบอลสีน้ำเงินตรงกลาง เป็น UI แบบ “ดื่มด่ำ” ในโหมดนี้ไม่สามารถดูประวัติแชทหรือรูปภาพที่ AI แสดงได้ ไม่เหมาะกับงานที่ซับซ้อนบน PC

คุณสมบัติของโหมดเสียงแบบรวม

“โหมดเสียงแบบรวม” ใหม่นี้ เพียงคลิกไอคอนคลื่นเสียงข้างช่องพิมพ์ก็เริ่มสนทนาด้วยเสียงได้ทันที หน้าจอไม่เปลี่ยน การสนทนาดำเนินไปในเธรดแชทเดิม

คุณสมบัติหลักมีดังนี้

อินเตอร์เฟซแบบไม่ครอบครองหน้าจอ: ระหว่างสนทนาด้วยเสียง ยังเข้าถึงประวัติแชทและแถบด้านข้างได้ สามารถตรวจสอบบริบทของการสนทนายาวๆ พร้อมถามคำถามด้วยเสียงได้

การถอดเสียงเป็นข้อความแบบเรียลไทม์: คำพูดของผู้ใช้และคำตอบของ AI จะถูกแปลงเป็นข้อความแบบเรียลไทม์และแสดงในเธรดแชท ตรวจสอบเนื้อหาที่พลาดไปหรือการสะกดคำศัพท์เฉพาะทางได้

การป้อนข้อมูลพร้อมกัน: สามารถพิมพ์แทรกหรือวาง URL ได้ขณะที่ AI กำลังพูด เดิมทีการพิมพ์ถูกล็อคในโหมดเสียง

การแสดงข้อมูลภาพพร้อมกัน: เมื่อถามว่า “ร้านอาหารอิตาเลียนใกล้ๆ มีที่ไหนบ้าง?” AI จะตอบด้วยเสียงพร้อมแสดงการ์ดแผนที่ป๊อปอัปในหน้าจอแชท การสร้างรูปภาพและการแสดงกราฟก็ทำงานเช่นเดียวกัน

กลุ่มเป้าหมายและการเปิดตัวแบบขั้นตอน

ฟีเจอร์นี้เริ่มเปิดตัวตั้งแต่วันที่ 25 พฤศจิกายน 2025 สำหรับผู้ใช้แพ็กเกจ Plus, Team, Enterprise และ Edu การเปิดให้ผู้ใช้ฟรีมีกำหนดในอีกไม่กี่สัปดาห์ โดยจะมีการจำกัดเวลาใช้งาน

รองรับเบราว์เซอร์เดสก์ท็อปหลัก (Chrome, Firefox, Edge, Safari) สำหรับผู้ใช้ที่ชอบโหมดแยกแบบเดิม ยังสามารถกลับไปใช้อินเตอร์เฟซเต็มหน้าจอได้จากเมนูตั้งค่า

พื้นฐานทางเทคนิค

การอัปเดตนี้ไม่ใช่แค่การปรับปรุง UI แต่เชื่อมโยงกับวิวัฒนาการของโมเดล AI ที่ทำงานอยู่เบื้องหลัง

ตั้งแต่ GPT-4o เป็นต้นมา ใช้สถาปัตยกรรมมัลติโมดัลแบบ “End-to-End” ที่ป้อนข้อมูลเสียงเข้าโมเดลโดยตรง และส่งออกเสียง ข้อความ และข้อมูลภาพพร้อมกัน ผู้ช่วยเสียงแบบเดิมประมวลผลแบบ 3 ขั้นตอน: การรู้จำเสียง → การประมวลผลภาษา → การสังเคราะห์เสียง วิธีนี้ทำให้น้ำเสียงและข้อมูลที่ไม่ใช่คำพูดหายไปในขั้นตอนแรก

ด้วยสถาปัตยกรรมใหม่ AI สามารถตอบด้วย “เสียงสงบ” เมื่อผู้ใช้พูดด้วย “เสียงร้อนรน” หรือตอบด้วยเสียงหัวเราะเมื่อผู้ใช้พูดพร้อมหัวเราะ

นอกจากนี้ยังมีความท้าทายด้านเทคนิคเว็บ การสนทนาเสียงแบบเรียลไทม์บนเบราว์เซอร์ต้องใช้การสื่อสารความหน่วงต่ำผ่าน WebRTC, การตัดเสียงก้องขั้นสูง และการตรวจจับช่วงเสียง บน PC ตำแหน่งลำโพงและไมโครโฟนมีความหลากหลาย จึงจำเป็นต้องมีการรองรับทางเทคนิคเหล่านี้

เปรียบเทียบกับคู่แข่ง

การอัปเดตนี้ต้องเข้าใจในฐานะส่วนหนึ่งของกลยุทธ์การแข่งขันในตลาด AI Agent

“Claude” ของ Anthropic ผลักดันฟีเจอร์ “Computer Use” ที่ AI ควบคุม PC โดยอัตโนมัติ AI ควบคุมเคอร์เซอร์และคีย์บอร์ดเพื่อทำงานประจำอัตโนมัติ ในทางกลับกัน โหมดเสียงแบบรวมของ ChatGPT มุ่งเน้น “แบบร่วมมือ” ที่ผู้ใช้ยังคงเป็นผู้ควบคุมหลัก โดย AI ช่วยให้คำแนะนำและแสดงข้อมูล

“Gemini” ของ Google มีจุดแข็งในการรวมกับ Workspace และ Maps Copilot ของ Microsoft ฝังอยู่ใน Windows OS ChatGPT สร้างความแตกต่างด้วย “ความยืดหยุ่นบนเบราว์เซอร์” ที่ไม่ขึ้นกับ OS หรือแอป

กรณีการใช้งานที่คาดหวัง

ฟีเจอร์นี้อาจเปลี่ยนรูปแบบการทำงานบน PC

การทำงานระยะไกล: ระหว่างประชุมออนไลน์ สามารถให้ ChatGPT ในแท็บอื่นฟังเนื้อหาการประชุม และสั่งด้วยเสียงว่า “สรุปประเด็นสำคัญ” จะได้ข้อมูลที่แสดงเป็นภาพทันที

การศึกษาและการเรียนรู้: เมื่อฝึกออกเสียงภาษาอังกฤษ สามารถฟังการออกเสียงของ AI พร้อมดูการสะกดและแผนภาพการเคลื่อนไหวของปากบนหน้าจอ

ผู้ช่วยขณะทำอาหาร: วางแล็ปท็อปในครัว ยืนยันขั้นตอนสูตรอาหารด้วยเสียง พร้อมดูตารางแปลงหน่วยตวงบนหน้าจอ

ความท้าทายที่เหลือ

อย่างไรก็ตาม ไม่ใช่ผู้ใช้ทุกคนจะต้อนรับ ในชุมชนเช่น Reddit มีคำวิจารณ์เกี่ยวกับการยกเลิก “Standard Voice” แบบเดิม

สำหรับผู้ใช้บางคนที่มีออทิสติกสเปกตรัมหรือความผิดปกติในการประมวลผลการได้ยิน เสียงที่ “เหมือนมนุษย์มากเกินไป” พร้อมน้ำเสียงสูงต่ำ อาจทำให้ฟังข้อมูลยากขึ้น บางคนรู้สึกสบายใจกับการอ่านแบบเครื่องจักรที่ราบเรียบกว่า

นอกจากนี้ การที่ไมโครโฟนทำงานตลอดเวลาบนเว็บเบราว์เซอร์ก่อให้เกิดความกังวลด้านความเป็นส่วนตัว ในการใช้งานองค์กร ความกังวลว่า “AI จะแอบฟังเนื้อหาการประชุมหรือเปล่า” อาจเป็นอุปสรรค OpenAI ระบุชัดเจนว่าไม่ใช้ข้อมูลสำหรับการเรียนรู้ในแพ็กเกจ Enterprise แต่การรับประกันความโปร่งใสใน UI จะเป็นกุญแจสู่การแพร่หลาย

แนวโน้มในอนาคต

BKK IT News เห็นว่าโหมดเสียงแบบรวมนี้อาจเป็นรากฐานสู่ “AI Agent แบบอัตโนมัติเต็มรูปแบบ” ในอนาคต ผู้ใช้อาจบอกด้วยเสียงว่า “จัดการเดินทางสัปดาห์หน้าให้หน่อย” แล้ว AI จะจองเที่ยวบินและโรงแรม และแสดงเฉพาะหน้าจอยืนยันความสำเร็จ

การอัปเดตครั้งนี้ถือเป็นต้นแบบของอินเตอร์เฟซสำหรับมนุษย์อนุมัติผลการทำงานของ AI การเปลี่ยนผ่านจากระบบปฏิบัติการที่เน้นข้อความ ไปสู่ “การสนทนาตามธรรมชาติ” ที่ผสานเสียง ภาพ และข้อความเข้าด้วยกัน ได้เริ่มต้นขึ้นแล้ว