AI สร้างภาพเข้าใกล้มากขึ้นด้วย Google Whisk ~Visual Prompt ปฏิวัติวิธีการสร้างสรรค์

AI สร้างภาพเข้าใกล้มากขึ้นด้วย Google Whisk ~Visual Prompt ปฏิวัติวิธีการสร้างสรรค์ AI
AI

เครื่องมือสร้างภาพด้วย AI ชื่อ “Whisk” จาก Google เปิดให้ใช้งานในกว่า 100 ประเทศแล้ว แตกต่างจากการใช้ Text Input แบบเดิม โดยใช้วิธีการใหม่ที่นำภาพ 3 ภาพมาผสมรวมกัน การใช้งานที่ง่ายและเข้าใจง่ายทำให้ผู้ใช้ที่ไม่มีความรู้เชี่ยวชาญสามารถสร้างภาพคุณภาพสูงได้

วิวัฒนาการและปัญหาของ AI สร้างภาพ

ตลาด AI สร้างภาพถูกขับเคลื่อนโดย Midjourney และ Stable Diffusion เครื่องมือเหล่านี้มีฟีเจอร์ควบคุมขั้นสูง แต่ต้องใช้เทคนิค Prompt Engineering ที่ซับซ้อน จำเป็นต้องมีความรู้เฉพาะเรื่อง Keywords และ Syntax เพื่อให้ได้ผลลัพธ์ที่เหมาะสม สิ่งนี้กลายเป็นอุปสรรคสำหรับผู้ใช้จำนวนมาก

สำหรับผู้รับผิดชอบด้านการตลาดของบริษัทและนักการศึกษา การใช้เวลานานในการทำภาพเพื่อแสดงแนวคิดเป็นเรื่องที่ไม่มีประสิทธิภาพ ต้นทุนการเรียนรู้จนเชี่ยวชาญการเขียน Prompt ก็เป็นปัญหาเช่นกัน

กลไก Google Whisk ที่แตกต่าง

Whisk เป็นเครื่องมือทดลองที่เปิดตัวจาก Google Labs FX Collection ในปี 2024 จุดเด่นที่สุดคือการใช้งานที่เข้าใจง่าย โดย Drag & Drop ภาพเข้าไปใน 3 องค์ประกอบ ได้แก่ “Subject” “Scene” และ “Style”

พื้นฐานเทคนิคใช้ AI Model 2 ตัวคือ Gemini และ Imagen 3 ทำงานร่วมกัน เริ่มต้นด้วย Gemini วิเคราะห์ภาพที่ป้อนเข้าไปและสร้าง Text Description อัตโนมัติ ตามด้วย Imagen 3 นำข้อมูลเหล่านั้นมาประมวลผลและสร้างภาพใหม่

ผู้ใช้ยังได้รับฟีเจอร์เสริมเพื่อกระตุ้นความคิดสร้างสรรค์ ฟังก์ชัน “inspire me” และ “roll the dice” ให้ไอเดียแบบสุ่ม รวมถึง Preset Style เช่น “Sticker” “Enamel Pin” “Plushie” เพื่อกำหนดการใช้งานให้ชัดเจน

Google กำหนดแนวคิดการพัฒนาเป็น “การสำรวจไอเดียด้วยภาพอย่างรวดเร็ว” ไม่ใช่การแก้ไขที่ละเอียดระดับพิกเซล แต่เป็นการเร่งความเร็วในการหาไอเดียและ Brainstorming การออกแบบนี้ทำให้สามารถใช้ในการสร้าง Concept Art การทำ Mood Board หรือการสร้างภาพประกอบสำหรับการศึกษา

ข้อจำกัดทางเทคนิคและเจตนาเชิงกลยุทธ์

Whisk เน้นการจับ “Essence” ของภาพที่ป้อนเข้าไป ไม่ได้ตั้งใจสร้าง “Replica” ที่สมบูรณ์แบบ การออกแบบนี้ทำให้มีปัญหาในการรักษาความสอดคล้องของตัวละคร สีผม หรือรายละเอียดใบหน้าของบุคคลอ้างอิงอาจเปลี่ยนแปลงไป ไม่เหมาะกับโปรเจกต์ที่ต้องการความเหมือนที่แม่นยำ

ข้อจำกัดนี้ไม่ใช่แค่ข้อจำกัดทางเทคนิค แต่เป็นการตัดสินใจเชิงกลยุทธ์ การแปลงภาพเป็นข้อความก่อนแล้วจึงสร้างใหม่ ทำให้ Google หลีกเลี่ยงปัญหาลิขสิทธิ์และ Fair Use ได้

เมื่อเปรียบเทียบกับคู่แข่ง ความสามารถในการควบคุมขั้นสูงของ Midjourney หรือ Stable Diffusion ยังดีกว่า แต่การเน้น “ความง่ายในการใช้งาน” ทำให้เปิดตลาดผู้ใช้กลุ่มใหม่ที่ยังไม่เคยใช้ AI สร้างภาพมาก่อน

โครงสร้างค่าใช้จ่ายและกลยุทธ์ระบบนิเวศ

Whisk เป็นส่วนหนึ่งของ Google One AI Plan (19.99 ดอลลาร์ต่อเดือน) แพ็คเกจนี้รวม Gemini 2.5 Pro ล่าสุด เครื่องมือสร้างวิดีโอ Flow และ Cloud Storage 2TB

Google AI Ultra Plan (249.99 ดอลลาร์ต่อเดือน) ขยายขีดจำกัดการใช้งานและเข้าถึง Veo 3 Model และ Coding Assistant Jules ได้ เฉพาะฟีเจอร์ “Whisk Animate” ที่ใช้ Veo 2 Model สร้างวิดีโอจากภาพเป็นฟีเจอร์เฉพาะแพ็คเกจที่เสียเงิน

กลยุทธ์ของ Google ไม่ใช่การขายเครื่องมือแต่ละตัว แต่เป็นการขายสิทธิ์เข้าถึงระบบนิเวศ Multimodal AI แบบครบครัน ตามแบบแผนความสำเร็จของ Adobe Creative Cloud และ Microsoft 365 โดยใช้ Credit System ที่ใช้ร่วมกันระหว่างเครื่องมือต่าง ๆ สร้างสภาพแวดล้อมที่ผู้ใช้ “ผูกพัน” เพื่อรักษาผู้ใช้ไว้ในแพลตฟอร์ม

แนวโน้มและผลกระทบต่อบริษัท

Whisk จะได้รับการอัพเกรดเป็น Imagen 4 Family ในอนาคต คาดว่าจะมีความละเอียด 2K และความสามารถในการวาดข้อความที่ดีขึ้น การเชื่อมโยงกับ Google Slides และ Docs ที่แน่นแฟ้นขึ้น อาจทำให้กลายเป็นฟีเจอร์มาตรฐานในการสร้างเอกสาร

แนวคิด “Remix” ของ Whisk น่าจะยังคงอยู่ต่อไป วิธีการใช้ Multimodal Prompt ที่ใช้ทั้งภาพและข้อความจะกลายเป็นฟีเจอร์มาตรฐานของอุตสาหกรรม Generative AI

สำหรับบริษัท Whisk สามารถใช้ในการสร้าง Prototype วัสดุการตลาดอย่างรวดเร็ว หรือทำภาพประกอบสำหรับเนื้อหาการศึกษา เป็นตัวเลือกหนึ่งที่ช่วยเสริมกระบวนการออกแบบเดิมและเพิ่มประสิทธิภาพการทำภาพในขั้นตอนไอเดีย

แต่สำหรับการใช้เชิงพาณิชย์ ต้องระวังเรื่องข้อกำหนดการใช้งานของ Google ที่ยังไม่ชัดเจน โปรเจกต์สำคัญควรปรึกษาผู้เชี่ยวชาญด้านกฎหมายเป็นหนึ่งในแนวทาง

นอกจากนี้ ข้อจำกัดทางเทคนิคทำให้ไม่เหมาะกับงานที่ต้องการความเข้มงวดใน Brand Guidelines การประเมินความต้องการเฉพาะของแต่ละบริษัทและข้อจำกัดทางเทคนิคอย่างรอบคอบก่อนตัดสินใจนำไปใช้เป็นสิ่งสำคัญ

ลิงก์บทความอ้างอิง