Gemini อัปเกรดโมเดล Gemini 2.5 Flash Image แก้ไขและรีมิกซ์ภาพแบบแอดวานซ์ได้

Google ได้เปิดตัวโมเดล Gemini 2.5 Flash Image (หรือที่รู้จักกันในชื่อ nano-banana) ซึ่งเป็นโมเดลการสร้างและแก้ไขภาพแบบแอดวานซ์ ทำให้สามารถรวมหลาย ๆ ภาพเป็นภาพเดียว หรือเปลี่ยนท่าทางและฉากตามใจชอบได้ รวมถึงมีการใช้ Gemini เพื่อสร้างและแก้ไขภาพด้วย

ซึ่งตอนนี้โมเดล Gemini 2.5 Flash Image พร้อมใช้งานผ่าน Gemini API และ Google AI Studio แล้วสำหรับนักพัฒนา และ Vertex AI สำหรับองค์กร โดย Gemini 2.5 Flash Image มีราคาอยู่ที่ 30.00 ดอลลาร์สหรัฐ ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น และแต่ละภาพจะมีโทเค็นเอาต์พุต 1,290 โทเค็น (0.039 ดอลลาร์สหรัฐ ต่อภาพ)

ส่วนฟีเจอร์ที่จะตามมากับโมเดล Gemini 2.5 Flash Image ก็จะทำได้ทั้งแก้ไขภาพและอัปโหลดรูปภาพ ไปจนถึงใช้ฟิลเตอร์ต่าง ๆ ได้ เพราะมีเทมเพลต การรีมิกซ์ใหม่ ๆ และการ Reimage เพื่อทำให้ภาพเปลี่ยนได้ตามพรอมพ์ที่ป้อน ไม่ว่าจะเป็น

Image Editing

Gemini 2.5 Flash Image เป็นโมเดลที่อนุญาตให้ผู้ใช้สามรถทำการแก้ไขภาพแบบรีทัชในส่วนที่ต้องการภายในภาพได้ ทั้งสีเสื้อ ลบผู้คนออกจากภาพ ลบรอยเปื้อนบนเสื้อผ้า หรือเปลี่ยนท่าทางของตัวเอง เพียงแค่ป้อนคำสั่งพรอมพ์ด้านล่าง

Multi-image Fusion

Gemini 2.5 Flash Image เป็นโมเดลที่ทำความเข้าใจการรวมภาพหลายภาพมาอยู่ในภาพเดียวกันง่ายขึ้น เพียงแค่อัผโหลดภาพฉากหรือองค์ประกอบที่ต้องการใส่ในภาพ และเลือกตำแหน่งที่ต้องการวางองค์ประกอบภายในภาพ จากนั้นโมเดลนี้ก็จะทำตามคำสั่งได้ ทำให้องค์ประกอบที่เลือกมาอยู่ในภาพได้ทันที

Advanced Edit

ฟีเจอร์ที่ช่วยเปลี่ยนคอสตูมหรือฉากหลังของภาพที่ถูกอัปโหลดไป ไม่ว่าภาพนั้นจะเป็นภาพจากคนหรือสัตว์ที่มาจากสมาร์ตโฟนก็ตาม แต่โมเดลนี้จะช่วยเปลี่ยนไปตามความต้องการจากพรอมพ์ที่ป้อนได้เลย

Blend Photos Together

ฟีเจอร์ที่คล้ายกับ Multi-image Fusion แต่จะมีความแตกต่างกันเล็กน้อย เพราะเป็นการเบลนรูปภาพที่มาจากทั้ง 2 ภาพโดยมีจะเป็นระหว่างภาพคนกับคนหรือภาพคนกับสัตว์ให้มาอยู่ในเฟรมเดียวกันตามพรอมพ์ที่ป้อนได้

Mix Up Design

เป็นการนำสไตล์ภาพของภาพที่ต้องการมาผสมผสานดีไซน์กัน โดยป้อนพรอมพ์เพื่อมิกซ์สไตล์ของรูปได้เลย เช่น การนำรองเท้าบูธผสมกับดอกไม้ ก็จะออกมาเป็นรองเท้าบูธลายดอกไม้ได้ เป็นต้น รวมถึงจะมีลายน้ำดิจิทัล SynthID ที่มองไม่เห็น เพื่อให้เห็นได้ชัดเจนว่าเป็นผลงานที่สร้างโดย AI

Multi-turn Editing

เป็นฟีเจอร์ที่สามารถแก้ไขรูปภาพด้วยการเพิ่มองค์ประกอบที่ต้องการตามพรอมพ์ที่ป้อนได้เลย ไม่ว่าภาพที่มีจะโล่งแค่ไหน แต่โมเดล Gemini 2.5 Flash Image ก็จะช่วยเติมองค์ประกอบภาพที่ทำให้แสง สี และเงาดูเข้ากันได้กับภาพดั้งเดิมที่มีด้วย

Native World Knowledge

โมเดล Gemini 2.5 Flash Image ได้รับประโยชน์มาจากการเรียนรู้ของ AI อย่าง Gemini เปลี่ยนเทมเพลต Google AI Studio เป็นแคนวาสสำหรับติวเตอร์แบบอินเทอร์แอ็กทีฟ ที่แสดงให้เห็นถึงความสามารถของโมเดลในการอ่านและทำความเข้าใจไดอะแกรมที่วาดด้วยมือ และปฏิบัติตามคำแนะนำการแก้ไขที่ซับซ้อนได้ในขั้นตอนเดียว

Character Consistency

ฟีเจอร์สำหรับ Image Generation ที่ช่วยให้ภาพคาแรกเตอร์ของเราที่ถูกอัปโหลดภาพเดียว กลายเป็นหลายคาแรกเตอร์ในแต่ละยุคได้ แถมยังมีแอปเทมเพลตใน Google AI Studio เพื่อปรับแต่งและใส่โค้ดลงไปได้ด้วย

Visual Template

นอกจากความสามารถในการเปลี่ยนสไตล์รูปภาพที่อัปโหลดไปแล้ว โมเดล Gemini 2.5 Flash Image ยังมีเทมเพลตเป็นการ์ดจำลองลักษณะตามอาชีพต่าง ๆ ให้ได้ลองเปลี่ยนคาแรกเตอร์ด้วย

โดยสรุปแล้วจากฟีเจอร์ทั้งหมดของโมเดล Gemini 2.5 Flash Image จะเน้นไปที่การป้อนพรอมพ์เพื่อแก้ไขหรือเพิ่มองค์ประกอบของภาพที่อัปโหลดได้ง่ายขึ้น ทั้งนี้สามารถไปลองใช้งานกันได้ที่แอป Gemini เลย!

ที่มา: https://blog.google/products/gemini/updated-image-editing-model/

https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/