Google เพิ่ม Agentic Vision ใน Gemini 3 Flash เปลี่ยนวิธีจาก AI แค่ดูภาพและตอบ เป็นการประมวลผลร่วมกับรันโค้ดจริง

Google เตรียมยกระดับโมเดล Gemini 3 Flash ของตัวเองไปอีกขั้นนึง โดยการเพิ่ม หรือการประมวลผลแบบ Active Investigation เข้าไป เพื่อให้การถามคำถามด้วยภาพ ไม่ใช่แค่การวิเคราะห์จากภาพที่เห็นเพียงอย่างเดียว แต่ทำความเข้าใจบริบทในภาพเพิ่มด้วย

ซึ่ง Agentic Vision ทำให้ AI ของ Google สามารถวางแผนว่าจะทำอะไรต่อจากภาพ (Think), เขียนและรันโค้ด Python เพื่อจัดการภาพนั้น ไม่ว่าจะเป็นการครอปหรือซูม และคำนวณองค์ประกอบได้ (Act) พร้อมด้วยการตรวจสอบภาพที่ละเอียดขึ้นก่อนปรับมาเป็นคำตอบของผู้ใช้ (Observe) พร้อมการทำงานด้วยขั้นตอนใหม่

Think: ใช้ AI วิเคราะห์คำถามและภาพ จากนั้นจะมีการวางแผนล่วงหน้าว่าในคำถามนั้นต้องการคำตอบแบบไหน
Act: เริ่มการการเขียนโค้ด Python เพื่อซูมเข้าไปยังจุดสำคัญ ครอปเป็นภาพย่อย หรือวาดกรอบและคำนวณเพื่อรันโค้ดให้ได้ผลลัพธ์จริงจากภาพ
Observe: ผลลัพธ์ที่ได้จากโค้ดที่รันไป จะให้ระบบ AI ช่วยดูข้อมูลใหม่และตัดสินใจก่อนจะออกมาเป็นคำตอบให้กับผู้ใช้

นอกจากนี้ Google ยังวางแผนให้ Agentic Vision ในอนาคต สามารถทำการตัดสินใจหลายอย่างโดยอัตโนมัติโดยไม่ต้องสั่งโค้ดทีละขั้น และทำงานร่วมกับเครื่องมืออื่น เช่น Web Search, Reverse Imgae Reach ได้ พร้อมเตรียมขยายการใช้งานไปยังโมเดลรุ่นใหญ่กว่าหรือซับซ้อนกว่ามากขึ้น

และจากการดู คิดวิเคระห์ และลงมือทำจริงเพื่อให้ได้คำตอบในโมเดลใหม่นี้ ก็จะช่วยเพิ่มความแม่นยำมากขึ้น และคำตอบจาก Gemini 3 Flash ก็จะมีอินไซต์จากข้อมูลจริงโดยลดการคาดเดาลงด้วย

ที่มา: https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/