
‘Google’ เปิดตัวโมเดลใหม่ในชื่อ ‘Gemini 2.5 Computer Use’ ที่มาพร้อมความสามารถในการใช้งานเว็บเบราว์เซอร์ได้เหมือนผู้ใช้ทั่วไป ไม่ว่าจะเป็นการคลิก, เลื่อนหน้าจอ หรือพิมพ์ข้อความ เพื่อเข้าถึงข้อมูลที่ API ไม่สามารถเชื่อมต่อได้โดยตรง
โดยโมเดลใหม่นี้มีความสามารถด้านการมองเห็น และการคิดวิเคราะห์ เพื่อทำความเข้าใจหน้าจอเว็บไซต์ จากนั้นทำตามคำสั่งของผู้ใช้ เช่น กรอกฟอร์ม และกดส่งข้อมูล ซึ่งเหมาะสำหรับผู้ที่ต้องการทดสอบหน้าตา UI หรือการใช้งานในหน้าเว็บที่ออกแบบมาสำหรับคนจริง ๆ ไม่ใช่แค่ระบบ API ทั่วไป นอกจากนี้ Google ได้นำระบบนี้ไปใช้กับฟีเจอร์อย่าง AI Mode และ Project Mariner อีกด้วย
ซึ่งการเปิดตัวครั้งนี้เกิดขึ้นเพียง 1 วันหลังจาก OpenAI เปิดตัวแอปใหม่สำหรับ ChatGPT ในงาน Dev Day และยังต่อเนื่องจากการที่ Anthropic ได้เปิดฟีเจอร์ Computer Use บน Claude ในช่วงปีที่ผ่านมา
ทั้งนี้ Google ระบุว่า Gemini 2.5 Computer Use ทำงานได้เหนือกว่าคู่แข่งในหลายด้านทั้งเว็บไซต์ และโทรศัพท์ แต่ยังต่างจาก ChatGPT หรือ Claude เพราะโมเดลนี้ยังเปิดให้ใช้งานได้แค่ในเบราว์เซอร์ และยังไม่สามารถควบคุมคอมพิวเตอร์ทั้งระบบได้ รวมถึงยังรองรับคำสั่งได้เพียง 13 แบบ เช่น เปิดเว็บ หรือพิมพ์ข้อความเป็นต้น
สุดท้ายนี้ Gemini 2.5 Computer Use ยังไม่เปิดให้บุคคลทั่วไปใช้งาน แต่สำหรับนักพัฒนาเว็บไซต์ หรือแอปพลิเคชันสามารถใช้งานโมเดลนี้ได้ผ่าน Google AI Studio, Vertex AI โดยยังเป็นเวอร์ชันทดลองบน Browserbase ส่วนผู้ใช้คนอื่น ๆ ต้องรอติดตามจากทาง Google ต่อไป
ที่มา: https://www.theverge.com/news/795463/google-computer-use-gemini-ai-model-agents