ได้ทั้งแปลสดและถอดเสียงแบบ Real-time OpenAI เปิด Voice Intelligence ใหม่ รองรับได้ถึง 70 ภาษา

อัปเดตใหม่จาก OpenAI ด้วยฟีเจอร์เกี่ยวกับด้าน Voice Intelligence ในระบบ API ของผู้พัฒนา เพื่อช่วยให้แอปสามารถพูดคุย ถอดเสียง รวมถึงแปลภาษาแบบ Real-time ของผู้ใช้ให้มีประสิทธิภาพมากขึ้น

โดยฟีเจอร์นี้มีชื่อว่า GPT-Realtime-2 เป็นโมเดลที่ถูกพัฒนาขึ้นให้ผู้ใช้สามารถเจนเสียงพูดได้เสมือนจริง และยังตอบโต้ผู้ใช้ได้อย่างเป็นธรรมชาติอีกด้วย ซึ่งแตกต่างจาก GPT-Realtime-1.5 เวอร์ชันเดิม เนื่องจากโมเดลรุ่นใหม่ได้เพิ่มสกิลการคิดวิเคราะห์ในระดับโมเดล GPT-5 ให้เข้าใจคำถามหรือคำสั่งที่ซับซ้อนได้ดีกว่าเดิม

นอกจากนี้ OpenAI ยังเปิดตัว GPT-Realtime-Translate สำหรับแปลภาษาจากการบทสนธนาได้แบบทันทีและมีความเป็นธรรมชาติมากขึ้น พร้อมรองรับภาษาเบื้องต้นได้ถึง 70 ภาษา และรองรับการแปลได้ถึง 13 ภาษา แต่ที่น่าสนใจกว่าหลังการอัปเดตครั้งนี้นั่นคือ GPT-Realtime-Whisper ที่สามารถถอดเสียงเป็นข้อความได้ทันทีระหว่างพูดคุยกัน

ซึ่ง GPT-Realtime-2 ก็ถือเป็นการพัฒนาที่มีประโยชน์อย่างมาก เพราะ AI จะเข้ามาช่วยขยายความสามารถด้าน Customer Service ของหลายอุตสาหกรรมทั้งด้านการศึกษา, สื่อ, อีเวนต์ และครีเอเตอร์บนแพลตฟอร์มต่าง ๆ

แต่ยังไงก็ตาม ทาง OpenAI ก็ยังมีความกังวลว่าฟีเจอร์เหล่านี้อาจถูกนำไปใช้งานในทางที่ผิด จึงได้เพิ่มระบบป้องกันการสแปมเนื้อหาหรือการใช้งานแอปที่ละเมิดความปลอดภัย เพื่อป้องกันอันตรายที่อาจเกิดขึ้นจากผู้ใช้งานด้วยกันเอง

และในปัจจุบันโมเดล GPT-Realtime-Translate และ GPT-Realtime-Whisper จะถูกรวมไว้ในระบบ API ของ OpenAI โดยตรง และจะคิดค่าบริการตามการใช้งานต่อนาที ส่วน GPT-Realtime-2 จะคิดค่าบริการตามจำนวนโทเคนที่ถูกใช้งานไป ส่วนหลังจากนี้จะมีการเพิ่มฟีเจอร์อะไรเข้ามาอีกในอนาคต ก็คงต้องรอการอัปเดตใหม่จากผู้พัฒนากันต่อไป

ที่มา: https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/