
Stability AI ประกาศเปิดตัว Stable Audio 2.5 โมเดลสร้างเสียงรุ่นใหม่ที่ออกแบบมาเพื่อการใช้งานระดับองค์กรโดยเฉพาะ พร้อมจุดเด่นด้านคุณภาพ ความเร็ว และความสามารถในการปรับแต่งเสียง เพื่อให้แบรนด์สามารถนำไปใช้ในเชิงพาณิชย์ได้จริง
โดยฟีเจอร์ใหม่ของ Stable Audio 2.5 สามารถสร้างเพลงความยาวสูงสุดถึง 3 นาที ด้วยวิธี Adversarial Relativistic-Contrastive (ARC) ที่พัฒนาโดยทีมวิจัย Stable Audio ทำให้โมเดลมีความเร็ว Inference ต่ำกว่า 2 วินาทีบน GPU
ซึ่งสามารถสร้างได้ทั้งเสียงเปิดโลโก้ เพลงประกอบในร้านค้า หรือแม้กระทั่งเสียงรูดบัตรเครดิต เป็นต้น อีกทั้งเสียงที่ได้ยังมีโครงสร้างดนตรีที่ชัดเจนทั้ง Intro, Development และ Outro พร้อมแนวดนตรีที่หลากหลาย รวมถึงยังสามารถควบคุมและปรับแต่งเสียงด้วย Audio Inpainting ที่ให้ผู้ใช้งานอัปโหลดเสียงบางส่วน เลือกจุดเริ่มต้น และให้โมเดลสร้างส่วนที่เหลือต่อ แต่มีข้อห้ามว่าไฟล์ที่อัปโหลดจะต้องไม่ละเมิดลิขสิทธิ์ เนื่องจากระบบมี Content Recognition ในการตรวจสอบ
สำหรับ Stable Audio 2.5 เป็นโมเดลที่ได้รับการฝึกบนชุดข้อมูลที่มีลิขสิทธิ์ถูกต้อง ทำให้สามารถนำไปใช้ในธุรกิจได้โดยไม่ต้องกังวล นอกจากนี้ Stability AI ยังจับมือกับ amp เอเจนซีด้าน Sound Branding ในเครือ Landor Group (WPP) เพื่อพัฒนาโซลูชันให้กับลูกค้าองค์กรระดับโลกอีกด้วย
ใครที่อยากลองใช้งาน Stable Audio 2.5 สามารถเข้าไปได้ที่ https://stableaudio.com/ โดยใช้งานผ่าน Stability AI API หรือแพลตฟอร์มพาร์ตเนอร์ เช่น fal, Replicate และ ComfyUI ส่วนองค์กรที่ต้องการติดตั้งในระบบของตัวเองก็สามารถขอ Enterprise License ได้เช่นกัน
ชมคลิปตัวอย่างเสียงที่สร้างจาก Stability AI ได้ที่ https://youtu.be/zlldXbV72SM
ที่มา: Stability AI