
OpenAI, Realtime API’nin üzerine inşa edilen yeni konuşma modeli gpt-realtime’ı duyurdu. Daha doğal sesler, gelişmiş komut işleme ve daha uygun maliyetle gelen model, geliştiriciler için önemli avantajlar sunuyor.
Ekim 2024’te tanıtılan Realtime API, binlerce geliştiricinin uygulamalarına doğal konuşma özellikleri eklemesine olanak tanımıştı. OpenAI şimdi bu deneyimi ileriye taşıyarak gpt-realtime modelini sundu. Model, karmaşık komutları daha doğru şekilde anlama, araç çağırma işlemlerinde hata oranını düşürme ve daha doğal, ifadeli sesler üretme yeteneğiyle öne çıkıyor.
İlk sürümde altı ses seçeneği bulunan Realtime API, daha sonra sekize çıkarılmıştı. gpt-realtime ile birlikte Marin ve Cedar isimli iki yeni ses eklendi ve toplam ses sayısı ona ulaştı. Ayrıca mevcut sekiz ses de daha doğal ve akıcı konuşma sunacak şekilde güncellendi.
Yeni model, performans testlerinde selefini geride bıraktı. Big Bench Audio testinde %82,8 doğruluk oranıyla önceki modelin %65,6’lık skorunu geçti. MultiChallenge Audio Benchmark testinde de %20,6’dan %30,5’e yükselerek ciddi bir gelişim gösterdi.
gpt-realtime modeliyle birlikte Realtime API de güçlendirildi. Artık uzaktan MCP sunucularını, görsel girdileri ve SIP protokolü üzerinden telefon aramalarını destekliyor. Ayrıca geliştiriciler sık kullandıkları komutları kaydedip tekrar kullanabiliyor.
Tüm bu geliştirmelere rağmen OpenAI, Realtime API’nin maliyetini düşürdü. gpt-realtime modeli, önceki gpt-4o-realtime-preview’e göre %20 daha ucuz. 1 milyon ses girdi tokeni 32 dolar, 1 milyon ses çıktı tokeni ise 64 dolara geriledi.
OpenAI, yeni konuşma modeli gpt-realtime’ı tanıttı
Yorum Yaz