OpenAI, yeni konuşma modeli gpt-realtime’ı tanıttı

01 Eylül 2025 13:04

Dijibeyin

OpenAI, Realtime API’nin üzerine inşa edilen yeni konuşma modeli gpt-realtime’ı duyurdu. Daha doğal sesler, gelişmiş komut işleme ve daha uygun maliyetle gelen model, geliştiriciler için önemli avantajlar sunuyor.

gpt-realtime ile daha gelişmiş konuşma deneyimi

Ekim 2024’te tanıtılan Realtime API, binlerce geliştiricinin uygulamalarına doğal konuşma özellikleri eklemesine olanak tanımıştı. OpenAI şimdi bu deneyimi ileriye taşıyarak gpt-realtime modelini sundu. Model, karmaşık komutları daha doğru şekilde anlama, araç çağırma işlemlerinde hata oranını düşürme ve daha doğal, ifadeli sesler üretme yeteneğiyle öne çıkıyor.

The Realtime API is officially out of beta and ready for your production voice agents!

We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:

🔌 Remote MCPs
🖼️ Image input
📞 SIP phone calling
♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD
— OpenAI Developers (@OpenAIDevs) August 28, 2025

Yeni sesler ve güncellenen seçenekler

İlk sürümde altı ses seçeneği bulunan Realtime API, daha sonra sekize çıkarılmıştı. gpt-realtime ile birlikte Marin ve Cedar isimli iki yeni ses eklendi ve toplam ses sayısı ona ulaştı. Ayrıca mevcut sekiz ses de daha doğal ve akıcı konuşma sunacak şekilde güncellendi.

Performans testlerinde büyük sıçrama

Yeni model, performans testlerinde selefini geride bıraktı. Big Bench Audio testinde %82,8 doğruluk oranıyla önceki modelin %65,6’lık skorunu geçti. MultiChallenge Audio Benchmark testinde de %20,6’dan %30,5’e yükselerek ciddi bir gelişim gösterdi.

Realtime API’ye gelen ek özellikler

gpt-realtime modeliyle birlikte Realtime API de güçlendirildi. Artık uzaktan MCP sunucularını, görsel girdileri ve SIP protokolü üzerinden telefon aramalarını destekliyor. Ayrıca geliştiriciler sık kullandıkları komutları kaydedip tekrar kullanabiliyor.

Daha düşük maliyetli kullanım

Tüm bu geliştirmelere rağmen OpenAI, Realtime API’nin maliyetini düşürdü. gpt-realtime modeli, önceki gpt-4o-realtime-preview’e göre %20 daha ucuz. 1 milyon ses girdi tokeni 32 dolar, 1 milyon ses çıktı tokeni ise 64 dolara geriledi.

ETİKETLER