Yapay zeka yarışı son dönemde yeni bir boyuta ulaştı. Sohbet botu rekabetinde artık "multimodal"lık yarışından söz eder hale geldik. Multimodal'ı Türkçeye "çok modluluk" diye çevirebiliriz.
Ekrana komut yazdığımız ve çıktı aldığımız sohbet botları artık çok modluluk sayesinde bizi görmeye, duymaya ve hatta dün akşamki OpenAI canlı etkinliğinden sonra bizimle eşzamanlı sesli sohbet etmeye başladı.
OpenAI'ın en büyük rakiplerinden Anthropic, mart ayınca Claude 3 adlı model ailesini duyurmuş ve çok modluluk yarışında ciddi bir ilerleme kaydetmişti. Claude 3 bu özelliği sayesinde fotoğrafları, çizelgeleri ve grafikleri tanıyabilir, PDF’lerden, sunum sayfalarından ve diğer belge türlerinden bir şeyler çıkarabilir hale gelmişti. Bu aile bugün itibarıyla Türkiye'de de kullanıma açıldı. Anthropic'in Google ve Amazon’dan cömert yatırımlar aldığı biliniyor. OpenAI'ın en büyük yatırımcısı ise bunların ezeli rakibi Microsoft.
Anthropic'in Claude 3 hamlesinin ardından OpenAI'ın nasıl bir adım atacağı zaten merakla bekleniyordu. Çünkü bağlam penceresi (işleyebileceği kelime miktarı) vb. gibi özellikleri bakımından sektörde Claude 3 ailesi ve Google'ın yeni gözdesi Gemini, ChatGPT'yi gölgede bırakmaktaydı. OpenAI'ın hamlesini merakla bekler hale gelmiştik.
OpenAI, Her'ü gerçeğe mi dönüştürdü?
Bu süreçte Sam Altman yönetimindeki OpenAI bazı reklam hamleleri yapmaya başlamıştı. Altman çeşitli röportajlarında merakla beklenen GPT-5'ten ve insan seviyesinde yapay zeka hedefinden sıklıkla bahsederken bir gecede anonim biri tarafından internete yüklenen "gpt2-chatbot" adlı bir sohbet botu da ciddi ses getirmişti. Sohbet botu yine gizemli biçimde bir gecede ortadan kaybolmuştu.
Belirli yönleriyle halihazırda GPT-4'ten daha iyi görünen bu gizemli sohbet botunun OpenAI'ın reklam kampanyasının bir parçası olduğunun anlaşılması uzun sürmedi. Çünkü dün akşam (13 Mayıs) OpenAI'ın yeni modeli GPT-4o açıklandı ve tüm sektörü şaşkınlığa uğrattı. Yeni modelin tanıtılmasından önceki akşam ilginç bir şey olmuştu: Altman uzun aradan sonra bir tweet'i beğenmişti. Beğendiği tweet'te, "Pazartesi gününe hazırlanmak için Her filmini izliyorum" yazıyordu. Gönderide açıkça 13 Mayıs'taki OpenAI etkinliği kastediliyordu.
Bunun üzerine herkes, söz konusu etkinlikte Her filmindekine benzer bir yapay zeka duyurulacağı beklentisine girdi. Görünüşe göre OpenAI'ın yeni modeli GPT-4o bu beklentiyi karşıladı da.
Yeni sesli asistan GPT-4o
2013 yapımı Her filminde Joaquin Phoenix'in canlandırdığı baş karakter, sesten ibaret (ki o karizmatik ses Scarlett Johansson'undu) bir sohbet botuna aşık oluyordu. Film 10 yılı aşkın süredir yapay zeka alanındaki atılımlarda sıklıkla adından söz ettiriyor ve ulaşılması gereken bir seviye olarak görülüyor.
Peki yeni GPT-4o'nun Her ile ne gibi benzerlikleri var? Şirket yeni modeli Her ile şu noktadan ilişkilendiriyor:
GPT-4o bir nevi ses asistanı. OpenAI'a göre artık bu yeni modelin güç verdiği ChatGPT, kullanıcılarına gerçek zamanlı olarak sesli yanıt veren ve kullanıcının çevresini gözlemleyebilen, çevredeki nesneleri tanıyabilen, kullanıcının duygu durumunu tahmin edebilen ve farklı tonlarda konuşabilen bir ses asistanı haline geliyor. Tıpkı Her'deki asistan gibi.
İşte tam da buna "çok modlu" diyoruz. Çok modlulukla birlikte üretken yapay zeka araçları bizi ve çevremizdeki nesneleri, hatta bilgisayar ekranımızdaki şeyleri görmeye, tanımaya başlıyor.
Masal anlattı, şarkı söyledi, dil dersi verdi ve matematik öğretti
Dünkü canlı etkinlikte OpenAI ekip üyeleri yeni modelin ses yeteneklerini şaşırtıcı kısa deneylerle sergiledi.
Örneğin OpenAI araştırmacısı Mark Chen, modelin “duygularımızı algılayabildiğini” söyledi. Şirketin yayımladığı deneylerden birinde GPT-4o gerçekten de karşısındaki kullanıcının yüz ifadesinden onun mutlu olduğunu tahmin etti ve "İyi hislerinizin nedenini öğrenebilir miyim?" diye sordu.
Bir diğer deneyde ise GPT-4o, kullanıcının yanında bir köpek olduğunu fark etti ve köpeğin sevimliliği hakkında sevecen bir ses tonuyla konuşmaya başladı:
Şirketin hesabından yayımlanan videolardan birinde bu çevre tanıma özelliği daha da çarpıcı biçimde görülüyor. Videoda GPT-4o'nun kullanıcının çalışma ortamına baktığı ve kullanıcının araç gereçlerini tanıdığı, ışığın konumunu tespit ettiği görülüyor. Sonunda model, kullanıcının kodlama tarzı bir proje üzerinde çalıştığını tahmin edebiliyor:
Etkinlikte ayrıca modele masal anlattırıldı ve bu sırada sesinin tonunu daha robotik veya daha dramatik olacak şekilde defalarca kez değiştirmesi istendi. Model, önce dramatik bir ses tonuyla, sonra da teatral bir ses tonuyla, en son da robotik bir ses tonuyla masalını anlattı. Masal bir robot ve insan arasındaki aşkı konu alıyordu. Canlı deney bitirilirken GPT-4o, masalının bir de şarkı versiyonunu okudu.
Gösterimde ayrıca, GPT-4o'nun kullanıcılara matematik problemleri çözmede de bir öğretmen gibi yardımcı olduğu görüldü. Kullanıcının ekranındaki videoları ve görselleri gerçek zamanlı olarak tanıyabilen model, bir matematik problemini çözmesinde kullanıcılara yardım etti.
Bir diğer gösterimde de kullanıcılara İspanyolca öğrenmeleri için asistanlık yaptı ve masanın üzerindeki meyveleri tanımlayarak İspanyolca adlarını söyledi:
İnsan konuşma hızına çok yakın: Anlık çeviri yapıyor ve görme engellilere rehberlik ediyor
ChatGPT'nin aslında halihazırda ses modu vardı. Ancak bu sınırlı bir mod çünkü her seferinde bir komuta yanıt veriyor. Bizi "görme", bizimle gerçek zamanlı "konuşma" yeteneği de yok. OpenAI'ın blogunda yayımlanan bir yazıya göreyse yeni model kullanıcıya 232 milisaniye kadar kısa bir sürede cevap verebiliyor. Bu da insan konuşmasındaki tepki süresine çok yakın.
Dünkü etkinlikte modelin konuşma hızı ve sohbet içerisinde davranışlarını değiştirebilme yeteneği de gözler önüne serildi. Örneğin bir gösterimde GPT-4o, kullanıcılarla gerçek zamanlı olarak taş-kağıt-makas oyununu oynadı:
Büyüleyici bir diğer gösterimde ise İtalyanca ve İngilizce arasında simultane çeviri yapmayı başardı. Hatta bu gösterimin ardından sosyal medya ahalisi, rehberlik ve çevirmenlik gibi mesleklerin sonunun geldiği spekülasyonuna başladı. Modelin halihazırda 50 dili desteklediği belirtiliyor.
Modelin insan konuşmasına yakın bir hızda iletişim kurması ve çevreyi de bu hızla betimleyebilmesi özellikle görme engelliler için önemli bir işlev olabilir. Zira şirketin yayımladığı videolardan birinde GPT-4o'yu kullanan bir görme engelli kullanıcının telefonuyla modele etrafı gösterdiği ve modelin de çevrede ne olup ne bittiğini kullanıcıya hızlıca özetlediği görüldü. Bu özellik görme engelli kullanıcıların hayatını gerçekten de kolaylaştırabilecek nitelikte.
Ses asistanı gelecek haftalarda teste açılacak
Şirketin açıklamasına göre ücretli aboneler bu yeni ses moduna erken erişim sağlayabilecek. Önümüzdeki haftalarda modelin tam anlamıyla test edilmesi planlanıyor. Şu anda OpenAI, modelin diğer yeteneklerini ücretli kullanıcılara sundu. Aynı zamanda önceki GPT-4 modeli ve sadece abonelere açılan GPT mağazası da herkesin kullanımına ücretsiz sunulmaya başladı.
Kullanıcılar dün akşam itibarıyla ChatGPT'nin yukarıda bahsettiğimiz eski sesli moduna da erişim sağlayabiliyor. Bunu GPT-4o'nun yeni sesli modeli zannedenler oldu ama bu yenilikçi teknolojiyi henüz kullanamıyoruz. Halihazırda kod yazma, grafik çiz e ve okuma gibi yeteneklerini test etmemiz mümkün. Altman GPT-4o üzerinde değişiklik yapmak isteyen veya onu kendi uygulamalarına entegre etmek isteyen geliştiricilerin, modelin API'sine GPT-4 Turbo'nun yarı fiyatına erişebileceklerini açıkladı. Üstelik bu model iki kat hızlı hizmet verecek.