Kullanıcılar, bu yılın sonlarında piyasaya sürüldüğünde yapay zeka asistanıyla ses ve video kullanarak etkileşime girebilecekler.
Google bu yılın sonlarına doğru Astra adında yeni bir sistem tanıtacak ve bunun şimdiye kadar piyasaya sürdüğü en güçlü, en gelişmiş yapay zeka asistanı olacağını vaat ediyor.
ChatGPT gibi mevcut nesil yapay zeka asistanları bilgi alabiliyor ve cevaplar sunabiliyor, ancak hepsi bu kadar. Ancak bu yıl Google, asistanlarını muhakeme, planlama ve hafıza becerileri gösterebilen ve görevleri yerine getirmek için birden fazla adım atabilen daha gelişmiş “aracılar” olarak yeniden markalaştırıyor.
Google DeepMind araştırma başkan yardımcısı Oriol Vinyals, MIT Technology Review’a yaptığı açıklamada, insanların Astra’yı akıllı telefonları ve muhtemelen masaüstü bilgisayarları aracılığıyla kullanabileceklerini, ancak şirketin akıllı gözlüklere veya diğer cihazlara yerleştirmek gibi diğer seçenekleri de araştırdığını söyledi.
Google CEO’su Sundar Pichai, Google’ın bugünkü I/O konferansı öncesinde yaptığı açıklamada, “[Yapay zeka ajanı geliştirmenin] çok erken günlerindeyiz” dedi.
Google DeepMind’ın CEO’su ve kurucu ortağı Demis Hassabis, “Her zaman günlük yaşamda faydalı olacak evrensel bir ajan oluşturmak istedik” dedi. “Ne yaptığımızı görebilen ve duyabilen, içinde bulunduğumuz bağlamı daha iyi anlayabilen ve sohbet sırasında hızlı yanıt verebilen, etkileşimin hızını ve kalitesini çok daha doğal hissettiren ajanlar hayal edin.” Astra’nın işte böyle bir şey olacağını söylüyor.
Google’ın duyurusu, rakibi OpenAI’nin kendi güçlendirilmiş yapay zeka asistanı GPT-4o’yu tanıtmasından bir gün sonra geldi. Google DeepMind’ın Astra’sı, GPT-4o ile aynı şekilde (daha az flörtöz olsa da) ses ve video girdilerine yanıt veriyor.
Bir basın demosunda, bir kullanıcı akıllı telefon kamerasını ve akıllı gözlüğünü bir şeylere doğrulttu ve Astra’dan bunların ne olduğunu açıklamasını istedi. Kullanıcı cihazı pencereden dışarı doğrultup “Sence hangi mahalledeyim?” diye sorduğunda, yapay zeka sistemi Google DeepMind’ın merkezinin bulunduğu King’s Cross, Londra’yı tanımlayabildi. Ayrıca, etkileşimin başlarında kaydetmiş olduğu kişinin gözlüklerinin masanın üzerinde olduğunu da söyleyebildi.
Vinyals, demonun Google DeepMind’ın gerçek zamanlı olarak çalışan multimodal yapay zeka (ses, video, metin vb. birden fazla girdi türünü işleyebilen) vizyonunu sergilediğini söylüyor.
“Gelecekte kullanıcıya gerçekten daha yakın olabilmek, kullanıcıya istediği her konuda yardımcı olabilmek bizi çok heyecanlandırıyor” diyor. Google kısa bir süre önce yapay zeka modeli Gemini’yi daha büyük miktarlarda veriyi işleyebilecek şekilde yükseltti; bu yükseltme daha büyük belgeleri ve videoları işlemesine ve daha uzun konuşmalar yapmasına yardımcı oluyor.
Teknoloji şirketleri yapay zeka üstünlüğü konusunda kıyasıya bir rekabetin ortasındalar ve yapay zeka ajanları, Büyük Teknoloji firmalarının gelişimin sınırlarını zorladıklarını göstermek için gösterdikleri en son çaba. Ajanlar aynı zamanda OpenAI ve Google DeepMind da dahil olmak üzere birçok teknoloji şirketinin yapay genel zekayı, yani süper zeki yapay zeka sistemlerinin oldukça varsayımsal bir fikrini oluşturmayı amaçlayan bir anlatıya da hizmet ediyor.
Washington Üniversitesi’nde çevrimiçi arama konusunda uzmanlaşmış bir profesör olan Chirag Shah, “Sonunda, sizi gerçekten iyi tanıyan, sizin için pek çok şey yapabilen ve birden fazla görev ve alanda çalışabilen bir ajanınız olacak” diyor.
Bu vizyon hala hedefe yönelik. Ancak bugünkü duyuru Google’ın rakiplerine ayak uydurma çabası olarak görülmeli. Shah, Google’ın bu ürünleri aceleye getirerek bir milyardan fazla kullanıcısından modellerini nasıl kullandıkları ve neyin işe yaradığı konusunda daha fazla veri toplayabileceğini söylüyor.
Google bugün aracıların ötesinde daha birçok yeni yapay zeka özelliğini tanıtıyor. İnternetten bilgi toplayan ve bunları arama sorgularına yanıt olarak kısa özetler halinde paketleyen AI overviews adlı yeni bir özellik aracılığıyla yapay zekayı Arama’ya daha derinlemesine entegre edecek. Bugün kullanıma sunulan özellik başlangıçta yalnızca ABD’de kullanılabilecek ve daha sonra daha fazla ülkeye erişim sağlanacak.
Reuters Gazetecilik Enstitüsü’nde yapay zeka ve dijital haberler alanında araştırma görevlisi olan Felix Simon, bu özelliğin arama sürecini hızlandırmaya ve kullanıcılara daha karmaşık, niş sorulara daha spesifik yanıtlar vermeye yardımcı olacağını söylüyor. “Bence Arama’nın her zaman zorlandığı nokta buydu” diyor.
Google’ın Yapay Zeka Arama teklifinin bir diğer yeni özelliği de daha iyi planlama. İnsanlar yakında Arama’dan, örneğin bir seyahat acentesinden restoran ve otel önermesini istemek gibi, yemek ve seyahat önerileri yapmasını isteyebilecekler. Gemini, yemek tarifleri pişirmek için ne yapmaları ya da ne satın almaları gerektiğini planlamalarına yardımcı olabilecek ve ayrıca AI sistemiyle konuşmalar yapabilecekler, hava durumu hakkında bilgi vermek gibi nispeten sıradan görevlerden, bir iş görüşmesine veya önemli bir konuşmaya hazırlanmalarına yardımcı olmak gibi oldukça karmaşık görevlere kadar her şeyi yapmasını isteyebilecekler.
İnsanlar ayrıca Gemini’nin sözünü yarıda kesebilecek ve gerçek bir konuşmada olduğu gibi açıklayıcı sorular sorabilecekler.
Google, rakibi OpenAI’yi geride bırakmak için bir başka hamle olarak, yeni bir video üreten yapay zeka sistemi olan Veo’yu da tanıttı. Veo kısa videolar oluşturabiliyor ve “time lapse” ya da “bir manzaranın havadan çekimi” gibi komutları anlayarak kullanıcıların sinematik stiller üzerinde daha fazla kontrol sahibi olmalarını sağlıyor.
Google, YouTube’un sahibi olduğu için üretken video modellerini eğitme konusunda önemli bir avantaja sahip. Google, çalışmalarını üretmek için teknolojisini kullanan Donald Glover ve Wycleaf Jean gibi sanatçılarla işbirliği yaptığını duyurdu bile.
Bu yılın başlarında, OpenA’nın CTO’su Mira Murati, şirketin modelinin YouTube verileri üzerinde eğitilip eğitilmediği sorulduğunda beceriksizce cevap verdi. Google DeepMind’da kıdemli araştırma direktörü olan Douglas Eck de MIT Technology Review tarafından sorulduğunda Veo’yu oluşturmak için kullanılan eğitim verileri hakkında belirsizdi, ancak “YouTube içerik oluşturucularıyla yaptığımız anlaşmalar uyarınca bazı YouTube içeriği üzerinde eğitilmiş olabilir” dedi.
Shah, bir yandan Google’ın üretken yapay zekasını sanatçıların bir şeyler yapmak için kullanabileceği bir araç olarak sunduğunu, ancak araçların bu şeyleri yaratma yeteneklerini muhtemelen mevcut sanatçıların materyallerini kullanarak elde ettiğini söylüyor. Google ve OpenAI gibi yapay zeka şirketleri, fikri mülkiyetlerinin izin alınmadan veya tazminat ödenmeden kullanıldığını iddia eden yazarlar ve sanatçılar tarafından açılan bir dizi davayla karşı karşıya kaldı.
Shah, “Sanatçılar için bu iki ucu keskin bir kılıç” diyor.
*Bu yazı Google’s Astra is its first AI-for-everything agent başlıklı yazıdan çevrilmiştir.