Sinir ağları, şu anda finanstan insan kaynaklarına ve sağlık hizmetlerine kadar çok çeşitli uygulamalarda kullanılan büyük dil modelleri de dahil olmak üzere yapay zeka alanındaki atılımlara güç vermektedir. Ancak bu ağlar, mühendislerin ve bilim insanlarının iç işleyişini anlamakta zorlandıkları bir kara kutu olmaya devam ediyor. Şimdi, Kaliforniya San Diego Üniversitesi’nde veri ve bilgisayar bilimcileri tarafından yönetilen bir ekip, gerçekte nasıl öğrendiklerini ortaya çıkarmak için sinir ağlarına bir X-ışını eşdeğeri verdi.
Araştırmacılar, istatistiksel analizde kullanılan bir formülün, ChatGPT’nin öncüsü olan GPT-2 gibi sinir ağlarının, özellik olarak bilinen verilerdeki ilgili kalıpları nasıl öğrendiğine dair basitleştirilmiş bir matematiksel açıklama sağladığını buldular. Bu formül aynı zamanda sinir ağlarının tahminlerde bulunmak için bu ilgili kalıpları nasıl kullandığını da açıklıyor.
UC San Diego Bilgisayar Bilimi ve Mühendisliği Bölümü’nde doktora öğrencisi ve çalışmanın ilk yazarı olan Daniel Beaglehole, “Sinir ağlarını ilk prensiplerden anlamaya çalışıyoruz” dedi. “Formülümüzle, ağın tahminlerde bulunmak için hangi özellikleri kullandığı basitçe yorumlanabilir.”
Ekip bulgularını Science dergisinin 7 Mart tarihli sayısında sundu.
Bu neden önemli? Yapay zeka destekli araçlar artık günlük yaşamın her alanına yayılmış durumda. Bankalar bunları kredileri onaylamak için kullanıyor. Hastaneler bunları röntgen ve MRI gibi tıbbi verileri analiz etmek için kullanıyor. Şirketler bunları iş başvurusunda bulunanları taramak için kullanıyor. Ancak sinir ağlarının karar vermek için kullandığı mekanizmayı ve eğitim verilerinde bunu etkileyebilecek önyargıları anlamak şu anda zor.
Makalenin sorumlu yazarı ve UC San Diego Halicioglu Veri Bilimi Enstitüsü’nde profesör olan Mikhail Belkin, “Sinir ağlarının nasıl öğrendiğini anlamazsanız, sinir ağlarının güvenilir, doğru ve uygun yanıtlar üretip üretmediğini belirlemek çok zordur” dedi. “Bu, makine öğrenimi ve sinir ağı teknolojisinin son zamanlardaki hızlı büyümesi göz önüne alındığında özellikle önemlidir.”
Çalışma, Belkin’in araştırma grubunun sinir ağlarının nasıl çalıştığını açıklayan matematiksel bir teori geliştirmeye yönelik daha büyük bir çabasının parçası. “Teknoloji, teoriyi büyük ölçüde geride bıraktı” dedi. “Arayı kapatmamız gerekiyor.”
Ekip ayrıca, sinir ağlarının nasıl öğrendiğini anlamak için kullandıkları ve Average Gradient Outer Product (AGOP) olarak bilinen istatistiksel formülün, sinir ağlarını içermeyen diğer makine öğrenimi mimarilerinde performansı ve verimliliği artırmak için uygulanabileceğini gösterdi.
Belkin, “Sinir ağlarını yönlendiren altta yatan mekanizmaları anlarsak, daha basit, daha verimli ve daha yorumlanabilir makine öğrenimi modelleri oluşturabiliriz” dedi. “Bunun yapay zekanın demokratikleşmesine yardımcı olacağını umuyoruz.”
Belkin’in öngördüğü makine öğrenimi sistemleri çalışmak için daha az hesaplama gücüne ve dolayısıyla şebekeden daha az güce ihtiyaç duyacaktır. Bu sistemler aynı zamanda daha az karmaşık olacak ve böylece anlaşılması daha kolay olacaktır.
Yeni bulguları bir örnekle açıklamak gerekirse
(Yapay) sinir ağları, veri özellikleri arasındaki ilişkileri öğrenmek için kullanılan hesaplama araçlarıdır (örneğin, bir görüntüdeki belirli nesneleri veya yüzleri tanımlamak). Bir görev örneği, yeni bir görüntüde bir kişinin gözlük takıp takmadığını belirlemektir. Makine öğrenimi bu soruna, sinir ağına “gözlük takan bir kişi” veya “gözlük takmayan bir kişi” olarak etiketlenmiş birçok örnek (eğitim) görüntü sağlayarak yaklaşır. Sinir ağı, görüntüler ve etiketleri arasındaki ilişkiyi öğrenir ve bir belirleme yapmak için odaklanması gereken veri kalıplarını veya özelliklerini çıkarır. Yapay zeka sistemlerinin kara kutu olarak görülmesinin nedenlerinden biri, potansiyel önyargılar da dahil olmak üzere sistemlerin tahminlerini yapmak için gerçekte hangi kriterleri kullandığını matematiksel olarak tanımlamanın genellikle zor olmasıdır. Yeni çalışma, sistemlerin bu özellikleri nasıl öğrendiğine dair basit bir matematiksel açıklama sunuyor.
Özellikler, verilerdeki ilgili örüntülerdir. Yukarıdaki örnekte, sinir ağlarının öğrendiği ve daha sonra fotoğraftaki bir kişinin gözlük takıp takmadığını belirlemek için kullandığı çok çeşitli özellikler vardır. Bu görev için dikkat etmesi gereken özelliklerden biri yüzün üst kısmıdır. Diğer özellikler göz veya gözlüğün sıklıkla durduğu burun bölgesi olabilir. Ağ, ilgili olduğunu öğrendiği özelliklere seçici olarak dikkat eder ve daha sonra yüzün alt kısmı, saç ve benzeri gibi görüntünün diğer kısımlarını atar.
Özellik öğrenme, verilerdeki ilgili kalıpları tanıma ve ardından bu kalıpları tahminlerde bulunmak için kullanma becerisidir. Gözlük örneğinde, ağ yüzün üst kısmına dikkat etmeyi öğreniyor. Yeni Science makalesinde araştırmacılar, sinir ağlarının özellikleri nasıl öğrendiğini açıklayan istatistiksel bir formül tanımladılar.
“Nasıl gereksiz olanı göz ardı edebilirim? İnsanlar bunda iyidir,” dedi Belkin. “Makineler de aynı şeyi yapıyor. Örneğin, Büyük Dil Modelleri bu ‘seçici dikkat gösterme’yi uyguluyor ve bunu nasıl yaptıklarını bilmiyoruz. Bilim makalemizde, sinir ağlarının ‘seçici olarak dikkat gösterme’ şeklinde en azından bazılarının nasıl yapıldığını açıklayan bir mekanizma sunuyoruz.”
Araştırma fonları arasında Ulusal Bilim Vakfı ve Derin Öğrenmenin Teorik Temelleri üzerine İşbirliği için Simons Vakfı bulunmaktadır. Belkin, NSF tarafından finanse edilen ve UC San Diego liderliğindeki Ölçeklenebilir Öğrenmeye İmkan Tanıyan Enstitü olan TILOS’un bir parçasıdır.
*Bu yazı How do neural networks learn? A mathematical formula explains how they detect relevant patterns başlıklı yazıdan çevrilmiştir.