kızımla yapay zeka sohbetleri #6
annene mi benziyorsun kızım, babana mı?
rekabetin öne çıktığı haftalardan herkese selamlar. son zamanlarda idil hanım’ın annesine mi yoksa babasına mı benzediği üzerine yapılan yoğun münazaraların ardından, sonuçlar benden yana konsolide olmaya başladı. diğer taraftan ise idil hanım hangimize daha çok tepki veriyor, hangimize daha çok gülümsüyor tartışmaları da olağanca hızıyla devam ediyor.
bu tartışma sanki kuyruklu yıldızları gözlemlemek gibiydi.. çünkü idil hanım evet gülümsüyordu ama gelişigüzeldi. bazen oluyordu, bazen olmuyordu. koşulları aynı tutsak bile, bazen birlikte “uuu” diyorduk ama bir sonrakinde sessiz kalmayı tercih ediyordu. bunlar belki de bir takım refleksler ya da kasılmalardı. hatta belki de biz öyle görmek istediğimiz için öyle görüyorduk.
yedinci haftaya geldiğimizde artık şüphe kalmadı. idil hanım gülümsüyor — tekrar tekrar. yüzüme bakıyor, bir şey oluyor içinde, ve gülümsüyor. kasları farklı çalışıyor, gözleri de bu tatlışlılık tablosunun bir parçası oluveriyor. bu bir refleks değil — bu bir tanıma. ve sanırım annesine daha çok gülümsüyor (gururlu kaybediş).
ama beni en çok düşündüren şey gülümsemenin kendisi değil. ne oldu da, idil hanım o beşinci & altıncı haftalardaki tek seferlik, gelip geçen, belki-vardı-belki-yoktu anından yedinci haftadaki bu tekrar eden, kararlı, kalıcılaşan hale geçti.
arada ne oldu? idil hanım versiyon güncellemesi mi aldı?
2016 yılının mart ayında, seul’de, dünya go şampiyonu lee sedol bir makineye karşı oturdu. alphago’ydu bu makine — deepmind’ın geliştirdiği, milyonlarca go oyunu üzerinde eğitilmiş bir yapay zeka. ikinci maçın 37. hamlesi geldiğinde yorumcular ekranda dondu. go uzmanları birbirlerine baktı. lee sedol 15 dakika masadan kalktı.
o hamle hiçbir insan oyuncunun yapacağı bir hamle değildi. yüzyıllık go sezgisinin dışında, neredeyse “yanlış” görünen bir taş. ama birkaç hamle sonra hamlenin neden doğru olduğu anlaşıldı. sonradan “move 37” olarak tarihe geçti — güzel ve açıklanamaz bulunan bir hamle.
alphago o hamleyi planlamadı. milyonlarca oyunun içinden damıtılan, ama hiç açıkça öğretilmeyen bir sezginin yüzeye çıkışıydı bu. birikim görünmezdi; ortaya çıkış ani ve sürpriz oldu.
yapay zeka araştırmacıları bu örüntüye bir isim verdi: emergent capabilities — ortaya çıkan yetenekler. jason wei ve ekibinin 2022 tarihli çalışması bunu sistematik olarak belgeledi. büyük dil modellerini eğitirken bazı yetenekler doğrusal gelişmiyor — bir eşiğin altında tamamen yok, eşiğin üstünde birdenbire beliriyor. matematiksel akıl yürütme, çok adımlı analoji, kod yazma — bunların hiçbiri yavaş yavaş iyileşmedi; bir gün yoktu, ertesi gün vardı.
bu durum araştırmacıları rahatsız etti çünkü makine öğrenmesinin temel sezgisine aykırı. eğitim ver, hatayı ölç, ağırlıkları ayarla, tekrarla. lineer bir süreç. peki lineer bir süreçten nasıl doğrusal olmayan bir sıçrama çıkıyor?
bunu anlamak için önce neyin emergent olmadığını görmek gerekiyor. matrix’te neo’yu hatırlayın: “i know kung fu.”
bir saniye önce yoktu, bir saniye sonra vardı — doğrudan yüklendi, hazır teslim edildi. birikim yok, süreç yok. bu düpedüz sihir, emergent değil. gerçek sistemler böyle çalışmıyor.
gerçek olan şu: bir müzisyen yıllarca akor öğrenir, teori çalışır, egzersiz yapar. sonra bir gün doğaçlama yapabildiğini fark eder. kimseden öğrenemez bunu; hiçbir ders kitabında “doğaçlama” başlığı altında öğretilen bir şey değil bu. bileşenlerin toplamından fazlası ortaya çıktı — birdenbire, ama boşluktan değil. alphago’nun 37. hamlesi de tam olarak buydu.
grafiğe bakınca aklına ilk gelen şey bir step fonksiyonu — belirli bir eşiğe kadar sıfır, eşikten sonra birdenbire bir değer. düz bir çizgi, sonra dikey bir duvar. jason wei ve ekibini çalışmasındaki performans grafikleri neredeyse bunu gösteriyor.
diğer taraftan da rylan schaeffer ve ekibinin yaptığı çalışmalar bu konuda enteresan durumlar olduğunu ispat ediyor. 2023’te yayınladıkları çalışmalarında, bu yeteneklerin bir kısmı farklı metriklerle ölçüldüğünde hiç de ani görünmüyor. aslında yavaş yavaş birikiyorlar ancak biz fark edemiyoruz. haliyle bunu birazcık görselleştirecek olursak, elimizde keskin bir step fonksiyonu yerine çok daha smooth bir sigmoid var.. o birden birelik, yerini birikime bırakıyor. belki de idil’in geçmiş haftalardaki ilk gülümsemesi de tam olarak buydu: sigmoid’in ortalarında, bizim algı eşiğimizin henüz altında.
peter huttenlocher isimli chicago üniversitesi’ndeki nörolog hocamız, bebek beyninin ilk aylarını yıllar boyunca inceleyerek, bugün hepimizin aklına ilk gelen şeyi doğrulamaya çalışmış — beyin nöron ekliyor, sinaps üretiyor, bağlantı kuruyor.
dadada dammmm!!! sonuç tam tersi: aşırı üretim var evet ama ardından da budama var. bebekler dünyaya geldiğinde sinaps sayıları yetişkinlerin sinaps sayılarından çok daha fazla oluyormuş. ilk aylarda beyinlerimiz, kullanılmayan bu bağlantıları sistematik olarak kesiyormuş.
birikim gizli. dışarıdan hiçbir şey görünmüyor. idil hanımın bu hafta yüzümüze fırlattığı o gülümsemeleri, bu haftanın değil — altı haftanın ürünü. her ses, her yüz, her dokunuş bir yerlerde işlendi; bir şeyler kesildi, bir şeyler kaldı. ortaya çıkış günün birinde oldu, hazırlık çok daha önce başlamıştı.
peki bugüne kadarki tek seferlik, belirsiz, kaybolup giden o anlar ne oldu? belki bir sinyal sızdı — sistem henüz hazır değilken. bu hafta ise aynı yetenek stabilize oldu: tekrar ediyor, kalıcılaşıyor, güvenilir hale geliyor.
yapay zeka tarihinde benzer bir dönüm noktası var. erken sinir ağları lineer aktivasyon fonksiyonlarıyla çalışıyordu — ne kadar katman eklersen ekle, sonuç yine lineerdi. derinlik anlamsızlaşıyordu. sonra nonlineer aktivasyonlar geldi, relu ile birlikte derin ağlar gerçekten derinleşebildi ve 2012’de alexnet imagenet’i alt üst etti. tek bir nöron ateşleme eşiği olan küçük bir step — ya geçer ya geçmez. ama milyarlarca nöron, derinlik boyunca bileşimlenince ortaya çıkan davranış artık hiçbir tek nöronun özelliği değil. huttenlocher’ın budaması da bunu yapıyor aslında: ağı seyrelterek değil, gereksiz lineerliği keserek sistemi daha verimli bir nonlineerliğe taşıyor. hatta bazı yapay sinir ağları mimarilerinde bu budama için özel nöronlar var — lstm’lerdeki unutma kapısı (forget gate) gibi.
henk van de rijt ve frans plooij, bebek gelişimini bir döngü olarak tanımlamışlardı ve bunu önceki yazılarımın birinde ele almıştık: sakin dönemler ve “leap” denen sıçrama anları. wonder weeks adını verdikleri bu çerçevede yedinci hafta küçük ama belirgin bir dönüm noktası. bebeğin duyusal sistemi niteliksel olarak farklı bir düzeye geçiyor — artık daha fazlasını görmüyor, farklı görüyor.
bu ayrım küçük gibi görünüyor ama değil. daha fazlasını görmek bant genişliği meselesi. farklı görmek temsil meselesi. idil artık yüzleri daha net algılamıyor; yüzleri yüz olarak sınıflandırmaya başlıyor. bu ise beraberinde başka özelliklerin altyapısını oluşturuyor — tanıdık ile yabancıyı ayırıyor, ifadeyi okuyor, tepki üretiyor.
emergent capabilities tartışmasının en zor yanı şu: sıçrama dediğimiz şeyler gerçek mi, yoksa bizim ölçüm araçlarımızın gözünde mi? alphago’nun 37. hamlesi de bu soruyu taşıyor aslında. o hamle modelin içinde hep mi vardı — bir ağırlık kombinasyonu olarak, bir olasılık olarak — ve sadece o pozisyon onu yüzeye mi çıkardı? yoksa gerçekten, o anda, yeni bir şey mi doğdu?
idil bugüne kadar birkaç kez gülümsemişken, artık yedinci haftada gülümsemesi kalıcı hale geldi ve umarım yüzünden de hiç eksilmeyecek. bize de bu hikayeden, şu an acaba hangi sigmoidlerin başlarında ya da ortalarındayız sorusu kaldı.
birlikte cevap bulmaya devam öyleyse, görüşmek üzere!






