Silikon Vadisi’ni koltuğundan düşüren yapay zeka modeli DeepSeek, devlere meydan okuyor

Silikon Vadisi’ndeki devler, DeepSeek’in atılımı karşısında ne yapacak?
Oksijen’den Ayşegül İldeniz “Silikon Vadisi’ni sandalyeden düşüren yapay zeka modeli: DeepSeek” başlıklı yazı kaleme aldı.
İldeniz’in haberinin tamamı şu halde:
Çinli DeepSeek, OpenAI o1’den daha başarılı bir yapay zekâ modelini Trump’ın lider olduğu gün piyasaya açık kaynak olarak sunuverdi. Model, piyasadaki öncü modeller kadar yeterli fakat yalnızca 5.6 milyon dolarlık işlemciyle geliştirilmiş. Böylelikle aylardır konuştuğumuz yapay zekadaki köpüğün bir kısmı borsadan bir günde siliniverdi. Yapay zekâ altyapısı için bu yıl içinde 250 milyar dolar harcayacağını açıklayan Silikon Vadisi ve yapay zekâ çiplerine ihracat kısıtını yalnızca Çin değil Türkiye dahil birçok ülkeye yayan Bay Trump sandalyeden düştü! Marc Andreessen uzay yarışının başlangıcını hatırlatıp “Bu bir Sputnik anı!” dedi. 5 milyon dolar ve bir küme doktora öğrencisine erişimi olanlar bana DM’den yazsın.
Kafamı kuma gömmeyi uzun müddettir bu kadar istememiştim. Los Angeles, yanı başımızdaki en büyük metropolün yanması, akabinde Trump’ın birinci hafta yaptıkları ve sonra memleketteki yangın felaketi. Uygun ki teknoloji koşturmaya devam ediyor, uygun ki daima bir arada kafayı kuma gömecek bir hususumuz var.
Kafayı kuma gömmek demişken… Geçen hafta vadideki yapay zekâ tayfasının başına Çinli bir şirketin yaptığı DeepSeek R1 modeli düştü. Dünya Jeff Bezos’un nişanlısının dekoltesi, Zuckerberg’in Trump’ın elini öpmesi, Elon’un kol hareketini konuşurken teknolojistler olarak kendi sıkıntımıza düşüverdik. Ortada bir sandalyeden düşmek kadar uygun bir şey yoktur. Oysaki Silikon Vadisi’nin iki yıldır yüz milyarlarca doları gömmeyi sürdürdüğü yapay zekâ konusunda çok büyük bir sıçrama oluvermiş. DeepSeek, yalnızca 5.6 milyon dolarlık altyapıyla karşılaştırmalarda OpenAI o1’i geçen çok güçlü fakat yalnızca 37 milyar parametrelik çevik bir model yaratmış ve açık kaynak olarak dünyaya yayıvermiş.
Bunun sonucu geçtiğimiz pazartesi günü, “Yapay zekânın ne kadarı hype?” sorusunun karşılığını borsa bir günde 1 trilyon dolar düşerek yanıtladı.
DEEPSEEK DE KİM?
20 Ocak’ta DeepSeek’in açık kaynaklı modelini piyasaya sürmesinden beri ortalığı saran kaygı dalgasını izliyorum. Hedge fon yöneticisi Liang Wenfeng 10 bin NVIDIA çip ve küçük bir grup kurup işe koyulmuş. Şirketin ana ortağı, Çin’de 8 milyar dolarlık bir fon idare şirketi. 2015’te kurulan fon, elindeki bilgileri finansal amaçları için kıymetlendirmek maksadıyla bir muhteşem bilgisayar kümelenmesi oluşturmuş. 2023’te şirket kaynaklarını yapay zekâya yönlendirmeye karar vermiş. En başarılı iki Çin üniversitesindeki doktora öğrencileriyle kurdukları bir grupları var.
Tabii modeli eleştirenler bol. Sam Altman çabucak “Çok düzgün çalışan bir şeyi kopyalamak çok kolay. Güç olan yeni ve çalışıp çalışmayacağını bilmediğiniz şeyi yapma riskini almak” dedi. Hatta modelin, “Sen kimsin?” diye sorulduğunda, “Ben Open AI şirketinin bir modeliyim” diye cevap verdiğini zira yaptığı distilasyonun raporun söylediği üzere yalnızca V3 ve Llama ile hudutlu olmadığını, OpenAI o1’i de kopyaladığını sav edenler var. Lakin teknoloji işte bu türlü ilerliyor. Şirket yeni bir şey yaratmak yerine mühendislikle piyasadaki teknolojileri optimize edip bir kartal yaratmış. Oburlarının yarattıkları üzerine bazen çok kolay bir tuğla koyuyorsunuz, ortaya bir “canavar” çıkıyor.
ENGELLEMENİN BİN YOLU
Amerikalıların yapay zekâ yarışında Çinlilerden önde kalmak için yaptıklarını hatırlayalım: 14 nanometrenin altındaki tüm sofistike çiplerin Çin’e ihracatını yasaklamak. Çinli şirketlerin Amerika’daki faaliyetlerini ve Çin vatandaşlarının iş yapma vizelerini kısıtlamak. Daha stratejik olarak “Chips Act” ismiyle bir yasa geçirerek çip üretimini Asya’dan Amerika’nın içine çekmek ve AR-GE’yi hızlandırmak için devlet eliyle 250 milyar dolarlık bir fon yaratmak. En son geçen hafta, içlerinde Türkiye’nin olduğu birçok müttefik ülkeye yıllık muhakkak sayı (50 bin) üzerinde GPU’nun girişini engellemek.
KISITLARSAN DEV OLUR
Batılı devletlerin Çin’e getirdiği teknoloji ihracatı kısıtlamalarının sonucu olarak, Çin şirketleri ellerindeki kaynakları azamî optimize etmeye başladılar. Son derece kıymetli ve sofistike çipler gerektiren temel modelleri sıfırdan yaratmak yerine, kısıtlı bir altyapıyla küçük ancak çok verimli modeller oluşturmaya yöneldiler ve en az bir şirket bunda başarılı olmuş görünüyor. Piyasadaki bütün şirketler ellerindeki geniş süreç gücünü devamlı artırmaya bakarken, DeepSeek, bütünüyle yazılımı optimize etmeye odaklanmış.
DeepSeek’in modeli, ihracatı kısıtlayarak inovasyonun engellenemeyeceğini ve bunun yol açabileceği problemler hakkında yıllardır ikaz yapanların haklılığını kanıtlamak için hoş bir örnek oldu. Hatta bence, milyarlarca doları altyapıya gömmeye devam etmek yerine bir küme parlak doktora öğrencisi ve bir ölçü sermaye ile mucize yaratılabileceğine dair herkese ilham vermesi gereken bir örnek olarak karşımızda.
Biden’ın benzetmesiyle “tekno-oligarşi”nin sonsuz parası bir avuç doktora öğrencisi ve yeterli bir fikre yenildi demek için çok erken olabilir. Bu gelişme kısa vadede Silikon Vadisi tarafından negatif algılansa da, büyük teknoloji firmaları Microsoft ve Amazon açısından uzun vadede manalı olabilir. Zira yapay zekâ ucuzladıkça yaygın inference (çıkarım) için bilişim altyapısı muhtaçlığı artmaya devam edecek. Apple için ise hoş bir gün! Yapay zekânın bu kadar küçük fakat güçlü bir modelle cep telefonuna (edge compute) girmesi Apple’a çok fayda.
Her hâlükârda bu haber, inovasyonun pragmatizm ve yoklukla birleşince nereden ve nasıl çıkacağını yalnızca sağlam bir bilimsel altyapının belirleyeceğini hepimize hatırlatması açısından farklı bir örnek.
Meselenin her zamanki üzere yalnızca küçük bir kısmının para, temel kısmının güzel eğitimli ve spesifik bir bahiste dünya çapında insan yetiştirebilme, onları değerlendirip ülkede tutacak gereğince heyecanlı ve rekabetçi projeler verebilme konusu olduğunu unutmayalım. “5 milyon doları ve bir küme doktora öğrencisine erişimi olanlar bana özelden yazsınlar” diye nüktedan bir cümle kurarak hepinizi bu hafta sonu bir beyin teatisi yapmaya yolluyorum. Silikon’dan sevgiler.
BİR YAPAY ZEKAYA KAÇ DOLAR GEREKİR?
Amerika’da özel dal yapay zekâ konusunda ekspres trene binmiş formda son iki yılda yaklaşık 200 milyar doları, birden fazla altyapı ve data merkezlerine olmak üzere harcadı; bu yıl da 250 milyar civarında yatırım yapılacağı düşünülüyor. Geçen yıl 100 milyon dolar civarında kaynak gerektiren bir temel modelin bu yıl bir milyar dolara mal olacağı konuşuluyor. Gördüğünüz üzere, ne kadar süreç gücü ve para dökülürse, o kadar düzgün model inancı bu taraflarda hala çok sağlam halde sürüyor. Halbuki bu mevzuyu önemli formda sorgulayanlar (açıklama için öteki kutuyu okuyun) var.
DeepSeek’in çıkardığı eser aşağıdaki yatırımların hepsinin sorgulanmasına neden olacak.
Larry Ellison (Oracle), Sam Altman
(OpenAI) ve Masayoshi Son (SoftBank) kamuoyuna yapay zekâ için birinci basamakta 100 milyar dolar, sonrasında 500 milyar dolarlık bir altyapı yatırımını açıkladılar.
Satya Nadella (Microsoft CEO’su) Davos’ta “Ben yapay zekaya bu yıl yalnızca 80 milyar dolar harcıyorum” deyip, kendi kartlarını açtı.
Mark Zuckerberg 2025’te yapay zekâ için 65 milyar dolarlık yatırım yapacağını söyledi.
HANGİ NVİDİA ÇİPİ?
R1 modeli DeepSeek’in savına nazaran 5.6 milyon dolar ve 2 bin 78 adet NVIDIA H800 çip üzerinde eğitilmiş. Model matematik, kodlama, mantık yürütme mevzularında bildiğimiz temel modeller düzeyinde ya da daha yeterli çalışıyor (OpenAI o1, Sonnet 3.5 gibi). Perspektif vermek için bilgi: OpenAI’ın GPT-4 modelini eğitmek için yaklaşık 100 milyon dolar harcadığı, sıradaki modeli GPT-5’i eğitmek için ise 1 milyar dolar ayırdığı kestirim ediliyor. Bu manada H800 üzere kısıtlı işlemcilerle bu kadar yüksek randıman elde edebilmek büyük bir sıçrama. Amerikan ihracat kurallarına nazaran H100’lerin (H800’e nazaran çok daha güçlü GPU’lar) Çin’e girmesi yasak. Bu bilgilerin yanlışsız olmadığını argüman eden Scale AI CEO’su, DeepSeek’in elinde aslında 50 bin adet NVIDIA H100 olduğunu sav etti.
Açık kaynak bu türlü çevik ve küçük modelleri var etmek için tam bir hayat kaynağı. Zira modeller lakin ekosistemdeki geliştiriciler ve bilim insanları tarafından büyütüldükçe yaygın ve daha verimli hale gelebiliyor. Tüm modeli OpenAI ya da Google’ın yaptığı üzere kapalı sistemle büyütmeye çalışmak elbette en kıymetli yol.
GİZLİ SOS NE?
Özetle ortada yeni birçok zekice mühendislik stratejisi var: İki kademeli bir yapay zekâ eğitimi yapılıyor. Evvel bir model direkt deneme yanılma metoduyla (reinforcement learning/takviyeli öğrenme) kendi kendine eğitiliyor. Birinci modelin doğruladığı kaliteli datalar, ikinci modeli eğitmek için kullanılıyor. Data kümesi insansız bir biçimde bütünüyle deneme yanılma formülüyle eğitildiği için bilhassa matematik ve kodlama üzere “doğruluğu” ölçülebilen bahislerde çok başarılı bir model ortaya çıkmış. İnsan katkısını (SFT/ince ayar) en son ve az örnekle yapıyorlar. İlaç geliştirme ya da hava durumu varsayımı üzere çok büyük datayı değerlendirmede gereken teknikleri andırıyor. 671 milyarlık parametre setini zekice kesimlere bölerek büyük modelden öğrenebilen son derece başarılı 37 milyar parametrelik ufak bir model çıkarmışlar. Ayrıyeten model simgeleri tek tek değil çoklu biçimde öngörebiliyor (multi token prediction). Burada parametrelerin nihailiğini tıpkı düzeyde (FP32, floating point 32bit) tutarken, hesaplama sırasında katılığı (FP8’e) indirmişler.
BUNDAN SONRA NE OLUR?
– Yeni metodu herkes kullanmaya başlayacak. Sentetik bilginin çağı başlıyor diyebiliriz. İnsanlardan gelen bilgi bitmeye başlamıştı. Artık datayı, sonuçlarını kesin bildiğimiz mevzularda (matematik gibi) çok daha uzun eğiteceğiz.
– Eğitim sırasında değil çıkarım (inference) sırasında daha çok bilişim gücü gerekecek. Süreç gücü ile kısıtlı olmaya devam edeceğiz.
– Modellere erişim ucuzlayacak.
– Yapay zekâda açık kaynak kullanımına büyük bir dönüş olacak.
– Sonsuz para ve iki devlet değil, 5 milyon dolar ve 200 şahsı olan birçok çevik ve zeki şirket bu bölümü sallayabilir.
TEMELDEKİ TARTIŞMA NEDİR?
Bu mevzunun kalbinde aslında öbür bir tartışma var. Üretici yapay zekâ gelişimi bugün çok kolay bir denklem üzerinde gidiyor. Ne kadar süreç gücü ve ne kadar data, o kadar başarılı temel modeller. Bu denklemde şu ana kadar modellerin gelişimi, Moore Yasası’ndan daha süratli, yani her 6-8 ay içinde randımanları katlanır halde sürüyor. Bu mantıkla dünyanın tüm süreç gücünü ve verisini makineye beslemeye devam edersek çok kısa vakitte genel yapay zekâ dediğimiz şeye, yani insan zekâsı ya da üzerinde bir sisteme ulaşıvereceğiz! Hatta bu hafta Davos’ta, yeniden, 2026-2027 yılları içinde bu amaca ulaşılacağını tez eden teknolojistler oldu. Bu mevzuda yakında büyük bir duvara çarpacağımızı, hatta çarptığımızı düşünenler var. Vadideki tanınan dedikodu, daha fazla süreç gücü akıtıldığı halde modellerden alınan randımanın son aylarda çok yavaşladığı, ama hiç kimsenin bunu açıkça söylemeye yürek edemediği tarafında.
İkinci temel tartışma ise, şu an çok moda olan ve OpenAI o1, o3 ve DeepSeek R1’in de kullandığı test-time compute fenomeni etrafında dönüyor. Artık daha fazla süreç gücü ve daha fazla data yerine, modellerin “durup düşünmesi” yani eğitildikten sonra modele bir prompt sorduğumuz vakit yaptıkları inference (çıkarım) sırasında durup düşünmeleri üzerine. Bu sayede o1 modelinde gördüğümüz üzere, sistem daha karmaşık ve “mantık” gerektiren sorunları, farklı metotları kıymetlendirerek, akıl yürütmeyi andıran halde çözüyor. Böylece çok başarılı sonuçlar elde edebiliyor. OpenAI o3, en son, Francois Chollet’nin yıllardır geçilemeyen ve yapay zekânın insan düzeyindeki zekaya ne kadar yaklaştığını ölçen ünlü ARC imtihanını yüzde 87 üzere bir skorla geçti. Özetle, test-time compute’un bizi genel yapay zekaya bir adım daha yaklaştırdığını düşünenler var. DeepSeek bu sistemi çok zekice küçük bir sistem yaratmak için kullanmış görünüyor.
patronlardunyasi.com