Çin merkezli yapay zeka girişimi DeepSeek, MIT lisansı altında geliştirdiği yeni büyük dil modeli DeepSeek-V3-0324’ü kullanıcıların beğenisine sundu. Bu model, Hugging Face platformu üzerinden ücretsiz olarak indirilebiliyor ve ticari kullanıma da tamamen açık durumda.
Yeni DeepSeek-V3-0324 görücüye çıktı
641 gigabaytlık boyutu ile dikkat çeken model, tüketici düzeyindeki donanımlarda da çalışabilme kapasitesiyle ön plana çıkıyor. Özellikle Apple’ın M3 Ultra çipine sahip Mac Studio cihazlarında bile sorunsuz bir şekilde çalıştığı belirtiliyor; bu da teknolojiye olan ilgiyi artırıyor. Model, 685 milyar parametreye sahip bir yapıyla donatılmış durumda.
Türkiye’de listeler yapılıp kardeş kardeşle uğraşırken; Amerika’nın yapay zeka üstünlüğüne yenilmek istemeyen Çin, DeepSeek-V3-0324’ü duyurdu!
Yeni sürüm; daha güçlü akıl yürütme, etkileyici ön yüz geliştirme ve gelişmiş araç kullanımı ile MMLU-Pro’da %81.2, AIME’de %59.4 gibi… pic.twitter.com/LrOaoLmgRC
— Hakkı Alkan (@hakki_alkan) 25 Mart 2025
Yapay zeka alanındaki uzmanlardan Xeophon, bu modelin Anthropic’in Claude Sonnet 3.5 modeline karşı güçlü bir rakip olabileceğini ifade ediyor. DeepSeek-V3-0324’ün tamamen ücretsiz sunulması, özellikle Sonnet’in abonelik modeline sahip olmasıyla önemli bir fark yaratıyor.
Modelin mimarisi Mixture of Experts (MoE) üzerine inşa edilmiş durumda. Geleneksel büyük dil modellerinin aksine, DeepSeek-V3-0324 yalnızca en gerekli parametreleri etkin hale getiriyor ve toplam 685 milyar parametreden yaklaşık 37 milyarını kullanıyor.
Bu yaklaşım, hem hesaplama süresini önemli ölçüde azaltmakta hem de performanstan ödün vermemektedir. Yapılan performans testlerinde, daha büyük ve yoğun etkinleştirilen modellerle benzer sonuçlar elde edildiği görülüyor.
DeepSeek-V3-0324, ayrıca Multi-Head Latent Attention (MLA) ve Multi-Token Prediction (MTP) gibi iki önemli yeniliği de bünyesinde barındırıyor. MLA, uzun metinler arasında bağlamın korunmasına yardımcı olurken, MTP her adımda birden fazla token üretme imkanı sunuyor.
Bu yenilikler, modelin çıktı hızını yaklaşık yüzde 80 oranında artırmayı hedefliyor. Apple araştırma grubundan Awni Hannun, modeli Mac Studio’da test ederek saniyede yaklaşık 20 token hızında çıktı elde ettiklerini paylaştı.
Kullanıcılar, modelin iletişim tarzında belirgin bir değişiklik farkettiklerini dile getiriyor. Önceki sürümlerde daha insana benzer ve daha konuşkan bir ton kullanılırken, V3-0324 daha resmi ve teknik bir üslup benimsemiş durumda.
DeepSeek’in bu atağı, büyük dil modelleri rekabetine yeni bir boyut kazandırmış durumda. Siz bu konuya ilişkin ne düşünüyorsunuz? Düşüncelerinizi yorumlar kısmında bizimle paylaşabilirsiniz.