Yapay Zeka

DeepSeek-V3-0324 Resmen Tanıtıldı! İşte Tüm Yenilikler

Çin merkezli yapay zeka girişimi DeepSeek, MIT lisansı ile tanıttığı yeni büyük dil modeli DeepSeek-V3-0324’ü kullanıcıların hizmetine sundu. Model, Hugging Face platformundan ücretsiz bir şekilde indirilebilir ve ticari kullanım için de tamamen açıktır.

Yeni DeepSeek-V3-0324 Kullanıma Sunuldu

641 gigabaytlık boyutu ile dikkat çeken model, özellikle tüketici düzeyindeki donanımlarda çalışabilmesi ile öne çıkıyor. Apple’ın M3 Ultra çipine sahip Mac Studio cihazlarında bile sorunsuz bir performans sergilediği belirtiliyor ve toplamda 685 milyar parametreye sahip.

Yapay zeka araştırmacısı Xeophon, bu modelin Anthropic’in Claude Sonnet 3.5 modeline ciddi bir rakip olabileceğini ifade ediyor. Özellikle Sonnet’in abonelikle sunulmasına karşılık, DeepSeek-V3-0324’ün tamamen ücretsiz erişime açık olması önemli bir avantaj sağlayacak.

Model, Mixture of Experts (MoE) mimarisine dayanmaktadır. Geleneksel büyük dil modellerinin aksine, DeepSeek-V3-0324 yalnızca en gerekli parametreleri etkinleştiriyor. 685 milyar parametreden sadece yaklaşık 37 milyarı aktif duruma getiriliyor.

Bu yaklaşım, hesaplama süresini önemli ölçüde kısaltırken, performansta da herhangi bir kayıp yaşanmıyor. Performans testlerinde, daha büyük ve daha yoğun etkinleştirme yapan modellerle kıyaslandığında benzer sonuçlar elde edildi.

DeepSeek-V3-0324, Multi-Head Latent Attention (MLA) ve Multi-Token Prediction (MTP) gibi iki önemli yenilikle donatılmıştır. MLA, uzun metinler arasında bağlamı koruma yeteneğini geliştirmekte, MTP ise her adımda birden fazla token üretme imkânı sunmaktadır.

Bu teknolojik gelişmeler, modelin çıktı hızını yaklaşık %80 oranında artırmaktadır. Apple araştırma grubundan Awni Hannun, modeli Mac Studio’da test ederek saniyede yaklaşık 20 token hızında çıktı ürettiklerini açıkladı.

Kullanıcılar, modelin iletişim tarzında önceki sürümlere göre belirgin bir değişiklik gözlemlediklerini ifade ediyorlar. Önceden insan benzeri ve konuşkan bir ton sergileyen DeepSeek modellerinin aksine, V3-0324 daha resmi ve teknik bir üsluba sahip.

DeepSeek’in bu adımı, büyük dil modelleri arasındaki rekabeti yeni bir seviyeye taşıdı. Siz bu konuyla ilgili ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorum kısmında bizimle paylaşabilirsiniz.