NVIDIA’nın 6.3 Trilyon Tokenli Veritabanı: Nemotron-CC

15 Ocak 2025| 15 Ocak 2025116 Görüntüleme

NVIDIA, yapay zeka alanında önemli bir gelişmeyle karşımıza çıkarak, Nemotron-CC adı verilen yeni bir devasa İngilizce AI eğitim veritabanını tanıttı. Bu veritabanı, toplamda 6.3 trilyon token barındırıyor ve bu miktarın 1.9 trilyonu sentetik verilerden oluşuyor. Şirket, bu yeni kaynakların büyük dil modellerinin (LLM) eğitimi için bugüne kadar tasarlanan en kapsamlı materyallerden biri olduğunu vurguladı. Özellikle akademik ve ticari alanlarda bu yeniliğin önemli bir etkisi olacağı belirtiliyor. İşte detaylar…

NVIDIA 6.3 trilyon tokenli yapay zeka eğitim veritabanı Nemotron-CC modelini tanıttı

Nemotron-CC veritabanının oluşturulmasında, Common Crawl platformundan elde edilen büyük miktarda veri kullanıldı. Bu veriler, titiz bir işleme ve filtreleme sürecinden geçirilerek yüksek kaliteli bir alt küme olan Nemotron-CC-HQ oluşturulmuştur. NVIDIA, bu veritabanının “büyük dil modelleri için mükemmel bir eğitim materyali” olduğunu ifade ediyor.

Bu yeniliğin, mevcut eğitim veritabanlarının ölçek ve kalite açısından karşılaştıkları zorluklara çözüm sağlaması bekleniyor. Özellikle Deep Common Crawl Language Model (DCLM) gibi öncü açık kaynak veritabanlarına oranla daha yüksek bir performans sunacağı öngörülüyor. NVIDIA, Nemotron-CC ile eğitilen modellerin, çeşitli testlerde dikkate değer iyileştirmeler sağladığını açıkladı. Örneğin:

MMLU (Massive Multitask Language Understanding) testlerinde mevcut sistemlere kıyasla 5.6 puanlık bir artış sağlandı.
80 milyar parametreli modeller, MMLU testlerinde 5 puan, ARC-Challenge testlerinde ise 3.1 puanlık bir gelişim gösterdi.
Nemotron-CC, diğer yüksek kaliteli veritabanlarıyla karşılaştırıldığında 10 farklı görevde ortalama 0.5 puanlık bir performans artışı elde etti.

Ortaya çıkan bulgular, Nemotron-CC’nin büyük dil modellerinin eğitimi ve yetenekleri üzerindeki potansiyel etkisini net bir şekilde göstermektedir. Ayrıca, NVIDIA, Nemotron-CC’nin geliştirilmesinde model sınıflandırıcıları ve sentetik veri yeniden ifade etme (rephrasing) gibi teknikler kullandığını duyurdu. Bu teknikler, veritabanındaki veri çeşitliliğini ve kalitesini artırmada önemli rol oynamıştır. Ayrıca, geleneksel veri filtreleme yöntemlerindeki katı kuralların hafifletilmesiyle yüksek kaliteli token sayısı da artırılmıştır.

NVIDIA, Nemotron-CC’yi Common Crawl platformu aracılığıyla erişime sundu ve bu veritabanının dökümantasyonunu yakında şirketin GitHub sayfasında yayınlayacağını bildirdi. Bu sayede, hem akademisyenler hem de ticari kullanıcılar veritabanını kolayca kullanabilecek. Yeni veritabanına buradan ulaşabilirsiniz.

Peki, sizce bu yeniliğin yapay zeka teknolojilerinin geleceği üzerindeki olası etkileri neler olacaktır? Görüşlerinizi aşağıdaki yorumlar kısmında paylaşabilirsiniz…

NVIDIA 6.3 trilyon tokenli yapay zeka eğitim veritabanı Nemotron-CC modelini tanıttı

Bunları da sevebilirsiniz