Yapay zeka veri merkezleri alan sıkıntısı çektiğinde, maliyetli bir ikilemle karşı karşıya kalırlar: daha büyük tesisler inşa etmek mi yoksa birden fazla konumun sorunsuz bir şekilde birlikte çalışmasını sağlayacak yollar bulmak mı? NVIDIA’nın en yeni Spectrum-XGS Ethernet teknolojisi, şirketin “giga ölçekli yapay zeka süper fabrikaları” olarak adlandırdığı, çok uzak mesafelerdeki yapay zeka veri merkezlerini birbirine bağlayarak bu zorluğun üstesinden gelmeyi vaat ediyor.
Veri merkezlerinde yer problemi devam ediyor
Hot Chips 2025 öncesinde duyurulan bu ağ yeniliği, şirketin yapay zeka endüstrisini hesaplama gücünün nasıl dağıtıldığı konusunda yeniden düşünmeye zorlayan büyüyen bir soruna cevabını temsil ediyor.
Yapay zeka modelleri daha karmaşık ve zorlu hale geldikçe, genellikle tek bir tesisin sağlayabileceğinden çok daha fazla muazzam bir hesaplama gücü gerektirirler. Geleneksel yapay zekâ veri merkezleri, güç kapasitesi, fiziksel alan ve soğutma kapasitesi açısından kısıtlamalarla karşı karşıya.
Şirketler daha fazla işlem gücüne ihtiyaç duyduklarında, genellikle tamamen yeni tesisler inşa etmek zorunda kalırlar; ancak ağ kısıtlamaları nedeniyle farklı konumlar arasındaki işlerin koordinasyonu sorunlu olmuştur. Sorun, yüksek gecikme süresi, öngörülemeyen performans dalgalanmaları (“titreme” olarak adlandırılır) ve uzak konumlara bağlanırken tutarsız veri aktarım hızlarından muzdarip olan standart Ethernet altyapısında yatmaktadır. Bu sorunlar, yapay zeka sistemlerinin karmaşık hesaplamaları birden fazla siteye verimli bir şekilde dağıtmasını zorlaştırıyor.
Spectrum-XGS Ethernet, NVIDIA’nın “ölçekleme çapında” yeteneği olarak adlandırdığı, mevcut “ölçeklendirme” (bireysel işlemcileri daha güçlü hale getirme) ve “ölçeklendirme” (aynı konuma daha fazla işlemci ekleme) stratejilerini tamamlayan, yapay zeka hesaplamasına yönelik üçüncü bir yaklaşım sunuyor.
Teknoloji, NVIDIA’nın mevcut Spectrum-X Ethernet platformuna entegre oluyor ve birkaç önemli yeniliği içeriyor:
Tesisler arasındaki fiziksel mesafeye göre ağ davranışını otomatik olarak ayarlayan mesafeye uyarlanabilir algoritmalar
Uzun mesafeli iletim sırasında veri darboğazlarını önleyen gelişmiş tıkanıklık kontrolü
Öngörülebilir yanıt sürelerini garantilemek için hassas gecikme yönetimi
Gerçek zamanlı ağ izleme ve optimizasyonu için uçtan uca telemetri
NVIDIA’nın duyurusuna göre bu geliştirmeler, birden fazla grafik işlem birimi (GPU) ile hesaplama düğümleri arasındaki iletişimi yöneten NVIDIA Toplu İletişim Kütüphanesi’nin “performansını neredeyse iki katına çıkarabilecek”.