Techinside Google News
Techinside Google News

Huawei yeni açık kaynak tekniği LLM’lerini herkesin erişimine açıyor

Huawei yeni tekniği ile LLM bellek ihtiyacını azaltarak uygun fiyatlı GPU'larda dev modelleri çalıştırmayı mümkün kılıyor.
- Advertisement -

Huawei’nin Zürih’teki laboratuvarından çıkan çığır açan bir yöntem, devasa dil modellerinin (LLM) bellek ihtiyacını %70’e kadar azaltarak, yapay zeka yarışının kurallarını yeniden yazıyor. Bu sayede, daha önce on binlerce dolarlık kurumsal donanım gerektiren modeller, binlerce dolarlık uygun fiyatlı tüketici ekran kartlarında çalışabilecek!

Huawei milyonlarca dolarlık maliyeti ortadan kaldırıyor

Büyük dil modellerini (LLM) çalıştırmak bugüne kadar yüksek maliyetli ve karmaşık bir süreçti. NVIDIA A100 (yaklaşık 19.000 dolar) veya H100 (30.000 doların üzerinde) gibi üst düzey kurumsal GPU’lar olmadan bu modelleri kullanmak neredeyse imkansızdı.

Ancak Huawei’nin Bilgisayar Sistemleri Laboratuvarı, SINQ (Sinkhorn-Normalized Quantization) adını verdiği yeni bir açık kaynaklı nicemleme (quantization) tekniğiyle bu durumu kökten değiştiriyor. SINQ, model kalitesinden ödün vermeden bellek kullanımını mimariye bağlı olarak %60 ila %70 oranında azaltıyor.Daha önce 60 GB’tan fazla bellek gerektiren modeller artık yaklaşık 20 GB kurulumlarda çalışabiliyor.Bu, LLM’lerin artık tek bir Nvidia GeForce RTX 4090 (yaklaşık 1600 dolar) gibi çok daha uygun fiyatlı donanımlarda çalıştırılabileceği anlamına geliyor.

Bu gelişme, bulut bilişim maliyetlerinde de benzer tasarruflar sağlayacak. A100 tabanlı sunucu örneklerinin saatlik maliyeti 3 ila 4,50 dolar iken, RTX 4090 tabanlı örnekler birçok platformda saatte sadece 1 ila 1,50 dolara mal oluyor. Bu fark, zamanla on binlerce dolarlık bir maliyet avantajı yaratabilir.

Nicemleme (model ağırlıklarının hassasiyetini düşürme) yeni bir kavram değil, ancak genellikle modelin kalitesini düşürme riski taşıyordu. Huawei’nin SINQ tekniği ise bu sorunu iki ana yenilikle çözüyor:

  1. Çift Eksenli Ölçekleme: Niceleme hatasını daha esnek dağıtmak için matriste satır ve sütunlar için ayrı ölçekleme vektörleri kullanılıyor.
  2. Sinkhorn-Knopp Tarzı Normalizasyon: Hızlı bir algoritma, modelin niceleme performansını düşüren “matris dengesizliğini” en aza indirmek için kullanılıyor.

Bu birleşim, SINQ’nun diğer kalibrasyon gerektirmeyen yöntemlerden daha iyi performans göstermesini sağlıyor. Üstelik SINQ, modelleri benzer tekniklerden 2 ila 30 kat daha hızlı niceliyor, bu da araştırma ve üretim ortamları için büyük bir zaman tasarrufu demek.

https://www.techinside.com/alibaba-haritalama-uygulamasi-rekor-kirdi/

Huawei, bu devrim niteliğindeki tekniği kurumsal kullanıma uygun, esnek bir Apache 2.0 lisansı ile Github ve Hugging Face üzerinden açık kaynak olarak paylaştı.

Bu hamle, sadece büyük teknoloji şirketlerinin değil; küçük ekiplerin, yerel iş istasyonlarında çalışan geliştiricilerin ve hatta kişisel bilgisayar sahiplerinin dahi gelişmiş LLM’leri kolayca kullanabilmesinin önünü açıyor. Yapay zekanın demokratikleşmesi yolunda atılmış dev bir adım olarak görülüyor.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

 

 

HABERLER

TÜMÜ

SON VİDEO

TÜMÜ

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz