Anthropic Claude Opus 4.8’i piyasaya sürdü

Burak Kesayak

6 saat önce

Anthropic, karmaşık görevleri yerine getirirken hataları gizleme veya desteklenmeyen iddialarda bulunma olasılığının daha düşük olduğunu söylediği amiral gemisi yapay zeka modeli Claude Opus’un yeni bir sürümü olan Claude Opus 4.8’i piyasaya sürdü. Bu yükseltme, Claude Opus 4.7 üzerine inşa edilmiştir ve yapay zeka firmalarının kodlama, araştırma ve kurumsal iş akışları için otonom sistemleri daha güvenilir hale getirme yarışına girdiği bir dönemde gelmektedir. Anthropic, modelin kodlama, akıl yürütme ve ajansal kıyaslamalarda iyileştirmeler gösterdiğini ve belirsizlik konusunda daha şeffaf hale geldiğini söyledi.

Anthropic Claude Opus 4.8 ile daha rekabetçi oluyor

Opus 4.8’deki en büyük değişikliklerden biri, uzun süreli görevler sırasında dürüstlüğe odaklanmasıdır. Yapay zeka modelleri genellikle yanlış bilgileri güvenle sunar veya yeterli kanıt olmadan ilerleme iddiasında bulunur. Anthropic, yeni modelin belirsizliği işaretlemede ve hataları sessizce geçirmek yerine kendi çıktılarındaki kusurları belirlemede daha iyi olduğunu söyledi.

Apple, yılbaşında iPhone aktivasyon rekoru kırdı

Tim Cook, iPhone satışlarının beklenenin altında kalacağını duyurmasıyla ABD ve dünya borsalarında beklenemdik bir çöküş...

Şirket, dahili değerlendirmelerin Opus 4.8’in “yazdığı koddaki kusurların fark edilmeden geçmesine izin verme olasılığının selefine göre yaklaşık dört kat daha düşük” olduğunu gösterdiğini söyledi. Anthropic, erken test kullanıcılarının, yapay zeka sistemlerinin birden fazla adımda bağımsız olarak plan yapıp eylemleri yürüttüğü ajansal görevleri ele alırken modelin daha güvenilir olduğunu tespit ettiğini söyledi.

Şirket ayrıca uyum ve güvenlik davranışındaki iyileştirmeleri de vurguladı. Anthropic’e göre, uyum ekibi Opus 4.8’in “kullanıcı özerkliğini desteklemek ve kullanıcının en iyi çıkarları doğrultusunda hareket etmek gibi prososyal özellikler ölçümlerimizde yeni zirvelere ulaştığı” sonucuna vardı. Değerlendirme ayrıca, Opus 4.7 ile karşılaştırıldığında, aldatma ve kötüye kullanımla işbirliği de dahil olmak üzere uyumsuz davranış oranlarının daha düşük olduğunu ortaya koydu.

Model yükseltmesinin yanı sıra, Anthropic, Claude’un büyük ölçekli kodlama ve akıl yürütme görevlerini nasıl ele aldığını genişletmeyi amaçlayan yeni özellikler de tanıttı. Bunlardan biri, Claude Code için Dinamik İş Akışları adlı bir araştırma önizleme özelliğidir. Sistem, Claude’un büyük görevleri, tek bir oturum içinde çalışan yüzlerce paralel yapay zeka alt ajanı tarafından ele alınan daha küçük işlere bölmesine olanak tanır. Anthropic, bu özelliğin yüz binlerce satır kod içeren kod tabanı ölçeğinde geçişleri gerçekleştirebileceğini ve sonuçları kullanıcılara geri bildirmeden önce çıktıları mevcut test paketleriyle karşılaştırabileceğini belirtti.