Anthropic zekayı, gecikmeyi ve costclaude.com'u dengelemek için 3 Claude uygulama modelini deniyor
Zekayı, gecikmeyi ve maliyeti dengeleyen uygulamalar oluşturma.
Anthropic'in kurucu ortaklarından biri olan Chris Olah, Claude gibi üretken AI sistemlerinin oluşturulduklarından daha fazla büyüdüğünü söylüyor. Araştırmacılar doğrudan büyümenin koşullarını belirliyor ancak ortaya çıkan kesin yapı veya yetenekler her zaman tahmin edilemiyor.
Bu, Claude ile oluşturma konusunda bir zorluk yaratır: ajan koşumları, Claude'ın kendi başına yapamayacağı şeyler hakkındaki varsayımları kodlar, ancak Claude daha yetenekli hale geldikçe bu varsayımlar bayatlaşır. Bunun gibi makalelerdeılan dersler bile sık sık tekrar gözden geçirilmeyi hak ediyor.
Bu makalede, gecikme ve maliyeti dengelerken ekiplerin Claude'un gelişen zekasına ayak uyduran uygulamalar geliştirirken kullanması gereken üç modeliıyoruz: Zaten bildiklerini kullanın, ne yapmayı bırakabileceğinizi sorun ve aracı donanımıyla sınırları dikkatlice belirleyin.
Uygulamaları Claude'ın iyi anladığı araçları kullanarak oluşturmanızı öneririz.
2024'ün sonlarında, Claude 3.5 Sonnet, dosyaları görüntülemek, oluşturmak ve düzenlemek için yalnızca bir bash aracı ve bir metin düzenleyici aracıyla SWE-bench Verified'da %49'a ulaştı; o zamanlar son teknoloji ürünüydü. Claude Code aynı araçlara dayanmaktadır. Bash inşaat acenteleri için tasarlanmamıştır ancak Claude'ın nasıl kullanılacağını bildiği ve zamanla kullanma konusunda daha iyi hale geldiği bir araçtır.
Claude'un bu genel araçları farklı sorunları çözen kalıplar halinde oluşturduğunu gördük. Örneğin, Ajan Becerileri, programatik araç çağırma ve bellek aracının tümü bash ve metin düzenleme araçlarından oluşturulmuştur.
Ajan koşumları, Claude'ın kendi başına yapamayacağı şeyler hakkındaki varsayımları kodlar. Claude daha yetenekli hale geldikçe bu varsayımların test edilmesi gerekir.
Bırakın Claude kendi eylemlerini yönetsin
Yaygın bir varsayım, her araç sonucunun bir sonraki eylemi bilgilendirmek için Claude bağlam penceresinden geri akması gerektiğidir. Araç sonuçlarının jetonlarla işlenmesi, yalnızca bir sonraki araca aktarılması gerekiyorsa veya Claude çıktının yalnızca küçük bir bölümünü önemsiyorsa yavaş, maliyetli ve gereksiz olabilir.
Tek bir sütun hakkında mantık yürütmek için büyük bir tablo okumayı düşünün: tablonun tamamı bağlam içinde yer alır ve Claude ihtiyaç duymadığı her satır için belirteç maliyetini öder. Sabit kodlu filtreler kullanarak takım tasarımında bu sorunun üstesinden gelmek mümkündür. Ancak bu, ajan takımının Claude'ın daha iyi konumda olduğu bir orkestrasyon kararı verdiği gerçeğini ele almıyor.
Claude'a bir kod yürütme aracı (örneğin, bash aracı veya dile özgü REPL) vermek bu sorunu giderir: Claude'ın araç çağrılarını ve aralarındaki mantığı ifade etmek için kod yazmasına olanak tanır. Her araç çağrısı sonucunun belirteç olarak işlenmesine karar vermek yerine, Claude bağlam penceresine dokunmadan bir sonraki çağrıya hangi sonuçların aktarılacağına, filtreleneceğine veya aktarılacağına karar verir. Yalnızca kod yürütmenin çıktısı Claude bağlam penceresine ulaşır.
Düzenleme kararı donanımdan modele doğru ilerler. Kod, Claude'un eylemleri düzenlemesinin genel bir yolu olduğundan, güçlü bir kodlama modeli aynı zamanda güçlü bir genel aracıdır. Claude, bu modeli kullanarak kodlama dışı değerlendirmelerde güçlü bir performans gösteriyor: Aracıların web'de gezinme yeteneğini test eden bir kıyaslama olanBrowseComp'ta, Opus 4.6'ya kendi araç çıktılarını filtreleme yeteneği vererek doğruluk %45,3'ten %61,6'ya getirdi.
Claude'ın kendi bağlamını yönetmesine izin verin
Göreve özgü bağlam, Claude'ın bash ve metin düzenleme aracı gibi genel araçları kullanmasını yönlendirir. Yaygın bir varsayım, sistem istemlerinin göreve özel talimatlarla elle hazırlanması gerektiğidir. Sorun, talimatlar içeren istemlerin önceden yüklenmesinin birçok göreve ölçeklenememesidir: eklenen her jeton, Claude'ın dikkat bütçesini tüketir ve nadiren kullanılan talimatlarla bağlamı önceden yüklemek israftır.