Google Araştırma, üstün LLM ve düşük ek yük ile vektör arama sıkıştırması için TurboQuant'ı tanıttı.
TurboQuant: Aşırı sıkıştırmayla yapay zeka verimliliğini yeniden tanımlıyoruz 24 Mart 2026
Amir Zandieh, Araştırma Bilimcisi ve Vahab Mirrokni, Başkan Yardımcısı ve Google Üyesi, Google Research
Büyük dil modelleri ve vektör arama motorları için yoğun sıkıştırmayı mümkün kılan, teorik olarak temellendirilmiş bir dizi gelişmiş niceleme algoritması sunuyoruz.
Vektörler, yapay zeka modellerinin bilgiyi anlayıp işlemesinin temel yoludur. Küçük vektörler, grafikteki bir nokta gibi basit nitelikleri tanımlarken, "yüksek boyutlu" vektörler bir görüntünün özellikleri, bir kelimenin anlamı veya bir veri kümesinin özellikleri gibi karmaşık bilgileri yakalar. Yüksek boyutlu vektörler inanılmaz derecede güçlüdür, ancak aynı zamanda büyük miktarda bellek tüketerek anahtar-değer önbelleğinde darboğazlara yol açar; bu, sık kullanılan bilgileri basit etiketler altında saklayan yüksek hızlı bir "dijital kopya sayfası"dır, böylece bir bilgisayar yavaş, büyük bir veritabanında arama yapmak zorunda kalmadan bu bilgilere anında erişebilir.
Vektör nicemleme, yüksek boyutlu vektörlerin boyutunu azaltan güçlü, klasik bir veri sıkıştırma tekniğidir. Bu optimizasyon, yapay zekanın iki kritik yönünü ele alıyor: Daha hızlı benzerlik aramalarına olanak tanıyarak, büyük ölçekli yapay zeka ve arama motorlarına güç veren yüksek hızlı teknoloji olan vektör aramayı geliştiriyor; Anahtar/değer çiftlerinin boyutunu azaltarak anahtar/değer önbellek tıkanıklıklarının giderilmesine yardımcı olur, bu da benzerlik aramalarının daha hızlı yapılmasını sağlar ve bellek maliyetlerini düşürür. Bununla birlikte, çoğu yöntem, her küçük veri bloğu için kuantizasyon sabitlerinin (tam hassasiyetle) hesaplanmasını ve saklanmasını gerektirdiğinden, geleneksel vektör nicemleme genellikle kendi "bellek yükünü" getirir. Bu ek yük, sayı başına 1 veya 2 ekstra bit ekleyerek vektör nicemleme amacını kısmen ortadan kaldırabilir.
Bugün, vektör nicemlemede bellek yükü sorununu en iyi şekilde ele alan bir sıkıştırma algoritması olan TurboQuant'ı (ICLR 2026'da sunulacak) tanıtıyoruz. Ayrıca TurboQuant'ın sonuçlarına ulaşmak için kullandığı Quantized Johnson-Lindenstrauss (QJL) ve PolarQuant'ı (AISTATS 2026'da sunulacak) da sunuyoruz. Testlerde, her üç teknik de yapay zeka modeli performansından ödün vermeden anahtar-değer darboğazlarını azaltma konusunda büyük umut vaat etti. Bunun, özellikle arama ve yapay zeka alanları dahil olmak üzere, sıkıştırmaya bağlı tüm kullanım durumları için potansiyel olarak derin etkileri vardır.
TurboQuant, sıfır doğruluk kaybıyla model boyutunda yüksek oranda azalma sağlayan bir sıkıştırma yöntemidir; bu da onu hem anahtar-değer (KV) önbellek sıkıştırmasını hem de vektör aramasını desteklemek için ideal kılar. Bunu iki temel adımla gerçekleştirir:
TurboQuant'ın bu verimliliği nasıl elde ettiğini tam olarak anlamak için QJL ve PolarQuant algoritmalarının nasıl çalıştığına daha yakından bakıyoruz.