Google, geliştirmek için Gemma 4 QAT modellerini piyasaya sürdü
Gemma 4 ailesinin yeni sürümleri, bellek gereksinimlerini önemli ölçüde azaltmak ve cihaz performansını en üst düzeye çıkarmak için Niceleme Farkındalık Eğitimi (QAT) ile optimize edilmiştir.
Tarayıcınız ses öğesini desteklemiyor.
İki ay önce Gemma 4'ü piyasaya sürdüğümüzden beri sürekli olarak yeteneklerini genişletmek için çalışıyoruz. İlk olarak, çıkarımı hızlandırmak için Çoklu Belirteç Tahminini (MTP) tanıttık ve yalnızca birkaç gün önce, E4B ve 26B MOE modellerimiz arasındaki boşluğu doldurmak için bir 12B modelini piyasaya sürdük.
Bugün, Gemma 4'ü daha da verimli hale getirmek için Niceleme Farkındalık Eğitimi (QAT) ile optimize edilmiş yeni kontrol noktaları yayınlıyoruz, böylece modelleri günlük uç cihazlarda ve tüketici GPU'larında yerel olarak çalıştırabilirsiniz.
QAT, eğitim sırasında nicelemeyi simüle ederek, model sıkıştırıldığında kalite kaybını en aza indirir. Bu sürüm, popüler Q4_0 niceleme formatı için QAT kontrol noktalarının yanı sıra mobil kullanım durumları için özelleştirilmiş yeni bir niceleme formatı içerir. Bu mobil formatı kullanarak Gemma 4 E2B'nin bellek alanını 1 GB'a düşürdük. Bunlar bir arada, Gemma 4'ten beklediğiniz yetenekleri ve kaliteyi korurken bellek gereksinimlerini önemli ölçüde azaltır.
Niceleme, bellek ayak izini azaltırken aynı zamanda kod çözme hızını da hızlandırarak modelleri tüketici donanımı üzerinde çalıştırmak için önemli bir teknolojidir. Ancak standart Eğitim Sonrası Niceleme (PTQ) genellikle performansın düşmesine neden olur. QAT, eğitimden sonra modeli basitçe nicelemek yerine, niceleme sürecini doğrudan eğitime entegre eder. PTQ zaten kaliteyi korumada etkili olsa da, QAT sonuçlarımız standart PTQ temel değerlerine kıyasla daha da yüksek genel kalite sağlıyor.
Tüm modellerin performansını en üst düzeye çıkarmak için bu QAT tarifini popüler Q4_0 formatına uyguladık. Uç modeller (E2B ve E4B) için, mobil cihazlara özel özel bir niceleme şemasıyla nicelemeye nasıl yaklaşacağımızı yeniden düşündük.
Modelleri yüklemek için ne kadar VRAM gerektiğini gösteren yaklaşık bellek gereksinimleri aşağıda verilmiştir:
Standart sıkıştırma formatlarının mobil işlemciler için verimli bir şekilde çalışması genellikle zordur. Gemma 4'ün mobil cihazlarda sorunsuz bir şekilde performans göstermesini sağlamak için uç donanımlara yönelik özel bir mobil niceleme şeması tasarladık:
Ses ve görüntü kodlayıcılarımıza birçok kullanım durumunda ihtiyaç duyulmadığından, yalnızca ihtiyacınız olan yöntemleri dağıtarak bellek ayak izinizi daha da optimize edebilirsiniz. Örneğin, Gemma 4 E2B salt metin modeli (Katman Başına Yerleştirmeler olmadan) 1 GB'den daha az bellek gerektirir.
Bu modelleri tercih ettiğiniz iş akışıyla kolayca kullanılabilir hale getirmek için, bugünden itibaren Gemma 4 QAT kontrol noktalarını sorunsuz bir şekilde desteklemek amacıyla ekosistemdeki popüler geliştirici araçlarıyla ortaklık kurduk:
Yerel olarak çalışan Gemma 4 ile neler oluşturacağınızı görmek için sabırsızlanıyoruz!