← AI Bülten

Microsoft, 365 Copilot Araştırmacı Agenttechcommunity'ye çok modelli Eleştiri ve Konseyi ekler.

31.03.2026 Kaynak: techcommunity.microsoft.com 37 görüntülenme

Bugün, Araştırmacı (Microsoft 365 Copilot'nin iş için derin araştırma temsilcisi) ileriye doğru önemli bir adım atıyor. İş akışındaki karmaşık araştırmaların üstesinden gelmek üzere tasarlanan Researcher, artık doğruluk, derinlik ve güven konusunda çıtayı yükselten iki yeni çoklu model özelliğiyle daha da ileri gidiyor: Eleştiri ve Konsey.

Critique, karmaşık araştırma görevleri için tasarlanmış yeni bir çok modelli derin araştırma sistemidir. Üretimi değerlendirmeden ayırır ve Anthropic ve OpenAI dahil olmak üzere Frontier laboratuvarlarından alınan modellerin bir kombinasyonunu kullanır. Bir model, görevi planlayarak, erişim yoluyla yineleyerek ve ilk taslağı üreterek oluşturma aşamasını yönetirken, ikinci bir model, nihai rapor üretilmeden önce uzman bir incelemeci olarak hareket ederek inceleme ve iyileştirmeye odaklanır. Değerlendirmelerimiz, bu mimarinin geleneksel tek model yaklaşımlarını aştığını ve sınıfının en iyisi derin araştırma kalitesini sunduğunu gösteriyor. Bu tasarım, sistem geliştikçe bu rolleri zaman içinde destekleme ve genişletme yeteneğiyle birlikte, oluşturucu ve gözden geçiren rolleri arasında açık bir seçeneklilik sağlar.

DRACO (Derin Araştırma Doğruluğu, Tamlık ve Nesnellik), 10 alanı kapsayan 100 karmaşık araştırma görevinde kıyaslama puanları alır. Researcher with Critique hariç tüm sonuçlar orijinal makaleden [Zhong ve diğerleri, arXiv:2602.11685 (Şubat 2026)] alınmıştır. Critique'li Araştırmacı, makalede bildirilen en iyi sistem olan Perplexity Deep Research'e (Claude Opus 4.6 modeli) kıyasla +%13,88 ile toplam puanda +7,0 puanlık (SEM ±1,90) önemli bir iyileşme elde etti.

Konsey, Araştırmacı deneyiminde birden fazla model yanıtını yan yana getirir. Ek olarak bir ön yazı, modellerin hangi noktalarda aynı fikirde olduğu, hangi noktalarda farklılaştığı ve her birinin konuya getirdiği benzersiz görüşler hakkında değerli bilgiler sağlar.

Birçok AI araştırma iş akışı, planlama, kaynak bulma, sentez ve yazmayı ele almak için tek bir modele dayanır, ancak Critique, sorumlulukları iki AI ortağı arasında bölüştürerek farklı bir yaklaşım benimser; biri derin araştırma ve yapılandırılmış sentez için optimize edilmiş, ikincisi ise iddiaları doğrulamaya, sunumu iyileştirmeye ve yapıyı güçlendirmeye odaklanmıştır. Bu mimari, oluşturma kadar değerlendirmeye de önem vererek, gerçeklere dayalı doğruluk, analitik kapsam ve sunum açısından daha yüksek kaliteli sonuçlar sağlayan güçlü bir geri bildirim döngüsü oluşturur. Critique, Researcher'da varsayılan deneyim olacaktır ve model seçicide Otomatik seçildiğinde kullanılabilir.

Eleştiri, akademik ve profesyonel araştırma ortamlarında yürütülenlere benzer bir inceleme sürecini takip eder. Değerlendirme tablosuna dayalı değerlendirme (inceleyeni ikinci bir yazara dönüştürmeden raporun güçlendirilmesine odaklanan yapılandırılmış bir inceleme) etrafında oluşturulmuştur. İncelemeyi yapan kişi, raporu çeşitli açılardan inceler ve ardından aşağıdaki boyutlara odaklanarak geliştirilmiş bir rapor oluşturur:

- Kaynak Güvenilirliği Değerlendirmesi. İncelemeyi yapan kişi, doğrulanabilir ve araştırma bağlamınıza uygun kanıtlara öncelik vererek saygın, yetkili ve alana uygun kaynakların kullanımını vurgular.

- Rapor Tamlığı. İncelemeyi yapan kişi, nihai raporun ilgili ve benzersiz bilgilerle talebinizin amacını kapsamlı bir şekilde karşılayıp karşılamadığını değerlendirir.

- Kesin Kanıtların Temelinin Uygulanması. İncelemeyi yapan kişi, her önemli iddianın kesin alıntılarla güvenilir kaynaklara dayandırılmasını gerektiren muhafazakar bir temellendirme standardı uygular; bu da nihai raporun gerçek doğruluğunu, güvenilirliğini ve güvenini güçlendirir.

Critique'i, Şubat 2026'da Perplexity ve akademiden araştırmacılar tarafından tanıtılan, 10 alanda 100 karmaşık derin araştırma görevi olan DRACO kriterine (Derin Araştırma Doğruluğu, Tamlık ve Nesnellik) göre değerlendirdik [Zhong ve diğerleri.arXiv:2602.11685]. Bu araştırma görevleri, büyük ölçekli bir araştırma sisteminde yürütülen anonimleştirilmiş gerçek dünya kullanım modellerinden kaynaklanmaktadır. Sistem yanıtları göreve özel değerlendirme listelerine göre dört boyuta göre derecelendirilir: gerçeklere dayalı doğruluk, analizin genişliği ve derinliği, sunum kalitesi ve alıntı kalitesi.

DRACO sonuçları, makalede bildirilen üç yargıç modelinin en katı olanı olan LLM yargıcı olarak OpenAI'nin GPT-5.2'si kullanılarak değerlendirildi. Karşılaştırma belgesinde yayınlanan aynı değerlendirme protokolünü ve yapılandırmayı uyguladık, böylece elmalar ile elmalar arasında bir karşılaştırma yapılmasına yardımcı olduk. Tüm ölçümlerde sonuçlar, tam DRACO veri kümesindeki puanların ortalaması alınarak hesaplandı ve her soru beş bağımsız çalışmada değerlendirildi.

Critique'in avantajlarını daha iyi anlamak için, DRACO'nun tanımladığı dört değerlendirme ekseninde yeni mimariyi tek modelli Araştırmacıyla (aynı GPT-5.2 değerlendirmesini kullanarak) karşılaştırdık.

En büyük gelişmeyi Analiz Genişliği ve Derinliğinde (+3,33), ardından Sunum Kalitesinde (+3,04) ve Gerçek Doğrulukta (+2,58) görüyoruz. Tüm boyutlar istatistiksel olarak anlamlı iyileşmeler göstermektedir (eşleştirilmiş t testi, p

Kaynağa Git techcommunity.microsoft.com

Kaynağa Git →