Wir testeten unseren föderierten KI-Ansatz unter anderem auch anhand der neuen DeepSearchQA-Benchmark von Google. Mit dieser Benchmark werden KI-Agenten bei komplexen, mehrstufigen Suchaufgaben in 17 Bereichen evaluiert. Veröffentlicht wurde die Benchmark am 11. Dezember 2025, zusammen mit dem neuen Google-Agenten Gemini Deep Research. Die Benchmark testet, wie gut KI-Systeme mit Anfragen umgehen, die nicht nur eine einzige Antwort oder nicht nur allgemeine Informationen erfordern.
DeepSearchQA umfasst eine große Auswahl anspruchsvoller, manuell erstellter Aufgaben. Diese testen die Fähigkeit eines Agenten, komplexe Suchpläne auszuführen, um umfassende Antwortlisten zu generieren. Der föderierte KI-Ansatz von Zoom erreichte in unseren Tests eine Genauigkeit von 76,3 % und übertraf damit den bisherigen Bestwert von 66,1 %.
Dass wir diese neue Rekordmarke knacken konnten, offenbart eine wichtige Erkenntnis: Erfolgsentscheidend für diese Modelle ist eine systematische Strukturierung und Anwendung von KI. Wir kombinieren OpenAI GPT-5 und Gemini 3 Pro Preview in internen Tests mithilfe unseres firmeneigenen agentischen föderierten Rahmenwerks. Nach dem Prinzip „Erkunden–Verifizieren–Föderieren“ gelingt es uns mit diesem Ansatz, Problemstellungen umfassend zu analysieren und Fakten zuverlässig zusammenzuführen – besser als jedes einzelne Modell das könnte.
Ergebnisse für Benchmarks von Drittanbietern, zuletzt aktualisiert am 10. Dezember 2025
Diese Ergebnisse belegen, dass das föderierte Modell von Zoom keine bloße Zusammenführung einzelner Lösungen darstellt. Es ist ein skalierbares Denksystem, das sich an diverse Schwierigkeitsgrade und Themengebiete anpassen kann. Bei unserem Durchbruch in Humanity's Last Exam erwiesen sich unsere Prinzipien als sehr effektiv für agentische Anwendungen auf Enterprise-Niveau, bei denen die Zuverlässigkeit und Gedankentiefe wichtiger sind als die Latenzzeiten.
Unser Modell ist innovativ, da wir die besten verfügbaren Modelle zu einem System verknüpfen, statt lediglich ein weiteres monolithisches Modell bereitzustellen. Wir priorisieren die Zuverlässigkeit der Ergebnisse und die Koordinierung der Systeme, statt nur auf die reine Skalierbarkeit zu achten.