AI Companion

So bereiten wir uns auf die nächste Ära der KI vor

Xuedong Huang, der CTO von Zoom, erklärt, wie kleine Sprachmodelle (SLMs) unsere Vision vorantreiben, dass KI-Agenten in einem föderierten Ansatz zusammenarbeiten, um Ihre täglichen Aufgaben zu erleichtern. 

Aktualisiert am February 25, 2025

Veröffentlicht am February 19, 2025

Platzhalter für Bild
Xuedong Huang
Xuedong Huang
Chief Technology Officer (Technikvorstand, CTO)

Xuedong Huang ist Chief Technology Officer (CTO). Vor Zoom war er bei Microsoft, wo er als CTO und Technical Fellow von Azure AI tätig war. Er hat im KI-Bereich eine glanzvolle Karriere vorzuweisen: Er gründete 1993 die Sprachtechnologiegruppe von Microsoft und führte die KI-Teams von Microsoft dazu, einige der ersten Meilensteine der Branche auf dem Niveau menschlicher Parität bei Spracherkennung, maschineller Übersetzung, natürlichem Sprachverständnis und Computer Vision zu erreichen. Darüber hinaus ist er IEEE- und ACM-Fellow und gewähltes Mitglied der National Academy of Engineering und der American Academy of Arts and Sciences.

Xuedong erhielt 1989 seinen Ph.D. in Elektrotechnik von der Universität Edinburgh (gefördert durch die britische ORS und den Edinburgh University Scholarship), 1984 seinen M.Sc. in Informatik von der Universität Tsinghua und 1982 seinen B.Sc. in Informatik von der Universität Hunan.

Bei Zoom konzentrieren wir uns weiterhin auf Innovation, die unsere kontinuierliche Erforschung der KI-gestützten Transformation durch den Zoom AI Companion vorantreibt. Im vergangenen Jahr habe ich dargelegt, wie unser föderierter Ansatz hochwertige Ergebnisse liefert und wie unser Fokus auf die Qualität der Spracherkennung eine bessere Grundlage für unsere anderen KI-Funktionen schafft. Da sich die künstliche Intelligenz ständig weiterentwickelt, beschleunigen wir die Einführung von Agentic AI.

Was ist Agentic AI?

Bislang stütze sich künstliche Intelligenz auf große Sprachmodelle (LLMs), um auf Benutzereingaben zu reagieren und generierte Antworten bereitzustellen. Es gibt jedoch noch viel mehr Möglichkeiten, wenn wir berücksichtigen, wie SLMs speziell angepasste KI-Agenten ermöglichen können. Wir entwickeln AI Companion, um Agentic AI dabei zu unterstützen, eine Reihe von mehrstufigen Aktionen in Ihrem Namen auszuführen.

Wenn wir KI als Agenten und nicht als eigenständige Fähigkeiten und Antworten betrachten, bedeutet dies, dass sie über die Eingabe von Aufforderungen zur Lieferung einfacher Ergebnisse hinausgeht und stattdessen eine Erweiterung von uns selbst und unseren Zielen sein sollte. Um das zu erreichen, verfügen unsere KI-Agenten über folgende Eigenschaften:

  • Argumentation und Planung: Situationen analysieren und Strategien entwickeln. Sie können eigenständig Ziele mit Weitblick und Intelligenz verfolgen.
  • Erinnerung und Reflexion: Sie lernen aus der Vergangenheit und passen ihre Strategien an, wodurch ein autonomes Wachstum ähnlich der menschlichen Entwicklung gefördert wird.
  • Ausführung von Aktionen: Sie nutzen die geeigneten Tools, um die Absicht in reale Auswirkungen umzusetzen.
  • Zusammenarbeit mehrerer Agenten: Sie delegieren und verwalten Fähigkeiten oder mehrere Agenten, um die Ziele zu erreichen.

Wir freuen uns, einen bedeutenden Meilenstein auf dem Weg zur Realisierung dieser KI-Agenten bekannt zu geben: Unser neu entwickeltes kleines Sprachmodell (SLM) hat auf der öffentlichen Benchmark-Rangliste eine Spitzenleistung in der Kategorie bis 2 Milliarden Parameter erzielt. Durch die Anpassung über das demnächst erscheinende AI Studio von Zoom gestalten wir die SLMs von Zoom so, dass sie bei spezialisierten Workloads die Qualität der branchenführenden LLMs erreichen. Dies wird den Weg für AI Companion ebnen, um komplexe Agentic-AI-Aufgaben mit mehreren KI-Agenten durchzuführen, die in unübertroffener Kosteneffizienz zusammenarbeiten. 

Im föderierten KI-Ansatz von Zoom setzen wir nicht auf ein einziges, umfassendes Modell, sondern befürworten die Orchestrierung mehrerer speziell angepasster Modelle. Die SLMs von Zoom sind darauf ausgelegt, diesen Ansatz zu verbessern, indem sie für bestimmte Aufgaben optimiert werden. Durch die Verteilung der Arbeitslasten auf angepasste SLMs mit entsprechenden Agenten – bei gleichzeitiger Nutzung führender LLMs – streben wir an, mehrere wichtige Vorteile zu erzielen:

  • Aufgabenspezifische Exzellenz: Jeder Agent kann mit Hilfe geeigneter Domänendaten und Feinabstimmungsansätze präzise auf die Erfüllung spezifischer Leistungskriterien optimiert werden.
  • Geschwindigkeit und Skalierbarkeit: Kompaktere Modelle erleichtern die Anpassung, Wartung und Skalierung. Zudem ermöglichen sie schnellere Schlussfolgerungen und Aktualisierungen.
  • Kosteneffizienz: Angepasste kleinere Modelle erfordern weniger Rechenressourcen und geringere Entwicklungskosten.

Sprechen wir darüber, was dieser Durchbruch bedeutet und wie er im Vergleich zu führenden Modellen genau abschneidet.

So schneiden unsere neuen SLMs im Vergleich zu den heutigen LLMs ab

Um das SLM von Zoom zu erstellen, haben wir 6 Billionen Token mehrsprachiger Daten und 256 Nvidia H100-GPUs verwendet. Von Anfang bis Ende dauerte der gesamte Schulungszyklus etwa 30 Tage. Die folgenden Tabellen zeigen, wie die SLM-Fähigkeiten von Zoom im Vergleich zu anderen Modellen bei mehreren öffentlichen Benchmarks gemäß unseren internen Tests abschneiden:

  • MMLU: Bewertet Sprachmodelle mit Multiple-Choice-Fragen, die 57 verschiedene Themen abdecken – von Mathematik und Geschichte bis zu Recht und Ethik – und prüft ein breites Spektrum an faktischem und konzeptionellem Verständnis.
  • MMLU-Pro: Dieser Benchmark ist eine Erweiterung von MMLU. Er konzentriert sich auf hochwertige MINT-Probleme und spezielle Denkaufgaben, um die Modelle herauszufordern, umfassendere technische Fähigkeiten zu demonstrieren.
  • GPQA: Ein anspruchsvoller Datensatz mit 448 Multiple-Choice-Fragen, die von Fachexperten aus Biologie, Physik und Chemie erstellt wurden, um fachspezifische Kompetenz rigoros zu bewerten.
  • BBH: Konzentriert sich auf besonders anspruchsvolle kognitive und problemlösungsorientierte Aufgaben und bewertet fortgeschrittene Denk- und Verständnisfähigkeiten in Sprachmodellen.

Gemäß der gängigen Praxis der Community haben wir die Genauigkeit dieser Benchmarks mit dem Tool Lighteval bewertet, das 5 Beispiel-Shots für MMLU und MMLU-Pro, 2 Beispiel-Shots für GPQA und 3 Beispiel-Shots für BBH bereitstellte.

Tabelle 1. Zoom SLM im Vergleich zu anderen SLMs in der Kategorie 2B (höhere Bewertungen sind besser).

Im Allgemeinen sind SLMs bei diesen Qualitätsmaßstäben weniger wettbewerbsfähig als führende LLMs, wie OpenAIs GPT-4o-mini, sofern sie nicht für eine bestimmte Domäne oder Aufgabe angepasst wurden, wie in Tabelle 2 dargestellt.

Tabelle 2. Das Zoom SLM ohne Anpassung, ist weniger wettbewerbsfähig als LLMs außerhalb der Kategorie 2B, wie OpenAI GPT 4o-mini.

Das interessanteste Ergebnis ist jedoch, dass diese SLMs außergewöhnliche Fähigkeiten bieten können, wenn sie für eine spezialisierte Aufgabe angepasst werden. Durch die Anpassung mit dem AI Studio von Zoom erwarten wir, die Qualitätslücke im Vergleich zu teureren LLMs effektiv zu verringern. Angepasste SLMs können als spezialisierte KI-Agenten fungieren, um Schlüsselaufgaben in der Orchestrierung mit LLMs auszuführen, wobei die Verbesserung von Genauigkeit, Geschwindigkeit und Kosteneffizienz für jeden KI-Agenten im Vordergrund steht. 

Angepasste SLMs können bei Aufgaben wie der maschinellen Übersetzung herausragende Leistungen erbringen. Durch die Anpassung des SLM mit 11,5 Milliarden Tokens (einschließlich synthetischer Daten), die für maschinelle Übersetzungen entwickelt wurden, haben wir die weit verbreiteten COMET-22-Qualitätsmetriken über 14 Sprachpaare hinweg erheblich verbessert, darunter wichtige Sprachen wie Chinesisch, Englisch, Französisch, Japanisch, Portugiesisch und Spanisch , wie in Tabelle 3 gezeigt. 

Unsere SLMs können auch angepasst werden, um den AI Companion Agentic AI-Benchmark für die Slot-Dekodierung zu unterstützen, der misst, wie gut das Modell Benutzerbefehle bei der Ausführung von Aktionen interpretiert. Mit 2 Milliarden synthetischen Token für die Domänendaten der Agentic AI übertrifft das angepasste SLM auch GPT-4o-mini, wie in Tabelle 3 gezeigt wird. 

Diese Kombination aus Effizienz und Anpassungsfähigkeit soll es Zoom ermöglichen, unsere stark verbesserte maschinelle Übersetzung unseren weltweiten Kunden anzubieten und das Zoom AI Studio bei der Anpassung an spezifische Agentic AI-Workloads zu unterstützen. 

Tabelle 3. Angepasstes Zoom SLM vs. OpenAI GPT-4o-mini bei spezialisierten Workloads, höhere Werte sind besser.

 

Zoom für das Zeitalter der Agentic AI vorbereiten

Diese angepassten SLMs werden das Rückgrat unserer KI-Agenten bilden, indem sie effizienter laufen und vergleichbare Ergebnisse wie die teureren LLMs liefern, die derzeit verwendet werden. Mithilfe unserer föderierten KI werden diese KI-Agenten und -Fähigkeiten zu einer beispiellosen Effizienz, Kosteneinsparung und Genauigkeit beitragen. 

Wir sind stolz auf unsere Fortschritte – und das ist erst der Anfang. Unsere Vision ist es, jedes Unternehmen mit KI-Agenten auszustatten, die kosteneffiziente und leistungsstarke Lösungen bieten. Mit den erweiterten Fähigkeiten von KI-Agenten und SLMs unterstützt Sie AI Companion dabei, einen Arbeitsplatz zu schaffen, an dem Sie mehr erreichen und Ihr Bestes geben können.

Unsere Kunden sind begeistert

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox
Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom – die Schaltzentrale Ihrer Kommunikation