AI Companion

Wie wir uns auf die nächste Ära der KI vorbereiten

Xuedong Huang, der CTO von Zoom, erklärt, wie kleine Sprachmodelle (SLMs) unsere Vision vorantreiben, dass KI-Agenten in einem föderierten Ansatz zusammenarbeiten, um Ihre täglichen Aufgaben zu erleichtern. 

Aktualisiert am February 25, 2025

Veröffentlicht am February 19, 2025

Platzhalter für Bild
Xuedong Huang
Xuedong Huang
Chief Technology Officer (Technikvorstand, CTO)

Xuedong Huang ist Chief Technology Officer (CTO). Vor Zoom war er bei Microsoft, wo er als CTO und Technical Fellow von Azure AI tätig war. Er hat im KI-Bereich eine glanzvolle Karriere vorzuweisen: Er gründete 1993 die Sprachtechnologiegruppe von Microsoft und führte die KI-Teams von Microsoft dazu, einige der ersten Meilensteine der Branche auf dem Niveau menschlicher Parität bei Spracherkennung, maschineller Übersetzung, natürlichem Sprachverständnis und Computer Vision zu erreichen. Darüber hinaus ist er IEEE- und ACM-Fellow und gewähltes Mitglied der National Academy of Engineering und der American Academy of Arts and Sciences.

Xuedong erhielt 1989 seinen Ph.D. in Elektrotechnik von der Universität Edinburgh (gefördert durch die britische ORS und den Edinburgh University Scholarship), 1984 seinen M.Sc. in Informatik von der Universität Tsinghua und 1982 seinen B.Sc. in Informatik von der Universität Hunan.

Bei Zoom konzentrieren wir uns weiterhin auf KI-gestützte Innovation, die unsere kontinuierliche Erforschung der KI-orientierten Transformation durch den Zoom AI Companion vorantreibt. Im vergangenen Jahr habe ich dargelegt, wie unser föderierter Ansatz hochwertige Ergebnisse liefert und wie unser Fokus auf die Qualität der Spracherkennung eine bessere Grundlage für unsere anderen KI-Funktionen schafft. Da sich die künstliche Intelligenz ständig weiterentwickelt, beschleunigen wir die Einführung von Agentic AI.

Was ist Agentic AI?

Bisher hat sich die künstliche Intelligenz auf große Sprachmodelle (LLMs) verlassen, um auf Benutzereingaben zu reagieren und generierte Antworten bereitzustellen. Es gibt jedoch noch viel mehr Möglichkeiten, wenn wir berücksichtigen, wie SLMs maßgeschneiderte KI-Agenten ermöglichen können. Wir entwickeln AI Companion, um Agentic AI dabei zu unterstützen, eine Reihe von mehrstufigen Aktionen in Ihrem Namen auszuführen.

Wenn wir KI als Mitarbeiter und nicht als eigenständige Fähigkeiten und Antworten betrachten, bedeutet dies, dass sie über die Eingabe von Aufforderungen zur Lieferung einfacher Ergebnisse hinausgehen und stattdessen eine Erweiterung von uns selbst und unseren Zielen sein sollten. Um das zu erreichen, verfügen unsere KI-Agenten über folgende Eigenschaften:

  • Argumentation und Planung: Situationen analysieren und Strategien entwickeln. Es kann eigenständig Ziele mit Weitblick und Intelligenz verfolgen.
  • Erinnerung und Reflexion: Lernen Sie aus der Vergangenheit und passen Sie deren Strategien an, um ein autonomes Wachstum zu fördern, das der menschlichen Entwicklung gleicht.
  • Ausführung von Aktionen: Verwendet die richtigen Werkzeuge, um die Absicht in reale Effekte umzusetzen.
  • Zusammenarbeit mehrerer Mitarbeiter: Delegiert und verwaltet Fähigkeiten oder mehrere Mitarbeiter, um die Ziele zu erreichen.

Um diese KI-Agenten Wirklichkeit werden zu lassen, freuen wir uns, einen bedeutenden Meilenstein auf diesem Weg bekannt zu geben: Unser neu entwickeltes Small Language Model (SLM) hat in der Kategorie der 2-Milliarden-Parameter auf der öffentlichen Benchmark-Bestenliste eine Spitzenleistung erzielt. Durch die Anpassung über das kommende AI Studio von Zoom gestalten wir die SLMs von Zoom so, dass sie bei spezialisierten Workloads die Qualität der branchenführenden LLMs erreichen. Dies wird den Weg für AI Companion ebnen, um komplexe Agentic AI Aufgaben mit mehreren KI-Agenten durchzuführen, die in unübertroffener Kosteneffizienz zusammenarbeiten. 

Im föderierten KI-Ansatz von Zoom setzen wir nicht auf ein einziges, umfassendes Modell, sondern befürworten die Orchestrierung mehrerer maßgeschneiderter Modelle. Die SLMs von Zoom sind darauf ausgelegt, diesen Ansatz zu verbessern, indem sie für bestimmte Aufgaben optimiert werden. Durch die Verteilung der Arbeitslasten auf maßgeschneiderte SLMs mit entsprechenden Mitarbeitern—während wir gleichzeitig führende LLMs nutzen—streben wir an, mehrere wichtige Vorteile zu erzielen:

  • Aufgabenspezifische Exzellenz: Jeder Mitarbeiter kann mit Hilfe geeigneter Domänendaten und Feinabstimmungsansätze präzise auf die Erfüllung spezifischer Leistungskriterien optimiert werden.
  • Geschwindigkeit und Skalierbarkeit: Kompaktere Modelle erleichtern die Anpassung, Wartung und Skalierung und ermöglichen schnellere Inferenzprozesse und Aktualisierungen.
  • Kosteneffizienz: Angepasste kleinere Modelle erfordern weniger Rechenressourcen und geringere Entwicklungskosten.

Lassen Sie uns besprechen, was dieser Durchbruch bedeutet und wie er sich genau im Vergleich zu führenden Modellen behauptet.

Wie gut unsere neuen SLMs im Vergleich zu den heutigen LLMs abschneiden

Um das SLM von Zoom zu erstellen, haben wir 6 Billionen Token mehrsprachiger Daten und 256 Nvidia H100-GPUs verwendet. Von Anfang bis Ende dauerte der gesamte Schulungszyklus etwa 30 Tage. Die folgenden Tabellen zeigen, wie sich die SLM-Fähigkeit von Zoom im Vergleich zu anderen Modellen bei mehreren öffentlichen Benchmarks gemäß unseren internen Tests behauptet:

  • MMLU: Bewertet Sprachmodelle mit Multiple-Choice-Fragen, die 57 verschiedene Themen abdecken – von Mathematik und Geschichte bis zu Recht und Ethik – und prüft ein breites Spektrum an faktischem und konzeptionellem Verständnis.
  • MMLU-Pro: Eine Erweiterung von MMLU, dieser Benchmark konzentriert sich auf hochwertige MINT-Probleme und spezialisierte Denkherausforderungen und fordert die Modelle heraus, tiefere technische Fähigkeiten zu demonstrieren.
  • GPQA: Ein anspruchsvoller Datensatz mit 448 Multiple-Choice-Fragen, die von Fachexperten aus Biologie, Physik und Chemie erstellt wurden, um fachspezifische Expertise rigoros zu bewerten.
  • BBH: Konzentriert sich auf besonders anspruchsvolle kognitive und problemlösende Aufgaben und bewertet fortgeschrittene Denk- und Verständnisfähigkeiten in Sprachmodellen.

Gemäß der gängigen Praxis der Community haben wir die Genauigkeit dieser Benchmarks mit dem Lighteval-Tool bewertet, das 5 Beispielaufnahmen für MMLU und MMLU-Pro, 2 Beispielaufnahmen für GPQA und 3 Beispielaufnahmen für BBH bereitstellte.

Tabelle 1. Zoom SLM im Vergleich zu anderen SLMs in der Kategorie 2B (höhere Bewertungen sind besser).

Im Allgemeinen bleiben SLMs bei diesen Qualitätsmaßstäben weniger wettbewerbsfähig als führende LLMs, wie OpenAIs GPT-4o-mini, ohne Anpassung für eine spezifische Domäne oder Aufgabe, wie in Tabelle 2 gezeigt.

Tabelle 2. Zoom SLM, ohne Anpassung, ist weniger wettbewerbsfähig als LLMs jenseits der Kategorie 2B, wie OpenAI GPT 4o-mini.

Das interessanteste Ergebnis ist jedoch, dass diese SLMs außergewöhnliche Fähigkeiten bieten können, wenn sie für eine spezialisierte Aufgabe angepasst werden. Durch die Anpassung mit dem AI Studio von Zoom erwarten wir, die Qualitätslücke im Vergleich zu teureren LLMs effektiv zu verringern. Angepasste SLMs können als spezialisierte KI-Agenten fungieren, um Schlüsselaufgaben in der Orchestrierung mit LLMs auszuführen, wobei die Verbesserung von Genauigkeit, Geschwindigkeit und Kosteneffizienz für jeden KI-Agenten im Vordergrund steht. 

Maßgeschneiderte SLMs können bei Aufgaben wie der maschinellen Übersetzung herausragende Leistungen erbringen. Durch die Anpassung des SLM mit 11,5 Milliarden Tokens (einschließlich synthetischer Daten), die für maschinelle Übersetzungen entwickelt wurden, haben wir die weit verbreiteten COMET-22-Qualitätsmetriken über 14 Sprachpaare hinweg erheblich verbessert, darunter wichtige Sprachen wie Chinesisch, Englisch, Französisch, Japanisch, Portugiesisch und Spanisch , wie in Tabelle 3 gezeigt. 

Unsere SLMs können auch angepasst werden, um den AI Companion Agentic AI-Benchmark für die Slot-Dekodierung zu unterstützen, der misst, wie gut das Modell Benutzerbefehle bei der Ausführung von Aktionen interpretiert. Mit 2 Milliarden synthetischen Token für die Domänendaten der Agentic AI übertrifft das angepasste SLM auch GPT-4o-mini, wie in Tabelle 3 gezeigt wird. 

Diese Kombination aus Effizienz und Anpassungsfähigkeit soll es Zoom ermöglichen, seine stark verbesserte maschinelle Übersetzung unseren weltweiten Kunden anzubieten und das Zoom AI Studio bei der Anpassung an spezifische Agentic AI-Workloads zu unterstützen. 

Tabelle 3. Angepasstes Zoom SLM vs. OpenAI GPT-4o-mini bei spezialisierten Workloads, höhere Punktzahlen sind besser.

 

Zoom für das Zeitalter der Agentic AI vorbereiten

Diese maßgeschneiderten SLMs werden das Rückgrat unserer KI-Agenten bilden, indem sie effizienter laufen und vergleichbare Ergebnisse wie die teureren LLMs erzielen, die derzeit von den Menschen verwendet werden. Mithilfe unserer föderierten KI werden diese KI-Agenten und -Fähigkeiten unübertroffene Effizienz, Kosteneinsparungen und Genauigkeit fördern. 

Wir sind stolz auf unsere Fortschritte – und das ist erst der Anfang. Unsere Vision ist es, jede Organisation mit KI-Agenten auszustatten, die kosteneffiziente und leistungsstarke Lösungen bieten. Mit den zusätzlichen Fähigkeiten von KI-Agenten und SLMs unterstützt Sie AI Companion dabei, einen Arbeitsplatz zu schaffen, an dem Sie mehr erreichen und Ihre beste Arbeit leisten können.

Unsere Kunden sind begeistert

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox
Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom – die Schaltzentrale Ihrer Kommunikation