AI Companion

Jak przygotowujemy się na następną erę sztucznej inteligencji

CTO Zoom, Xuedong Huang, wyjaśnia, jak małe modele językowe (SLM, ang. Small Language Model) napędzają naszą wizję współpracy agentów AI w ramach podejścia federacyjnego, aby usprawnić codzienne zadania.

Aktualizacja: February 25, 2025

Opublikowano February 19, 2025

W tym poście na blogu

01 Czym jest Agentowa AI? - Jumplink to Czym jest Agentowa AI?
02 Jak nasze nowe SLM wypadają na tle dzisiejszych LLM - Jumplink to Jak nasze nowe SLM wypadają na tle dzisiejszych LLM
03 Przygotowanie Zoom do ery Agentowej AI - Jumplink to Przygotowanie Zoom do ery Agentowej AI

Xuedong Huang

Dyrektor ds. technologii

Xuedong Huang jest dyrektorem ds. technologii (CTO). Przed dołączeniem do Zoom pracował w firmie Microsoft, gdzie pełnił funkcję dyrektora ds. technologii i pracownika technicznego ds. sztucznej inteligencji dla platformy Azure. Jego kariera w przestrzeni sztucznej inteligencji jest wybitna: w 1993 r. założył grupę ds. technologii mowy w firmie Microsoft, kierował zespołami ds. sztucznej inteligencji w firmie Microsoft, które osiągnęły kilka pierwszych w branży kamieni milowych w zakresie rozpoznawania mowy na poziomie ludzkim, tłumaczenia maszynowego, rozumienia języka naturalnego i widzenia komputerowego, jest członkiem IEEE i ACM oraz wybranym członkiem Narodowej Akademii Inżynierii i Amerykańskiej Akademii Sztuki i Nauki.

Xuedong uzyskał tytuł doktora nauk ekonomicznych na Uniwersytecie w Edynburgu w 1989 r. (sponsorowany przez brytyjski ORS i stypendium Uniwersytetu w Edynburgu), tytuł magistra informatyki na Uniwersytecie Tsinghua w 1984 r. oraz licencjat z informatyki na Uniwersytecie Hunan w 1982 r.

W Zoom koncentrujemy się na innowacjach, co napędza naszą ciągłą eksplorację opartej na sztucznej inteligencji transformacji realizowanej z wykorzystaniem AI Companion Zoom. W zeszłym roku podzieliłem się tym, jak nasze podejście federacyjne zapewnia wysokiej jakości wyniki oraz jak nasze skupienie na jakości rozpoznawania mowy tworzy lepszą podstawę dla naszych innych funkcji AI. W miarę jak sztuczna inteligencja się rozwija, przyspieszamy wdrażanie Agentowej AI.

Dotychczas sztuczna inteligencja polegała na dużych modelach językowych (LLM, ang. Large Language Model), aby odpowiadać na zapytania użytkowników i dostarczać generowane odpowiedzi. Jednak istnieje znacznie więcej możliwości, gdy rozważamy, jak SLM mogą umożliwiać korzystanie z dostosowanych agentów AI. Tworzymy AI Companion, aby wspierać Agentową AI w zarządzaniu serią wieloetapowych działań w Twoim imieniu.

Gdy postrzegamy sztuczną inteligencję jako agenty, a nie jako samodzielne umiejętności i odpowiedzi, oznacza to, że wykraczają one poza wprowadzanie promptów celem dostarczania prostych wyników i powinny być rozszerzeniem nas samych oraz naszych celów. Aby to zrobić, nasze agenty AI mają następujące cechy charakterystyczne:

Rozumowanie i planowanie: analiza sytuacji i opracowywanie strategii. Mogą autonomicznie dążyć do celów, posługując się przewidywaniem i inteligencją.
Pamięć i refleksja: nauka na podstawie przeszłości i dostosowywanie jej strategii, co sprzyja autonomicznemu wzrostowi podobnemu do rozwoju człowieka.
Wykonywanie działań: używanie właściwych narzędzi do przekształcania intencji w rzeczywiste efekty.
Współpraca z wieloma agentami: delegowanie i zarządzanie umiejętnościami lub wieloma agentami, aby osiągać cele.

Aby pomóc w urzeczywistnieniu takich agentów AI, z radością ogłaszamy znaczący kamień milowy w tej podróży: nasz nowo opracowany mały model językowy (SLM) osiągnął wydajność zgodną z najnowszym stanem wiedzy w kategorii 2 miliardów parametrów w publicznym rankingu wyników testów porównawczych. Dzięki dostosowywaniu za pomocą nadchodzącego AI Studio Zoom, projektujemy modele SLM Zoom, aby osiągnąć jakość wiodącego w branży LLM w specjalistycznych zastosowaniach. To utoruje drogę dla AI Companion do wykonywania złożonych zadań Agentowej AI z wieloma agentami AI, a ich współpraca przyniesie niezrównaną opłacalność.

W federacyjnym podejściu Zoom do sztucznej inteligencji, zamiast polegać na jednym, kompleksowym dużym modelu, opowiadamy się za orkiestracją wielu dostosowanych modeli. Modele SLM Zoom zostały zaprojektowane, aby ulepszyć to podejście poprzez optymalizację dla konkretnych zadań. Rozdzielając obciążenia między dostosowane SLM z odpowiednimi agentami, a jednocześnie wykorzystując wiodące LLM, dążymy do osiągnięcia kilku istotnych korzyści:

Doskonałość specyficzna dla zadania: każdy agent może być precyzyjnie optymalizowany przy użyciu danych z odpowiedniej dziedziny i metod precyzyjnego dostrajania, aby spełnić określone kryteria wydajności.
Szybkość i skalowalność: bardziej kompaktowe modele ułatwiają dostosowywanie, konserwację i skalowanie, umożliwiając szybsze wnioskowanie i aktualizacje.
Opłacalność: dostosowane mniejsze modele wymagają mniej zasobów obliczeniowych i obniżają koszty rozwoju.

Przyjrzyjmy się temu, co oznacza ten przełom i jak dokładnie wypada na tle wiodących modeli.

Aby opracować SLM Zoom, użyliśmy 6 bilionów tokenów danych wielojęzycznych i 256 procesorów graficznych Nvidia H100. Od początku do końca cały cykl szkolenia trwał około 30 dni. Poniższe tabele opisują, jak zdolności SLM Zoom wypadają na tle innych modeli w kilku publicznych testach porównawczych opartych na naszych wewnętrznych testach.

MMLU: ocenia modele językowe za pomocą pytań wielokrotnego wyboru obejmujących 57 różnych dziedzin — od matematyki i historii po prawo i etykę — testując w ten sposób szeroki zakres zrozumienia faktów i pojęć.
MMLU-Pro: ten test porównawczy, który jest rozszerzeniem MMLU, koncentruje się na wysokiej jakości problemach STEM i specjalistycznych wyzwaniach związanych z rozumowaniem, zmuszając modele do wykazania się głębszą biegłością techniczną.
GPQA: wymagający zestaw danych składający się z 448 pytań wielokrotnego wyboru stworzonych przez ekspertów z dziedziny biologii, fizyki i chemii, zaprojektowany do rygorystycznej oceny specjalistycznej wiedzy w danej dziedzinie.
BBH: koncentruje się na szczególnie wymagających zadaniach poznawczych i rozwiązywaniu problemów, oceniając zaawansowane zdolności rozumowania i pojmowania w modelach językowych.

Zgodnie z powszechną praktyką społeczności oceniliśmy dokładność tych testów porównawczych za pomocą narzędzia Lighteval, które dostarczyło 5 zestawów przykładów dla MMLU i MMLU-Pro, 2 zestawy przykładów dla GPQA i 3 zestawy przykładów dla BBH.

*Tabela 1. Zoom SLM w porównaniu z innymi modelami SLM w kategorii 2B (im wyższe wyniki, tym lepiej).*

Ogólnie rzecz biorąc, SLM-y — bez dostosowania do konkretnej dziedziny lub zadania — pozostają mniej konkurencyjne w tych miarach jakości niż wiodące LLM-y, takie jak GPT-4o-mini OpenAI, co pokazano w tabeli 2.

*Tabela 2. SLM Zoom, bez dostosowywania*, *jest mniej konkurencyjny w porównaniu do LLM-ów poza kategorią 2B, takich jak OpenAI GPT 4o-mini.*

Jednak najciekawszym wynikiem jest to, że te SLM-y mogą oferować wyjątkowe możliwości, gdy są dostosowane do specjalistycznego zadania. Dzięki dostosowaniu za pomocą AI Studio Zoom spodziewamy się skutecznie zmniejszyć lukę jakościową w porównaniu z droższymi LLM. Dostosowane SLM mogą działać jako wyspecjalizowane agenty do wykonywania kluczowych zadań we współpracy z LLM, priorytetowo traktując poprawę dokładności, szybkości i opłacalności dla każdego agenta AI.

Dostosowane SLM mogą wyróżniać się w zadaniach, takich jak tłumaczenie maszynowe. Dzięki dostosowaniu SLM z użyciem 11,5 miliarda tokenów (w tym danych syntetycznych) zaprojektowanych do tłumaczenia maszynowego, znacznie poprawiliśmy szeroko przyjęte wskaźniki jakości COMET-22 w 14 parach językowych, obejmujących główne języki, takie jak chiński, angielski, francuski, japoński, portugalski i hiszpański , jak pokazano w tabeli 3.

Nasze SLM-y można również dostosować do obsługi testu porównawczego AI Companion dla Agentowej AI do dekodowania slotów, który mierzy, jak dobrze model interpretuje polecenia użytkownika podczas wykonywania akcji. Dzięki 2 miliardom syntetycznych tokenów danych domeny Agentowej AI, dostosowany SLM również przewyższa GPT-4o-mini, jak pokazano w tabeli 3.

To połączenie wydajności i zdolności adaptacyjnych ma na celu umożliwienie Zoom dostarczenia znacznie ulepszonego tłumaczenia maszynowego naszym klientom na całym świecie, a także wsparcie dostosowywania Zoom AI Studio do określonych obciążeń Agentowej AI.

*Tabela 3. Dostosowany SLM Zoom w porównaniu do OpenAI GPT-4o-mini w specjalistycznych obciążeniach, wyższe wyniki są lepsze.*

Te dostosowane SLM będą stanowić trzon naszych agentów AI, działając bardziej efektywnie i osiągając wyniki porównywalne do droższych LLM, z których obecnie korzystają ludzie. Dzięki naszej federacyjnej sztucznej inteligencji te agenty i umiejętności AI pomogą osiągnąć niezrównaną wydajność i dokładność oraz doprowadzą do obniżenia kosztów.

Jesteśmy dumni z naszych postępów, a to dopiero początek. Naszą wizją jest wyposażenie każdej organizacji w agenty AI, które dostarczają opłacalne i wysokowydajne rozwiązania. Dzięki dodatkowym możliwościom agentów AI i modelom SLM rozwiązanie AI Companion pomoże Ci stworzyć miejsce pracy, w którym możesz zrobić więcej i pracować efektywniej.