AI Companion AI

Punkt widzenia dyrektora ds. technicznych Zoom: jak nasze integracyjne podejście do sztucznej inteligencji maksymalizuje wydajność, jakość i przystępność cenową

5 min czytania

Opublikowano 28 listopada 2023

Punkt widzenia dyrektora ds. technicznych Zoom: jak nasze integracyjne podejście do sztucznej inteligencji maksymalizuje wydajność, jakość i przystępność cenową
Xuedong Huang
Xuedong Huang
Dyrektor ds. technologii

Xuedong Huang jest dyrektorem ds. technologii (CTO). Przed dołączeniem do Zoom pracował w firmie Microsoft, gdzie pełnił funkcję dyrektora ds. technologii i pracownika technicznego ds. sztucznej inteligencji dla platformy Azure. Jego kariera w przestrzeni sztucznej inteligencji jest wybitna: w 1993 r. założył grupę ds. technologii mowy w firmie Microsoft, kierował zespołami ds. sztucznej inteligencji w firmie Microsoft, które osiągnęły kilka pierwszych w branży kamieni milowych w zakresie rozpoznawania mowy na poziomie ludzkim, tłumaczenia maszynowego, rozumienia języka naturalnego i widzenia komputerowego, jest członkiem IEEE i ACM oraz wybranym członkiem Narodowej Akademii Inżynierii i Amerykańskiej Akademii Sztuki i Nauki.

Xuedong uzyskał tytuł doktora nauk ekonomicznych na Uniwersytecie w Edynburgu w 1989 r. (sponsorowany przez brytyjski ORS i stypendium Uniwersytetu w Edynburgu), tytuł magistra informatyki na Uniwersytecie Tsinghua w 1984 r. oraz licencjat z informatyki na Uniwersytecie Hunan w 1982 r.

Przeczytaj nasze najnowsze informacje dotyczące Zoom AI oraz sukcesu opartego na federacyjnym podejściu.

Rozpoczęcie pracy nad sztuczną inteligencją, od koncepcji po realizację, przypomina krętą drogę, naznaczoną ciągłymi zakłóceniami, modyfikacjami i innowacjami. Wykonując tę pracę przez ostatnie 30 lat, byłem nie tylko naocznym świadkiem ewolucji sztucznej inteligencji, od rozpoznawania mowy i rozumienia języka naturalnego po rozpoznawanie obrazów, ale również odgrywałem w niej aktywną rolę. Tempo innowacji w ciągu ostatnich sześciu miesięcy, odkąd dołączyłem do Zoom, było szczególnie zdumiewające.

W Zoom wykorzystujemy sztuczną inteligencję, aby usprawnić współpracę międzyludzką i produktywność. Zoom AI to kluczowy element naszych innowacji, stworzony po to, by zwiększyć produktywność, ułatwić płynną współpracę i pomóc ci uzyskać głębszy wgląd w dane, co pozwoli usprawnić sposób pracy na platformie Zoom. Dzięki zintegrowanemu podejściu firmy Zoom do sztucznej inteligencji możemy udostępniać funkcje AI w Zoom Workplace bez dodatkowych kosztów w ramach płatnych usług przypisanych do twojego konta użytkownika Zoom*. Oto bliższe spojrzenie na naszą sztuczną inteligencję i sposób, w jaki zapewnia ona wysokiej jakości wydajność w niższej cenie.

Integracyjne podejście Zoom do sztucznej inteligencji

Zoom od lat oferuje usługi sztucznej inteligencji, takie jak rozpoznawanie mowy, rozpoznawanie obrazów, tłumaczenie maszynowe i duże modele językowe (LLM), aby usprawnić komunikację. Używane przez nas LLM obejmują LLM firmy Zoom, a także modele zewnętrzne GPT 3.5 i GPT 4 OpenAI oraz Claude 2 Anthropic. Nasze integracyjne podejście może obejmować nowsze LLM, takie jak GPT 4 Turbo OpenAI, stworzone przez naszych partnerów, zarówno typu open source, jak i zamkniętego, aby nadal ulepszać doświadczenia klientów Zoom.

Stosujemy strategię obniżania kosztów, zgodnie z którą najpierw wykorzystujemy tańszy LLM najbardziej odpowiedni do zadania. Nasze narzędzie Z-Scorer następnie ocenia początkową jakość wykonania zadania i w razie potrzeby używamy bardziej zaawansowanego LLM, aby poprawić realizację zadania w oparciu o to, co zostało osiągnięte za pomocą początkowego LLM. Jest to podobna zasada jak w przypadku współpracy — zgrany zespół jest w stanie skuteczniej stworzyć produkt wyższej jakości niż jakakolwiek pojedyncza osoba.

Porównanie wydajności z innymi LLM

Dzięki naszemu integracyjnemu podejściu do sztucznej inteligencji, zgodnie z naszymi własnymi testami wewnętrznymi, nasz zespół poprawił względną jakość Zoom AI w porównaniu z podejściami jednomodelowymi, takimi jak OpenAI GPT-3.5 Turbo (względna różnica wynosi 99% vs 93% oceny jakości, zgodnie z naszą zastrzeżoną metodologią oceny jakości) lub kilkoma innymi najnowocześniejszymi modelami LLM. 

Mierzymy wydajność jako połączenie niższych kosztów, krótszego czasu reakcji i wyższej jakości wyników. W porównaniu z modelem GPT-4-32k firmy OpenAI wykorzystywanym przez Microsoft Copilot nasza funkcja zadawania pytań na spotkaniu oferuje niższe koszty i szybszy czas odpowiedzi przy zachowaniu porównywalnej jakości sztucznej inteligencji, jak pokazano na Rysunku 1.

Rysunek 1. Integracyjna sztuczna inteligencja Zoom przedstawiona jako względny procent wyników GPT-4-32k OpenAI pod względem kluczowych wskaźnikach (kosztów i jakości) dla zapytania Zoom AI dotyczącego spotkania. Microsoft Copilot korzysta z GPT-4 OpenAI we współpracy z programem Microsoft Graph i innymi składnikami. Nie używamy danych klientów do trenowania naszych modeli sztucznej inteligencji, ale wykorzystaliśmy dane ze spotkań wewnętrznych Zoom do testów porównawczych z modelem GPT-4 OpenAI wykorzystywanym przez Microsoft Copilot przedstawionych na tym wykresie. 

Możliwości naszych modeli są dodatkowo widoczne w wydajności naszej obsługi wielojęzycznej, która obsługuje teraz 32 języki (w wersji zapoznawczej) poza angielskim. Zdając sobie sprawę, że większość LLM jest przede wszystkim wstępnie przeszkolona przy użyciu danych zdominowanych przez język angielski, dodaliśmy modele tłumaczeniowe, aby rozszerzyć nasze możliwości wielojęzyczne. Tłumacząc transkrypcje w języku innym niż angielski na język angielski przy użyciu modeli tłumaczeniowych Zoom do wielojęzycznego podsumowania spotkań Zoom AI, bierzemy pod uwagę jednocześnie nie tylko przetłumaczone dane, ale także dane oryginalne. Jak pokazano na Rysunku 2, nasz model doprowadził nie tylko do znacznej poprawy jakości wyników sztucznej inteligencji w stosunku do GPT-3.5, ale także do zbliżenia się do jakości sztucznej inteligencji GPT-4-32k (względnie 97%) przy kosztach niższych niż 6% kosztów GPT-4-32k.

Rysunek 2. Integracyjna sztuczna inteligencja Zoom przedstawiona jako względny procent wyników GPT-4-32k OpenAI dla wielojęzycznego podsumowania Zoom AI w 32 językach innych niż angielski, w tym chińskim, francuskim, niemieckim, włoskim, japońskim, portugalskim i hiszpańskim. Microsoft Copilot korzysta z GPT-4 OpenAI we współpracy z programem Microsoft Graph i innymi składnikami. Do testów porównawczych z modelem GPT-4 OpenAI wykorzystywanym przez Microsoft Copilot przedstawionych na tym wykresie użyto danych zebranych ze spotkań wewnętrznych Zoom. 

Przykłady te podkreślają skuteczność integracyjnego podejścia Zoom do sztucznej inteligencji, płynnie łączącego mocne strony różnych systemów uczenia maszynowego w celu zapewnienia wysokiej wydajności wyników. 

Zwycięskie podejście do sztucznej inteligencji

Uważamy, że korzyści płynące ze sztucznej inteligencji powinny być szeroko dostępne dla jak największej liczby osób. Nasze integracyjne podejście do sztucznej inteligencji odgrywa dużą rolę w urzeczywistnianiu tej wizji, dlatego, podczas gdy inne firmy pobierają dodatkowe opłaty za każdego użytkownika, my jesteśmy w stanie udostępnić wiele funkcji opartych na sztucznej inteligencji w Zoom Workplace bez dodatkowych kosztów dla klientów korzystających z kwalifikujących się płatnych planów Zoom*. 

Zachęcamy do wypróbowania funkcji AI w Zoom Workplace – zobacz nasz przewodnik dla początkujących, aby dowiedzieć się więcej o włączaniu tych funkcji i używaniu ich. Jeśli nie masz kwalifikującego się płatnego planu Zoom, przejdź na wyższy plan już dziś, aby uzyskać dostęp do funkcji Zoom AI. 

* Uwaga: część funkcji AI w Zoom Workplace może być niedostępna w przypadku niektórych regionów lub branż.

 

Nasi klienci nas kochają

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom – jedna platforma do połączeń