Xuedong Huang è il Chief Technology Officer (CTO). Prima di far parte di Zoom, ha lavorato in Microsoft, dove ha ricoperto il ruolo di CTO e Technical Fellow di Azure AI. La sua è una carriera brillante nel settore dell'IA: ha fondato il gruppo di tecnologia vocale di Microsoft nel 1993, ha diretto i team per l'IA di Microsoft in modo da raggiungere molti dei primi traguardi della parità umana del settore nel riconoscimento vocale, nella traduzione automatica, nella comprensione del linguaggio naturale e nella visione computerizzata. È un IEEE e ACM Fellow e un membro eletto della National Academy of Engineering e dell'American Academy of Arts and Sciences.
Xuedong ha conseguito il dottorato di ricerca in ingegneria elettrica presso l'Edinburgh University nel 1989 (sponsorizzato dall'ORS britannico e con una borsa di studio dell'università di Edimburgo), il master in informatica presso la Tsinghua University nel 1984 e la laurea in CS presso la Hunan University nel 1982.
Intraprendere il viaggio trasformativo dell'IA dalla concettualizzazione alla realizzazione assomiglia a una strada tortuosa, segnata da continue interruzioni, adattamenti e innovazioni. Avendo intrapreso questo viaggio negli ultimi 30 anni, ho avuto un posto in prima fila e ho svolto un ruolo attivo nell'evoluzione dell'IA, dal riconoscimento vocale e dalla comprensione del linguaggio naturale alla visione artificiale. Il ritmo dell'innovazione negli ultimi sei mesi, da quando sono entrato a far parte di Zoom, è stato particolarmente sorprendente.
Noi di Zoom utilizziamo l’IA per migliorare la collaborazione e la produttività umana. Zoom AI è un elemento fondamentale della nostra innovazione, progettato per aumentare la produttività, facilitare la collaborazione senza interruzioni e aiutarti a ottenere informazioni più approfondite per migliorare il modo in cui lavori sulla piattaforma Zoom. L’approccio federato di Zoom all‘IA ci consente di includere le funzionalità IA di Zoom Workplace senza costi aggiuntivi nei servizi a pagamento assegnati al tuo account utente Zoom*. Ecco uno sguardo più da vicino alla nostra IA e alla sua capacità di offrire prestazioni di alta qualità a un costo inferiore.
L'approccio federato di Zoom all'IA
Zoom offre da anni servizi di IA come il riconoscimento vocale, la visione artificiale, la traduzione automatica e i modelli linguistici di grandi dimensioni (LLM) per migliorare la comunicazione. Gli LLM che utilizziamo includono l'LLM di Zoom, nonché i modelli di terze parti OpenAI GPT 3.5 e GPT 4 e Anthropic Claude 2. Il nostro approccio federato può incorporare LLM più recenti, come GPT 4 Turbo di OpenAI, dei nostri partner, LLM open source e closed-source, per continuare a migliorare le esperienze end-to-end per i clienti Zoom.
Aderiamo a una strategia economicamente vantaggiosa che impiega innanzitutto un LLM a basso costo più adatto al compito. Il nostro Z-Scorer valuta quindi la qualità del completamento dell'attività iniziale e, se necessario, utilizziamo un LLM più avanzato per aumentare il completamento dell'attività in base a ciò che è stato ottenuto dall'LLM iniziale, in modo simile al modo in cui un team coeso che collabora è in grado di creare un prodotto di qualità superiore in modo più efficiente di qualsiasi individuo.
Confronto delle prestazioni con altri LLM
Grazie al nostro approccio federato all’IA, secondo i test interni, il nostro team ha migliorato la qualità relativa di Zoom AI rispetto agli approcci a modello singolo, come OpenAI GPT-3.5 Turbo (con una differenza relativa del 99% contro il 93% nel punteggio di qualità, secondo la nostra metodologia proprietaria di valutazione), o rispetto a diversi altri modelli linguistici di ultima generazione.
Misuriamo le prestazioni come una combinazione di costi ridotti, tempi di risposta più rapidi e risultati di qualità superiore. Rispetto al modello GPT-4-32k di OpenAI, utilizzato come proxy di Microsoft Copilot, la nostra funzionalità di domande in riunione offre costi inferiori e tempi di risposta più rapidi, mantenendo al contempo una qualità dell’IA comparabile, come mostrato nella Figura 1.
Figura 1. L’IA federata di Zoom espressa in percentuale relativa rispetto a OpenAI GPT-4-32k sulle principali metriche di costo e qualità per l’attività di domande in riunione di Zoom AI. Microsoft Copilot ha utilizzato GPT-4 di OpenAI orchestrato con Microsoft Graph e altri componenti. Non utilizziamo i dati dei clienti per addestrare i nostri modelli AI; per questo confronto sono stati utilizzati dati interni delle riunioni Zoom a fini di benchmarking, con GPT-4 come proxy di Microsoft Copilot.
La potenza dei nostri modelli è ulteriormente dimostrata dalle prestazioni multilingue, che ora supportano 32 lingue (in anteprima), oltre all’inglese. Considerando che la maggior parte dei modelli linguistici di grandi dimensioni (LLM) viene addestrata inizialmente con dati prevalentemente in inglese, abbiamo aggiunto dei modelli di traduzione per ampliare le nostre capacità multilingue. Traducendo in inglese le trascrizioni disponibili in altre lingue tramite i modelli di traduzione di Zoom per il riepilogo multilingue delle riunioni di Zoom AI, prendiamo in considerazione simultaneamente sia i dati tradotti sia quelli originali. Come mostra la Figura 2, il nostro modello non solo ha portato a un miglioramento significativo della qualità dell’IA rispetto a GPT-3.5, ma si è anche avvicinato alla qualità dell’IA di GPT-4-32k (97% relativo), mantenendo i costi sotto il 6%.
Figura 2. L’IA federata di Zoom in percentuale relativa rispetto a OpenAI GPT-4-32k per l’attività di riassunto multilingue di Zoom AI in 32 lingue diverse dall’inglese, tra cui cinese, francese, tedesco, italiano, giapponese, portoghese e spagnolo. Microsoft Copilot ha utilizzato OpenAI GPT-4 insieme a Microsoft Graph e altri componenti. Per questo grafico sono stati utilizzati dati interni delle riunioni Zoom a fini di benchmarking, con GPT-4 di OpenAI come proxy per Microsoft Copilot.
Questi esempi sottolineano l'efficacia dell'approccio federato di Zoom all'IA, che combina perfettamente i punti di forza di diversi sistemi di apprendimento automatico per fornire risultati ad alte prestazioni.
Un approccio vincente per l'IA
Riteniamo che i vantaggi dell’IA debbano essere accessibili al maggior numero possibile di persone. Il nostro approccio federato all’IA svolge un ruolo importante nel dare vita a questa visione. Per questo motivo, mentre altre aziende addebitano un costo aggiuntivo per utente, noi siamo in grado di includere molte funzionalità di IA in Zoom Workplace senza costi aggiuntivi per i clienti con piani Zoom a pagamento idonei*.
Ti invitiamo a provare le funzionalità di IA di Zoom Workplace in prima persona: consulta la nostra guida introduttiva per maggiori informazioni sull’attivazione e sull’utilizzo di queste funzionalità. Se non hai un piano Zoom a pagamento idoneo, effettua ora l’upgrade per accedere ai vantaggi di Zoom AI.
*Nota: alcune funzionalità di IA in Zoom Workplace potrebbero non essere disponibili per tutte le regioni o per tutti i settori.